شبکه نوآوری

گوگل Gemini چیست؟ آشنایی با مدل زبانی قدرتمند جمنای

مدل‌های زبانی بزرگ مثل GPT-4 دنیای هوش مصنوعی را متحول کرده‌اند. استفاده از GPT-4 و GPT-3.5 در چت‌بات ChatGPT باعث شد تا گوگل با سرعت و قدرت بیشتری هوش مصنوعی اختصاصی خود را توسعه دهد. نتیجه این رقابت، عرضه Google Gemini از سمت گوگل بود. اما گوگل جمنای دقیقا چیست؟ چه کاربردی دارد و چطور می‌تواند به تهدیدی علیه ChatGPT تبدیل شود؟ با ما همراه باشید تا هر آنچه را که لازم است در مورد Google Gemini بدانید، پیدا کنید.
Google Gemini چیست؟
Gemini آخرین مدل زبانی بزرگ گوگل (LLM) است. توضیح کامل اینکه LLM چیست به یک مقاله مجزا نیاز دارد اما به عبارت ساده، مدل‌های زبانی بزرگ به سیستم‌های هوش مصنوعی گفته می‌شود که با استفاده از میلیاردها پارامتر آموزش دیده‌اند تا بتوانند همانند انسان‌ها درک کنند، پاسخ دهند و مطابق با نیازها محتوا تولید کنند.

بر خلاف تصور بسیاری از افراد، مدل‌های زبانی مانند GPT و Gemini ربات‌های گفتگو یا چت‌بات نیستند؛ بلکه سیستم‌های هوش مصنوعی(Al)هستند که توسعه چنین ابزارهایی را ممکن می‌سازند. جمنای هم با همین فلسفه متولد شده تا در مجموعه وسیعی از ابزارهای گوگل مانند چت‌بات گوگل بارد، موتور جستجوی گوگل، یوتیوب، سیستم عامل اندروید و … مورد استفاده قرار بگیرد.
نکته مهم در مورد جمنای، چندوجهی (Multimodal) بودن آن است؛ به این معنی که می‌تواند متن، صدا، تصویر و حتی ویدئو را درک کند. علاوه بر این، گوگل ادعا می‌کند که جمنای قادر است مسائل پیچیده فیزیک و ریاضی را درک و حتی کدهایی با کیفیت بالا در زبان‌های برنامه‌نویسی معروف تولید کند. با این توصیفات باید جمنای را پیشرفته‌ترین و بزرگ‌ترین مدل زبانی بزرگ (LLM) دانست، اما بگذارید کمی بیشتر در مورد ویژگی‌های Google Gemini صحبت کنیم.

ویژگی‌های کلیدی Google Gemini
ویژگی‌های کلیدی هوش مصنوعی Gemini شامل موارد زیر است. عمده این ویژگی‌ها به لطف آموزش چندوجهی با میلیاردها داده میسر شده است.

⦁ درک متن، تصاویر، صدا و موارد دیگر
گوگل جمنای در حقیقت یک هوش مصنوعی چندوجهی است که در آن انواع داده‌های مختلف با الگوریتم‌های متعدد ادغام می‌شوند تا بهترین عملکرد ممکن را ارائه دهند. Gemini از این الگوها استفاده می‌کند و می‌تواند تصاویر، صدا، متن، ویدیو و دیگر انواع داده‌ها را پردازش و درک کند.
۲. قابلیت اطمینان، مقیاس‌پذیری و کارایی
هوش مصنوعی Gemini از تراشه‌های TPUv5 گوگل استفاده می‌کند و بسیاری از رسانه‌ها ادعا دارند که جمنای پنج برابر قوی‌تر از GPT-4 است. با اینکه بنچمارک‌ها چنین اختلافی را نشان نمی‌دهند، اما پردازش سریع‌تر، Gemini را قادر می‌سازد تا کارهای پیچیده را آسان‌تر از سایر تکنولوژی‌ها انجام دهد و به چندین درخواست به طور همزمان رسیدگی کند.
۳. توانایی درک استدلال‌های پیچیده
گوگل جمنای با استفاده از مجموعه داده عظیمی شامل متن، کد، تصویر و.. آموزش دیده است. این تضمین می‌کند که Gemini می‌تواند به جدیدترین اطلاعات دسترسی داشته باشد و پاسخ‌های دقیق و قابل اعتمادی به سؤالات شما ارائه دهد. به گفته گوگل، این مدل در تست‌های مختلف هوش (مثل معیار MMLU) از GPT-4 بهتر عمل می‌کند.
۴. کدنویسی پیشرفته
Google Gemini می‌تواند کدهایی را با کیفیت بالا، در پرکاربردترین زبان‌های برنامه‌نویسی مانند Python، Java، C++ و Go درک کرده، تولید کند و توضیح دهد. جمنای با چنین قابلیتی می‌تواند به یک مدل زبانی پیشرو برای کدنویسی تبدیل شود. علاوه بر این، گوگل جمنای در چندین معیار کدنویسی، از جمله HumanEval (یک استاندارد صنعتی برای ارزیابی عملکرد کدینگ)، برتری‌های خود را ثابت کرده است.
۵. مسئولیت‌پذیری و ایمنی
استراتژی‌های حفاظتی جدیدی به اصول و خط‌مشی‌های هوش مصنوعی Google اضافه شده تا قابلیت‌های چندوجهی Gemini را ایمن و مسئولیت‌پذیر کند. گوگل می‌گوید که تحقیقات جدیدی در مورد خطرهای بالقوه مانند حملات سایبری، متقاعد کردن و خودمختاری انجام داده‌اند و از بهترین تکنیک‌های تست خصمانه برای شناسایی مسائل ایمنی حیاتی استفاده کرده‌اند.

نسخه‌های Gemini کدامند؟
گوگل می‌گوید جمنای، جانشین LaMDA و PalM 2 و انعطاف‌پذیرترین مدل آن‌ها است که می‌تواند روی همه چیز، از مراکز داده تا دستگاه‌های تلفن همراه اجرا شود. قابلیت‌های پیشرفته Gemini، به توسعه‌دهندگان و سازمان‌ها کمک می‌کند تا از هوش مصنوعی برای افزایش مقیاس و ساخت محصولات جدید استفاده کنند.

در حال حاضر سه نسخه از هوش مصنوعی Google Gemini وجود دارد:
۱. Gemini Nano: نسخه Gemini Nano کارآمدترین مد‌ل برای استفاده در دستگاه‌های روزمره است که استفاده از هوش مصنوعی جمنای را بدون اتصال به سرورهای خارجی ممکن می‌کند. به عبارت دیگر، جمنای نانو برای اجرا روی گوشی‌های هوشمند، به ویژه گوگل پیکسل ۸، طراحی شده است.
۲. Gemini Pro: جمنای پرو برای وظایف پیچیده‌تر بهینه شده و در Bard، جدیدترین چت‌بات گوگل و همچنین یوتیوب و موتور جستجوی گوگل مورد استفاده قرار می‌گیرد. بنابراین نسخه پرو می‌تواند پرس‌و‌جوهای پیچیده را درک کند و به سرعت به آن‌ها پاسخ دهد.
۳. Gemini Ultra: در نهایت نسخه Ultra را باید بزرگ‌ترین و تواناترین مدل جمنای دانست که می‌تواند اطلاعات ظریف متنی، کد، صدا و تصویر را درک کند و به سوالات مرتبط با موضوعات پیچیده پاسخ دهد. جمنای اولترا در ۳۰ معیار از ۳۲ معیار پرکاربرد مورد استفاده در توسعه LLM، از بهترین نتایج موجود قبلی، عملکرد بهتری داشته است.

گوگل جمنای چگونه کار می‌کند؟
گوگل می‌گوید که جمنای یک انقلاب در مدل‌های هوش مصنوعی چندوجهی است؛ چرا که قبل از آن، مدل‌های هوش مصنوعی چندوجهی با ترکیب چندین مدل آموزش‌دیده به طور جداگانه توسعه داده می‌شدند. به عنوان مثال، پردازش متن و تصویر به طور جداگانه آموزش داده و سپس در یک مدل واحد ترکیب می‌شدند تا ویژگی‌های یک مدل چندوجهی واقعی را پیاده کنند.

مهم‌ترین تفاوت جمنای همین است؛ گوگل Gemini را از همان ابتدا با یک مجموعه داده چندین میلیاردی از متون، تصاویر، ویدیو و صدا آموزش داده‌ است. سپس به کمک تکنیک‌هایی مثل یادگیری تقویتی با بازخورد انسانی (RLHF) مدل را برای پاسخ‌های بهتر و ایمن‌تر، تنظیم کردند.
گوگل ادعا می‌کند که Gemini می‌تواند «به‌طور یکپارچه همه نوع ورودی‌ها را از پایه بفهمد و استدلال کند». برای مثال، می‌تواند نمودارها و زیرنویس‌های همراه آن‌ها را درک کند، متن را از روی نشانه‌ها بخواند و حتی آن‌ها را تحلیل کند. همه این‌ها به مدل‌های Gemini اجازه می‌دهد تا به درخواست‌ها با متن، تصویر و کد تولید شده پاسخ دهد.‌

GEMINI چه کارهایی می‌تواند انجام دهد؟
همانطور که گفتیم، Google Gemini می‌تواند با اشکال مختلف ورودی و خروجی از جمله متن، کد، صدا، تصویر و ویدئو سروکار داشته باشد که به آن انعطاف زیادی در انجام طیف گسترده‌ای از وظایف می‌دهد.

در ویدیویی که گوگل درباره هوش مصنوعی خود منتشر کرده است، می‌بینیم که جمنای می‌تواند در بازی توپ و فنجان به راحتی توپ کاغذی را پیدا کند و حتی زمانی که فرد دست خود را به شکل بازی سنگ کاغذ قیچی تکان می‌دهد، جمنای تشخیص می‌دهد که فرد در حال انجام این بازی است. همچنین جمنای به راحتی توپ‌های بافتنی و رنگ آن‌ها تشخیص می‌دهد و زمانی که آزمایش‌کننده از او می‌خواهد چند ایده در مورد چیزهایی که می‌توان با این بافتنی‌ها ساخت بدهد، جمنای تصاویری از عروسک‌ها و اشیا بافتنی ارائه می‌دهد که همگی توسط هوش مصنوعی تولید شده‌اند.
ویدیو کامل معرفی مدل زبانی گوگل Gemini را می‌توانید در اینجا ببینید.

آیا واقعا جمنای تا این حد پیشرفته است؟
با این حال، عملکرد واقعی جمنای هنوز کامل نیست و نمی‌توانیم از آن انتظار عملکردی مشابه نسخه نمایشی ویدیو را داشته باشیم. برای مثال، نسخه جمنای پرو که هم‌اکنون در چت بات Google Bard وجود دارد هم اشتباه می‌کند. جمنای در تشخیص و نام بردن از برندگان اخیر جایزه اسکار و تولید کد دقیق با مشکل مواجه شده است. علاوه بر این جمنای در بسیاری از موارد، هنگام کار به زبان‌های غیر انگلیسی به اندازه کافی دقیق نیست. در نتیجه باید گفت که جمنای قدرتمند است اما نه به اندازه‌ای که گوگل ادعا می‌کند!

بنچمارک‌های جمنای و مقایسه آن با GPT-4
مدل‌های جمنای قبلا تحت آزمایش‌های گسترده‌ای قرار گرفتند تا عملکردشان در وظایف مختلف ارزیابی شود. همانطور که گفتیم، گوگل با اشاره به عملکرد جمنای اولترا در ۳۲ معیار توسعه مدل زبانی بزرگ (LLM)، قدرت آن را به رخ رقبا می‌کشد. اما جمنای در مقایسه با GPT-4 و GPT-4V (مدل چندوجهی) چگونه عمل می‌کند؟ بیایید ابتدا تست‌های بنچمارک Google Gemini و مقایسه آن با GPT-4 را در وظایف متنی بررسی کنیم.

همانطور که در جدول بالا می‌بینید، نسخه اولترا گوگل جمنای اولین مدلی است که در زمینه درک زبان چندوظیفه‌ای عظیم (MMLU) با امتیاز ۹۰٪ از متخصصان انسانی پیشی گرفته است. MMLU یا Massive Multitask Language Understanding شامل ۵۷ موضوع مختلف از جمله ریاضی، فیزیک، تاریخ، حقوق، پزشکی و اخلاق است تا توانایی فرد در حل مسائل و درک کلی از جهان را ارزیابی کند. در مقایسه با GPT-4، نتایج جمنای خیلی شگفت‌انگیز به نظر نمی‌رسند و تفاوت‌ها تنها چند درصد است.
اما عملکرد Google Gemini در تست‌های چندوجهی چگونه است؟ جایی که گوگل می‌گوید جمنای از همان ابتدا با تریلیون‌ها داده مختلف، از متن تا ویدیو، آموزش دیده است و قرار است انقلابی در مدل‌های زبانی چندوجهی باشد. بیایید با بررسی جدول تست‌های چندوجهی و مقایسه آن با GPT-4V به این سوال پاسخ دهیم.

همانطور که در جدول بالا مشخص است، جمنای اولترا در تست جدید درک چندوجهی چندرشته‌ای عظیم یا MMMU (معادل Massive Multidiscipline Multimodal Understanding) با امتیاز ۵۹.۴ درصد به بهترین امتیاز در بین مدل‌های زبانی دست یافت، اما باز هم تفاوت نسبت به مدل GPT-4V تنها در حد چند درصد است.
در نهایت باید گفت Google Gemini شاید قدرتمندترین مدل زبانی بزرگ باشد، اما تست‌ها نشان می‌دهد پیشرفت گوگل آنقدرها که به نظر می‌رسید چشمگیر نیست. تفاوت‌های عملکردی جمنای در مقایسه با GPT-4 چندان محسوس نیست و حتی در برخی از بخش‌ها مثل تولید کد و سازگاری با زبان‌های غیرانگلیسی، پشت سر GPT-4 قرار می‌گیرد.
چگونه می‌توانید از Gemini استفاده کنید؟
توسعه‌دهندگان و مشتریان سازمانی می‌توانند از طریق API Gemini در Google AI Studio یا Google Cloud Vertex AI به نسخه پرو جمنای دسترسی داشته باشند. Google AI Studio یک IDE آنلاین (مبتنی بر مرورگر) است که توسعه‌دهندگان می‌توانند از آن برای نمونه‌سازی اولیه و راه‌اندازی آسان برنامه‌ها با استفاده از API استفاده کنند.

از طرف دیگر، Google Cloud Vertex یک پلتفرم هوش مصنوعی کاملا مدیریت شده است که همه ابزارهای مورد نیاز برای ساخت و استفاده از هوش مصنوعی مولد را ارائه می‌دهد. گوگل می‌گوید Vertex AI امکان سفارشی‌سازی Gemini را با کنترل کامل داده‌ها و بهره‌مندی از ویژگی‌های اضافی Google Cloud برای امنیت سازمانی، ایمنی، حریم خصوصی و حاکمیت داده‌ها و انطباق ارائه می‌دهد.
توسعه‌دهندگان اندروید هم می‌توانند با استفاده از  AICore، که در اندروید ۱۴ و روی موبایل‌های Pixel 8 Pro ارائه شده است، از هوش مصنوعی جمنای نانو برای توسعه برنامه‌های مورد نظر خود استفاده کنند.
سخن پایانی
در این مقاله تلاش کردیم تا کلیت هوش مصنوعی جمنای، ویژگی‌های کلیدی آن و تفاوت‌هایی که با سایر مدل‌های زبانی دارد را بررسی کنیم. مدل زبانی Google Gemini قدرتمندترین هوش مصنوعی گوگل است که به لطف چندوجهی بودن و بهره‌مندی از میلیاردها پارامتر، توانایی‌های فوق‌العاده‌ای دارد. جمنای توانایی‌های چشمگیری دارد، اما آن هوش مصنوعی خارق‌العاده و همه‌جانبه‌ای نیست که گوگل می‌خواهد آن را باور کنید. تنها از یک چیز می‌توان مطمئن بود و آن شعله‌ورتر شدن رقابت در توسعه هوش مصنوعی بین غول‌های تکنولوژی دنیاست. باید صبر کرد و دید که این فناوری جذاب و شاید ترسناک تا کجا پیش می‌رود.

مطالب مرتبط

عضویت در خبرنامه