گوگل در تلاش است تا با Gemini مجموعه پرچمدار مدلها، برنامهها و سرویسهای هوش مصنوعی مولد خود، توجهها را به خود جلب کند. اما هوش مصنوعی جمینای چیست؟ چگونه میتوانید از آن استفاده کنید؟ و چگونه با سایر ابزارهای هوش مصنوعی مولد مانند ChatGPT از OpenAI، Llama از Meta و Copilot از Microsoft مقایسه میشود؟
برای اینکه بتوانید راحتتر از آخرین پیشرفتهای آن مطلع شوید، این راهنمایی هوش مصنوعی جمینای را گردآوری کردهایم. تا انتهای مطلب همراهمان باشید.
معرفی هوش مصنوعی جمینای
جمینای خانواده مدلهای هوش مصنوعی مولد نسل بعدی گوگل است که مدتهاست وعده آن داده شده است. این مدل که توسط آزمایشگاههای تحقیقاتی هوش مصنوعی گوگل، دیپ مایند و گوگل ریسرچ توسعه داده شده است، در چندین مدل ارائه میشود:
- جمینای اولترا: یک مدل بسیار بزرگ.
- جمینای پرو: یک مدل بزرگ، هر چند کوچکتر از اولترا. آخرین نسخه جمینای ۲.۰ پرو، پرچمدار فعلی گوگل است.
- جمینای فلش: یک نسخه سریعتر و خلاصه شده از پرو.
- جمینای فلش لایت: نسخه کمی کوچکتر و سریعتر از جمینای فلش.
- جمینای فلش تیکینگ،:مدلی با قابلیتهای استدلال.
- جمینای نانو: دو مدل کوچک: نانو-۱ و نانو-۲ کمی توانمندتر که قرار است به صورت آفلاین اجرا شود.
آموزش هوش مصنوعی جمینای در تمامی مدلها به گونهای است که ذاتا چند وجهی باشند؛ یعنی بتوانند با چیزی بیش از متن کار کرده و آن را تجزیه و تحلیل کنند. گوگل میگوید که آنها از قبل آموزش دیدهاند و روی انواع صداها، تصاویر و ویدیوهای عمومی، اختصاصی و دارای مجوز، مجموعهای از پایگاههای کد و متن به زبانهای مختلف تنظیم شدهاند.
این امر جمینای را از مدلهایی مانند LaMDA خود گوگل که منحصرا روی دادههای متنی آموزش دیدهاند، متمایز میکند. LaMDA نمیتواند چیزی فراتر از متن (مثلا مقاله، ایمیل و غیره) را درک یا تولید کند، اما لزوما در مورد مدلهای Gemini اینطور نیست. به عنوان مثال آخرین نسخههای جمینای فلش و جمینای پرو میتوانند علاوه بر متن، تصاویر و صدا را نیز به صورت ذاتی تولید کنند.
در اینجا اشاره خواهیم کرد که اخلاق و قانونی بودن مدلهای آموزشی روی دادههای عمومی، در برخی موارد بدون اطلاع یا رضایت صاحبان دادهها مبهم است. گوگل یک سیاست جبران خسارت هوش مصنوعی دارد تا در صورت مواجهه با دعاوی، از برخی از مشتریان Google Cloud در برابر دعاوی محافظت کند، اما این سیاست شامل موارد اضافی است. پس با احتیاط عمل کنید؛ به خصوص اگر قصد استفاده تجاری از Gemini را دارید.
تفاوت بین برنامههای جمینای و مدلهای جمینای چیست؟
Gemini جدا و متمایز از برنامههای Gemini در وب و موبایل (که قبلا Bard نام داشت) است.
برنامههای Gemini کلاینتهایی هستند که به مدلهای مختلف Gemini متصل میشوند و یک رابط کاربری شبیه به چت بات را روی آن قرار میدهند. آنها را به عنوان رابط کاربری برای هوش مصنوعی مولد گوگل، مشابه ChatGPT و خانواده برنامههای Claude از Anthropic در نظر بگیرید.
جمینای تحت وب اینجا حضور دارد. در اندروید اپلیکیشن جمینای جایگزین اپلیکیشن موجود گوگل اسیستنت شده است و در iOS اپلیکیشنهای گوگل و جستجوی گوگل به عنوان کلاینتهای جمینی این پلتفرم عمل میکنند.
در اندروید کاربران میتوانند یک پوشش جمینای را برای پرسیدن سوال در مورد آنچه روی صفحه نمایششان است (مثلا یک ویدیوی یوتیوب) باز کنند. فشار دادن و نگه داشتن دکمه پاور یک گوشی هوشمند پشتیبانی شده یا گفتن «هی گوگل» این پوشش را احضار میکند.
اپلیکیشنهای جمینای میتوانند تصاویر و همچنین دستورات صوتی و متن – از جمله فایلهایی مانند PDF، آپلود شده یا وارد شده از گوگل درایو – را بپذیرند و تصویر تولید کنند. همانطور که انتظار میرود، مکالمات با اپلیکیشنهای جمینای در موبایل به جمینای در وب و برعکس منتقل میشوند، اگر در هر دو مکان به یک حساب گوگل وارد شده باشید.
جمینای پیشرفته چیست؟
اپلیکیشنهای Gemini تنها راه برای جذب کمک مدلهای Gemini در انجام وظایف نیستند. ویژگیهای الهام گرفته از Gemini در حال ورود به برنامهها و سرویسهای اصلی گوگل مانند Gmail و Google Docs هستند.
برای بهره مندی از اکثر این موارد به طرح Premium AI گوگل وان نیاز خواهید داشت. طرح Premium AI که از نظر فنی بخشی از گوگل وان است، ماهانه 20 دلار هزینه دارد و دسترسی به Gemini را در برنامههای Google Workspace مانند Docs، Maps، Slides، Sheets، Drive و Meet فراهم میکند. همچنین چیزی را که گوگل Gemini Advanced مینامد، فعال میکند که مدلهای پیچیدهتر Gemini این شرکت را به برنامههای Gemini میآورد.
کاربران Gemini Advanced نیز از امکانات اضافی مانند دسترسی اولویتدار به ویژگیها و مدلهای جدید، امکان اجرا و ویرایش کد پایتون به طور مستقیم در Gemini و افزایش محدودیتها برای NotebookLM، ابزار گوگل که فایلهای PDF را به پادکستهای تولید شده توسط هوش مصنوعی تبدیل میکند، بهرهمند میشوند. اخیرا Gemini Advanced یک ویژگی حافظه به دست آورده است که تنظیمات برگزیده کاربران را ذخیره میکند و به Gemini اجازه میدهد تا به مکالمات قدیمی به عنوان زمینهای برای چتهای فعلی اشاره کند. یکی از جذابترین محصولات انحصاری Gemini Advanced، Deep Research، از مدلهای Gemini با «استدلال پیشرفته» برای ایجاد خلاصههای دقیق استفاده میکند. Deep Research در پاسخ به یک سوال (مثلا «چگونه باید آشپزخانهام را دوباره طراحی کنم؟») یک طرح تحقیقاتی چند مرحلهای تهیه کرده و در وب جستجو میکند تا به یک پاسخ جامع برسد.
جمینای در جیمیل، داکز، کروم، ابزارهای توسعه و موارد دیگر
در جیمیل، جمینای در یک پنل کناری قرار دارد که میتواند ایمیل بنویسد و رشتههای پیام را خلاصه کند. همین پنل را در داکز نیز خواهید یافت، که به نوشتن و اصلاح محتوا و ایده پردازیهای جدید کمک میکند. جمینی در اسلایدز، اسلایدها و تصاویر سفارشی تولید کرده و در گوگل شیت دادهها را ردیابی و سازماندهی میکند و جداول و فرمول ایجاد میکند.
جمینای در گوگل مپس نیز وجود دارد؛ در آنجا میتواند نظرات مربوط به مشاغل محلی را جمعآوری کند و توصیههایی مانند نحوه گذراندن یک روز در بازدید از یک شهر خارجی ارائه دهد. دسترسی این چت بات به درایو نیز گسترش مییابد؛ در آنجا میتواند فایلها و پوشهها را خلاصه کند و اطلاعات سریعی در مورد یک پروژه ارائه دهد.
جمینای اخیرا به شکل یک ابزار نوشتاری هوش مصنوعی به مرورگر کروم گوگل آمده است. میتوانید از آن برای نوشتن یک چیز کاملا جدید یا بازنویسی متن موجود استفاده کنید؛ گوگل میگوید صفحه وبی را که در آن هستید برای ارائه توصیهها در نظر میگیرد.
در جای دیگر نشانههایی از جمینای را در محصولات پایگاه داده گوگل، ابزارهای امنیتی ابری و پلتفرمهای توسعه برنامه (از جمله Firebase و Project IDX) و همچنین در برنامههایی مانند Google Photos (که پرسوجوهای جستجوی زبان طبیعی را مدیریت میکند)، YouTube (به ایدههای ویدیویی طوفان فکری کمک میکند) و Meet (زیرنویسها را ترجمه میکند) خواهید یافت.
Code Assist (که قبلا Duet AI برای توسعه دهندگان نام داشت)، مجموعه ابزارهای کمکی مبتنی بر هوش مصنوعی گوگل برای تکمیل و تولید کد، بار محاسباتی سنگین را به جمینای واگذار میکند. محصولات امنیتی گوگل که توسط جمینای پشتیبانی میشوند، مانند جمینای در Threat Intelligence، که میتواند بخشهای بزرگی از کدهای بالقوه مخرب را تجزیه و تحلیل کند و به کاربران اجازه دهد جستجوهای زبان طبیعی را برای تهدیدات مداوم یا نشانههای خطر انجام دهند، نیز همینطور هستند.
افزونهها و جِمهای جمینای
کاربران پیشرفته جمینای میتوانند جِمها یا همان چت باتهای سفارشی روی دسکتاپ و موبایل که توسط مدلهای جمینای پشتیبانی میشوند، ایجاد کنند. جمها را میتوان با توضیحات زبان طبیعی ایجاد کرد. برای مثال، «شما مربی دویدن من هستید. یک برنامه دویدن روزانه به من بدهید» و با سایر کاربران به اشتراک گذاشته یا خصوصی نگه داشت.
اپلیکیشنهای جمینای میتوانند از طریق چیزی که گوگل آن را «افزونههای جمینی» مینامد، به سرویسهای گوگل دسترسی پیدا کنند. جمینای با درایو، جیمیل، یوتیوب و موارد دیگر ادغام میشود تا به سؤالاتی مانند «آیا میتوانی سه ایمیل آخر من را خلاصه کنی؟» پاسخ دهد.
چتهای صوتی عمیق Gemini Live
تجربهای به نام Gemini Live به کاربران امکان میدهد چتهای صوتی «عمیق» با Gemini داشته باشند. این قابلیت در برنامههای Gemini روی موبایل و Pixel Buds Pro 2 موجود است و حتی زمانی که گوشی شما قفل است نیز میتوان به آن دسترسی داشت.
با فعال کردن Gemini Live میتوانید در حین صحبت ربات چت، صحبت Gemini را قطع کنید و یک سوال روشن کننده بپرسید و ربات به صورت آنی با الگوهای گفتاری شما سازگار میشود. Live همچنین به گونهای طراحی شده است که به عنوان یک مربی مجازی عمل کند و به شما در تمرین برای رویدادها، ایده پردازی و غیره کمک کند. به عنوان مثال Live میتواند پیشنهاد دهد که در مصاحبه شغلی پیش رو کدام مهارتها را برجسته کنید و نکات سخنرانی عمومی را ارائه دهد.
جمینای برای نوجوانان
گوگل یک تجربه جمینای متمرکز بر نوجوانان را برای دانش آموزان ارائه میدهد.
جمینی متمرکز بر نوجوانان «سیاستها و اقدامات حفاظتی بیشتری» دارد، از جمله یک فرآیند ورود به سیستم متناسب و یک راهنمای سواد آموزی هوش مصنوعی. به جز این موارد، تقریبا با تجربه استاندارد جمینای یکسان است، به جز ویژگی «بررسی مجدد» که در سراسر وب جستجو میکند تا ببیند آیا پاسخهای جمینای دقیق هستند یا نه.
مدلهای Gemini قادر به انجام چه کارهایی هستند؟
از آنجا که مدلهای Gemini چند وجهی هستند، میتوانند طیف وسیعی از وظایف این چنینی را انجام دهند، از رونویسی گفتار گرفته تا زیرنویس کردن تصاویر و ویدیوها به صورت بلادرنگ. بسیاری از این قابلیتها به مرحله محصول رسیدهاند و گوگل وعده چیزهای بسیار بیشتری را در آیندهای نه چندان دور میدهد.
البته گوگل هیچ راه حلی برای برخی از مشکلات اساسی فناوری هوش مصنوعی مولد امروزی، مانند تعصبات رمزگذاری شده و تمایل به ساختن چیزها (یعنی توهم) ارائه نمیدهد. رقبای آن نیز چنین کاری نمیکنند، اما این نکتهای است که باید هنگام بررسی استفاده یا پرداخت هزینه برای Gemini در نظر داشته باشید.
قابلیتهای جمینای پرو
گوگل میگوید که آخرین مدل Pro آن، Gemini 2.5 Pro، بهترین مدل کنونی برای کدنویسی و دستورات پیچیده است. 2.5 Pro در معیارهای اندازه گیری برنامه نویسی، استدلال، ریاضی و دقت واقعی از مدل قبلی خود Gemini 2.0 Pro بهتر عمل میکند. در پلتفرم هوش مصنوعی Vertex گوگل، توسعه دهندگان میتوانند جمینای پرو را از طریق یک فرآیند تنظیم دقیق یا «زمینه سازی» برای زمینهها و موارد استفاده خاص سفارشی کنند. به عنوان مثال میتوان به Pro (همراه با سایر مدلهای Gemini) دستور داد که از دادههای ارائه دهندگان شخص ثالث مانند Moody’s، Thomson Reuters، ZoomInfo و MSCI استفاده کند، یا اطلاعات را از مجموعه دادههای شرکتی یا جستجوی گوگل به جای بانک دانش گستردهتر خود تهیه کند. Gemini Pro همچنین میتواند به APIهای خارجی شخص ثالث متصل شود تا اقدامات خاصی مانند اتوماسیون در دفتر کار را انجام دهد.
پلتفرم AI Studio گوگل قالبهایی را برای ایجاد پیامهای چت ساختار یافته با Pro ارائه میدهد. توسعه دهندگان میتوانند محدوده خلاقانه مدل را کنترل کنند و مثالهایی را برای ارائه دستورالعملهای لحن و سبک ارائه دهند. همچنین تنظیمات ایمنی Pro را انجام دهند.
Gemini Flash سبک است، در حالی که Gemini Flash Thinking قابلیت استدلال را دارد.
Gemini 2.0 Flash که میتواند از ابزارهایی مانند جستجوی گوگل استفاده کند و با APIهای خارجی تعامل داشته باشد، در معیارهای اندازه گیری کدنویسی و تجزیه و تحلیل تصویر، از برخی از مدلهای بزرگتر Gemini 1.5 بهتر عمل میکند. فلش شاخهای از Gemini Pro، کوچک و کارآمد بوده و برای حجم کاری هوش مصنوعی مولد با فرکانس بالا و محدود ساخته شده است.
گوگل میگوید فلش به ویژه برای کارهایی مانند خلاصه سازی و برنامههای چت، به علاوه زیرنویس تصویر و ویدیو و استخراج دادهها از اسناد و جداول طولانی مناسب است. در همین حال Gemini 2.0 Flash-Lite نسخه فشردهتر فلش، از Gemini 1.5 Flash بهتر عمل میکند اما طبق گفته گوگل با همان قیمت و سرعت اجرا میشود.
اخیرا گوگل نسخهای «متفکر» از Gemini 2.5 Flash را منتشر کرد که قادر به «استدلال» است. این مدل هوش مصنوعی چند ثانیه طول میکشد تا قبل از ارائه پاسخ، به عقب برگردد و یک مسئله را حل کند که میتواند قابلیت اطمینان آن را بهبود بخشد.
جمینای نانو چیست؟
جمینای نانو نسخه کوچکی از جمینای است که به اندازه کافی کارآمد است تا مستقیما روی (برخی) دستگاهها اجرا شود، به جای اینکه وظیفه را به سروری در جایی دیگر ارسال کند. تاکنون نانو چندین ویژگی را در پیکسل ۸ پرو، پیکسل ۸، پیکسل ۹ پرو، پیکسل ۹ و سامسونگ گلکسی S24 از جمله خلاصه سازی در ضبط کننده و پاسخ هوشمند در Gboard پشتیبانی میکند.
برنامه ضبط کننده که به کاربران امکان میدهد با فشار دادن یک دکمه صدا را ضبط و رونویسی کنند، شامل خلاصهای از مکالمات ضبط شده، مصاحبهها، ارائهها و سایر قطعات صوتی ضبط شده توسط جمینای است. کاربران حتی اگر اتصال اینرتنتی نداشته باشند، خلاصهها را دریافت میکنند. با اشاره به حریم خصوصی، هیچ دادهای از گوشی آنها در حین پردازش خارج نمیشود.
نانو همچنین در Gboard صفحه کلید گوگل وجود دارد. در آنجا پاسخ هوشمند را پشتیبانی میکند که به شما امکان میدهد هنگام مکالمه در یک برنامه پیام رسان مانند واتساپ، حرف بعدی را که میخواهید بگویید از عبارات پیشنهادی استفاده کنید.
نسخه آینده اندروید نانو را فعال میکند تا کاربران را از کلاهبرداریهای احتمالی در طول تماسها مطلع کند. برنامه جدید هواشناسی در گوشیهای پیکسل از جمینای نانو برای تولید گزارشهای آب و هوایی سفارشی استفاده میکند. و TalkBack سرویس دسترسی گوگل، از Nano برای ایجاد توصیفات صوتی اشیا برای کاربران کمبینا و نابینا بهره میگیرد.
از جمینای اولترا فعلا خبری نیست!
ما در ماههای اخیر چیز زیادی از جمینای اولترا ندیدهایم. این مدل در برنامههای Gemini موجود نیست و در صفحه قیمت گذاری API Gemini گوگل ذکر نشده است. با این حال این بدان معنا نیست که گوگل در آینده Ultra را برنگرداند.
قیمت هوش مصنوعی Gemini چقدر است؟
Gemini 1.5 Pro، 1.5 Flash، 2.0 Flash و 2.0 Flash-Lite از طریق رابط برنامه نویسی کاربردی Gemini گوگل برای ساخت برنامهها و خدمات در دسترس هستند. آنها به صورت پرداخت در حین استفاده ارائه میشوند. قیمت پایه – بدون احتساب افزونهها – از تاریخ فوریه 2025 به شرح زیر است:
- Gemini 1.5 Pro: 1.25 دلار به ازای هر 1 میلیون توکن ورودی (برای درخواستهای تا سقف 128 هزار توکن) یا 2.50 دلار به ازای هر 1 میلیون توکن ورودی (برای درخواستهای طولانیتر از 128 هزار توکن)؛ ۵ دلار به ازای هر ۱ میلیون توکن خروجی (برای درخواستهای تا ۱۲۸ هزار توکن) یا ۱۰ دلار به ازای هر ۱ میلیون توکن خروجی (برای درخواستهای طولانیتر از ۱۲۸ هزار توکن)
- Gemini 1.5 Flash: 7.5 سنت به ازای هر ۱ میلیون توکن ورودی (برای درخواستهای تا ۱۲۸ هزار توکن)، ۱۵ سنت به ازای هر ۱ میلیون توکن ورودی (برای درخواستهای طولانیتر از ۱۲۸ هزار توکن)، ۳۰ سنت به ازای هر ۱ میلیون توکن خروجی (برای درخواستهای تا ۱۲۸ هزار توکن)، ۶۰ سنت به ازای هر ۱ میلیون توکن خروجی (برای درخواستهای طولانیتر از ۱۲۸ هزار توکن)
- Gemini 2.0 Flash: ۱۰ سنت به ازای هر ۱ میلیون توکن ورودی، ۴۰ سنت به ازای هر ۱ میلیون توکن خروجی. برای صدا، ۷۰ سنت به ازای هر ۱ میلیون توکن ورودی.
- Gemini 2.0 Flash-Lite: 7.5 سنت به ازای هر 1 میلیون توکن ورودی، 30 سنت به ازای هر 1 میلیون توکن خروجی.
توکنها بیتهای تقسیم شده از دادههای خام هستند؛ مانند هجاهای fan، tas و tic در کلمه fantastic؛ 1 میلیون توکن معادل حدود 750،000 کلمه است. ورودی به توکنهایی اشاره دارد که به مدل وارد میشوند، در حالی که خروجی به توکنهایی اشاره دارد که مدل تولید میکند.
سخن آخر
گوگل با ارائه هوش مصنوعی جمینای مجموعهای از مدلهای مولد هوش مصنوعی چندوجهی شامل اولترا، پرو، فلش و نانو را معرفی کرده که قادر به پردازش و تولید متن، صدا و تصویر هستند.
علاوه بر قابلیتهای متنوعی همچون ایجاد چت باتهای سفارشی، چت صوتی عمیق و ارائه تجربیات متناسب با نوجوانان، گوگل مشغول توسعه کاربردهای وسیعتری برای جمینای در حوزههای مختلف از جمله توسعه کد و امنیت سایبری است، اگر چه چالشهایی مانند سوگیری و توهم در این فناوری همچنان پابرجاست و قیمتگذاری آن بر اساس میزان مصرف توکنها تعیین میشود.
سوالات متداول کاربران
آیا هوش مصنوعی Gemini بهتر از GPT-4 OpenAI است؟
خیر، گفتن اینکه هوش مصنوعی Gemini بهتر از GPT-4 OpenAI است یا برعکس دشوار است؛ هر دو مدل نقاط قوت و ضعف خاص خود را دارند و انتخاب بهتر به نیازها و کاربرد خاص شما بستگی دارد.
آیا استفاده از هوش مصنوعی Gemini رایگان است؟
استفاده از برنامههای اصلی جمینای (وب و موبایل) معمولا رایگان است، اما برای دسترسی به مدلهای پیچیدهتر و ویژگیهای پیشرفتهتر مانند Gemini Advanced نیاز به پرداخت هزینه و عضویت دارید.
آیا جمینای کامل و بدون نقص است؟
خیر، مانند سایر هوش مصنوعیهای مولد امروزی، جمینای نیز ممکن است با مشکلاتی مانند سوگیریهای رمزگذاری شده و تمایل به ساختن اطلاعات نادرست (توهم) مواجه شود.