جدیدترین نسخه در مجموعه مدلهای هوش مصنوعی این شرکت، که هدف از آن ایجاد برنامههای هوشمند در AI Studio و Vertex AI است. در حال حاضر، عاملهای هوش مصنوعی به موضوعی محبوب در میان توسعه دهندگان مدلهای یادگیری ماشین تبدیل شدهاند؛ زیرا تصور می شود بازاری برای نیروی کاری مبتنی بر نرم افزار وجود دارد که کارآمد، منظم و مقرون به صرفه باشد ، ویژگیهایی که هنوز به طور کامل در مدلهای هوش مصنوعی فعلی مشهود نیست.
عاملهای هوش مصنوعی شامل مدلهایی هستند که میتوانند وظایف چند مرحلهای را طبق دستورات پیچیده و اغلب با استفاده از منابع داده خارجی و ابزارهای مختلف انجام دهند. پیام اصلی به سهامداران شرکتهای متمرکز بر هوش مصنوعی این است: کاربران میتوانند از عامل هوش مصنوعی ما بخواهند یک تعطیلات برنامه ریزی کند و ، با اضافه کردن یک استراتژی درآمدزایی ، عامل حتی میتواند مراحل مختلف از جمله رزروها و پرداخت هزینههای حمل و نقل را انجام دهد.
با این حال، هنوز به این مرحله نرسیدهایم، چرا که اکثر مردم هنوز آماده نیستند که اختیار خرید یا دسترسی کامل به برنامهها را به مدلهای هوش مصنوعی غیرقابل اعتماد واگذار کنند. اما امید است که این نگرانیها برطرف شوند تا مردم آمادگی استفاده از این فناوری را پیدا کنند. با توجه به پذیرش ریسک در سرمایهگذاریهای ارزهای دیجیتال و رانندگی خودکار، احتمالاً این زمان چندان دور نیست.
مدیرعامل Google DeepMind، و مدیر ارشد فناوری این بخش، در بیانیها ی گفتند:
«کاربرد عملی عاملهای هوش مصنوعی، حوزهای تحقیقاتی با امکانات هیجان انگیز است. ما در حال بررسی این مرز جدید با مجموعهای از نمونههای اولیه هستیم که میتوانند به افراد کمک کنند وظایفشان را انجام دهند. این موارد شامل به روزرسانی پروژه Astra (نمونه اولیه تحقیقاتی ما برای بررسی قابلیتهای آینده یک دستیار هوش مصنوعی جهانی)، پروژه Mariner (برای کشف تعاملات انسانی و عاملها، از مرورگر شروع میشود)، و Jules (یک عامل کد نویسی هوش مصنوعی برای کمک به توسعه دهندگان) هستند.»
گوگل تمرکز خود را بر توسعه دهندگان نرمافزار گذاشته است. از طریق پلتفرمهای AI Studio و Vertex AI، این شرکت مدلهای هوش مصنوعی ارائه میدهد که میتوانند به منابع خاص داده متصل شوند تا پاسخهای مدل دقیقتر شوند و همچنین به عملکردها و ابزارهای خاص دسترسی پیدا کنند.
مدیر محصول AI Studio و Gemini API، در یک نشست خبری توضیح داد:
«AI Studio در واقع به عنوان واسطی برای توسعهدهندگان طراحی شده تا به جدیدترین مدلهای گوگل دسترسی پیدا کنند. تمام مدلهای آزمایشی که منتشر کردهایم و همچنین مدلهای تولیدی در اینجا قرار دارند. هدف این است که شما را با قابلیتهای Gemini آشنا کنیم و در نهایت شما را به سمت استفاده از Gemini API و به کارگیری آن در برنامهها و پروژههایتان سوق دهیم.»
Gemini 2.0 Flash یک سال پس از معرفی اولین مدل Gemini از سوی گوگل عرضه شده است. این مدل بخشی از مجموعهای شامل مدلهای دیگر خانواده Gemini است:
Gemini 1.0 Ultra، Gemini 1.5 Pro، Gemini 1.0 Pro، Gemini 1.5 Flash، و Gemini 1.0 Nano.
به طور کلی، نسخههای 1.5 قابلیت بیشتری نسبت به نسخههای 1.0 دارند و مدلهای بزرگ تر (Ultra، Pro، Flash، و Nano به ترتیب اندازه) عملکرد بهتری از خود نشان میدهند. گوگل معیارهایی منتشر کرده که جزئیات بیشتری ارائه میدهد. گفته میشود که Gemini 2.0 Flash دو برابر سریعتر از Gemini 1.5 Pro است و عملکرد بهتری دارد.
Gemini 2.0 Flash قابلیتهای جدیدی ارائه میدهد. این مدل چند زبانه و چند حالته است – به این معنا که میتواند متن، تصویر و صدا را به عنوان ورودی بپذیرد و در هر یک از این حالتها پاسخ دهد. همچنین دارای API چندحالته زنده است که امکان مکالمه در لحظه و تحلیل تصاویر را فراهم میکند.
علاوه بر این، مدل جدید از ابزارهای مختلف پشتیبانی میکند، از جمله اجرای کد و جستجو، که دسترسی به اطلاعات بهروز، قابلیتهای محاسباتی، و تعامل با منابع داده را بدون نیاز به تنظیمات اضافی ممکن میسازد.
همزمان با رونمایی از Gemini 2.0 Flash، گوگل در حال معرفی ابزار جدیدی به نام Jules است که قابلیتهای داده کاوی هوشمند را به Google Colab اضافه میکند. همچنین این مدل جدید در Gemini Code Assist – افزونه کد نویسی هوش مصنوعی گوگل برای محیطهای توسعهای مثل VSCode و IntelliJ PyCharm – نیز قابل استفاده است.
مدیر گروه محصول Gemini API، و کتی کوروک، مدیر محصولات Google Labs، در بیانیهای اعلام کردند:
«از امروز (برای آزمایشکنندگان مورد اعتماد)، میتوانید وظایف کدنویسی Python و JavaScript را به Jules واگذار کنید؛ یک عامل هوش مصنوعی آزمایشی که از Gemini 2.0 استفاده میکند. این ابزار به صورت همزمان و یکپارچه با جریان کاری GitHub شما کار میکند و در حالی که شما روی آنچه میخواهید بسازید تمرکز میکنید، باگها را برطرف و وظایف وقتگیر دیگر را انجام میدهد.»
بهعنوان نمایشی از تواناییهای Gemini 2.0 Flash، شرشتا باسو مالک یک بازی بیست سوالی را با این مدل انجام داد؛ او با مدل صحبت میکرد و پاسخهای آن را میشنید. همچنین از مدل خواست تعداد انگشتهایی که در یک ویدیو استریم نشان میداد را بشمارد و بگوید ناخنهایش چه رنگی هستند. مدل در هر دو مورد پاسخ قابلقبولی داد، اگرچه درباره رنگ ناخنها به جای "قرمز"، "صورتی" پاسخ داد، که به نظر ما "قرمز" پاسخ دقیقتری میبود. البته این تفاوت ممکن است ناشی از تنظیمات نمایشگر باشد.
باسو مالک همچنین نشان داد که چگونه Gemini 2.0 Flash میتواند یک دستور پیچیده چندمرحلهای را اجرا کند. او از مدل خواست پنج فیلم بلند دنی ویلنوو را شناسایی کند، زمان هرکدام را محاسبه کرده و سپس دادهها را روی یک نمودار نمایش دهد. این کار نیازمند تولید کد پایتون توسط مدل و اجرای آن در یک محیط ایزوله برای محاسبه نتایج بود.
او توضیح داد:
«این یک نوع دستور پیچیده است که باید ابتدا قسمت اول دستور را حل کنید و سپس قسمت دوم را. بعد از آن از مدل خواستم کدی بنویسد که مشخص کند کدام فیلمها طولانیترین و کوتاهترین زمان را دارند و سپس این دادهها را روی نمودار نمایش دهد.»
نمایش دیگری نیز تواناییهای چند حالته Gemini 2.0 Flash را برای تولید دستورالعملهای اشپزی نشان داد. مدل توانست تصاویر بصری تولید کند که نشان میداد مواد اولیه در یک ماهیتابه چگونه به نظر میرسند، تا متن دستورالعمل تولید شده را تکمیل کند.
لیست مطالب
صفر و یک همراه شما در دنیای دیجیتال
با خدمات ADSL2+، TD-LTE و VDSL شرکت صفر و یک، شما میتوانید از سرعت بی نظیری بهره مند شوید!
- تیم متخصص
- امنیت بالا
- آپتایم 99%
- سرعت و کارایی
- تنوع خدمات
همین حالا برای استفاده از خدمات ما تماس بگیرید.
مراجع
[1] Google Gemini 2.0 Flash comes out with real-time conversation, image analysis - theregister