Штучний інтелект виходить за межі чатів і бере на себе реальні дії за комп’ютером. Google вбудувала в Gemini 3.5 Flash функцію, яка дозволяє моделі самій працювати з екраном, вкладками та програмами.
Про це пише Android Authority.
Компанія Google інтегрувала у модель Gemini 3.5 Flash нову функцію computer use. Тепер ШІ-агент може аналізувати зображення на екрані, самостійно переходити між вкладками та виконувати складні завдання без прямого втручання людини.
Фактично система працює як віртуальний помічник. Вона сама клікає по кнопках, вводить текст і перемикається між вікнами в режимі реального часу.
Раніше для цього розробникам доводилося окремо створювати спеціалізованих агентів на базі Gemini 2.5. Тепер цей інструмент доступний за замовчуванням через Gemini API та платформу Gemini Enterprise Agent Platform.
Щоб показати можливості нової технології, Google запустила окремий екземпляр Browserbase. У цьому середовищі користувач може дати завдання, а нейромережа самостійно шукає рішення в інтернеті.
Під час одного з тестів журналісти доручили ШІ знайти найдешевші авіаквитки з Нью-Делі до Токіо. Модель відкрила три сервіси бронювання, ввела дати, порівняла вартість і видала найвигідніший варіант.
Крім цього, Gemini 3.5 Flash без проблем грає у 2048. Система самостійно прораховує ходи, щоб отримати максимальний результат.
Втім не у всіх напрямках модель показала сильні результати. За оновленим рейтингом Android Bench вона посіла лише шосте місце у написанні коду для Android-додатків із результатом 63,7 бала.
Ще один нюанс — вартість роботи. За даними Android Bench, Gemini 3.5 Flash стала найдорожчою моделлю в рейтингу із середньою ціною $147,1 через велике споживання токенів — у середньому 355,9.
Для безпеки розробники використали метод цілеспрямованого змагального навчання. Також Google рекомендує запускати таких агентів лише в ізольованих «пісочницях», обмежувати доступ і залишати фінальне рішення за людиною.
Схожі технології активно розвивають і конкуренти. У червні 2026 року китайська компанія Alibaba презентувала лінійку Qwen-Robot для керування фізичними роботами голосом.
Інтеграція функції computer use у Gemini 3.5 Flash показує новий етап розвитку штучного інтелекту. Йдеться вже не про поради чи відповіді, а про повноцінне виконання цифрової роботи.
