Рубріки: Новини

Google випустила модель для роботи з user-інтерфейсом Gemini 2.5 Computer Use

Дмитро Сімагін

Команда Google DeepMind представила нову LLM-модель Gemini 2.5 Computer Use. Вона здатна діяти в інтерфейсі сайту або програми. Доступ до новинки вже відкрито через Gemini API в Google AI Studio та Vertex AI. Також всі бажаючі можуть ознайомитись з Gemini 2.5 Computer Use на Browserbase. Про це пише Neowin.

Для роботи з моделлю потрібно надіслати текстове завдання, вхідні дані зі скріншотом екрану та історією попередніх кроків. Після цього LLM проаналізує отримані вхідні дані, згенерує відповідь та зробить новий скріншот. Потім цикл повторюється, поки завдання буде виконано. За це відповідає новий інструмент computer_use, доступний у Gemini API. 

Робота з Gemini 2.5 Computer Use поки можлива тільки в браузері — в Google пояснили, що для управління на рівні настільної ОС модель поки не оптимізована.

У демонстраціях Gemini 2.5 Computer Use справляється із заповненням форм, вибором пунктів у списках, авторизацією на сайтах, перенесенням даних між сервісами та організацією елементів на дошках. Google наголошує, що модель працює з реальними веб-сторінками, включаючи сторінки з доступом за логіном. Це може значно спростити автоматизацію корпоративних інтерфейсів та типові офісні завдання.

Якщо модель в чомусь не впевнена, вона може запросити підтвердження у користувача. Наприклад, воно знадобиться, якщо дія пов’язана з купівлею товару.

Поки Computer Use перебуває у стадії preview. Google попереджає, що фокус зміщений на стабільну роботу у браузері та безпеку: кожна дія моделі проходить зовнішню перевірку, небезпечні сценарії (обхід капчі, втручання у пристрої) блокуються. Плани подальшого розвитку новинки поки що не розкриваються.

Останні статті

IBM стверджує, що її нова IDE підвищує продуктивність розробників на 45%

На конференції TechXchange 2025 компанія IBM представила інтегроване середовище розробки Project Bob, яке в деяких…

08.10.2025

Google надасть українським студентам безоплатний доступ до Gemini 2.5 Pro та Google AI Pro

Компанія Google оголосила про надання українським студентам 12 місяців преміум-доступу до LLM-моделі Gemini 2.5 Pro…

08.10.2025

JetBrains і Zed розробляють протокол, який дозволить агентам працювати в будь-якому редакторі коду

JetBrains оголосила про співпрацю із Zed Industries у впровадженні нового відкритого протоколу Agent Client Protocol…

08.10.2025

Подорожчання американських робочих віз H-1B позитивно вплине на український аутсорс — експерти

Запровадження плати в розмірі $100 000 за працевлаштування іноземного працівника кардинально змінило ситуацію з релокацією…

07.10.2025

Запуск кількох програм Office спричиняє проблеми з Copilot

Фахівці Microsoft розслідують помилку, яка спричиняє збій в роботі помічника Copilot, якщо кілька програм Office…

07.10.2025

Microsoft закрила можливість інсталяції Windows 11 без підключення до інтернету

Microsoft посилила заходи щодо блокування користувачів, які намагаються обійти вхід за допомогою облікового запису Microsoft…

07.10.2025