Рубріки: Новини

Google випустила модель для роботи з user-інтерфейсом Gemini 2.5 Computer Use

Дмитро Сімагін

Команда Google DeepMind представила нову LLM-модель Gemini 2.5 Computer Use. Вона здатна діяти в інтерфейсі сайту або програми. Доступ до новинки вже відкрито через Gemini API в Google AI Studio та Vertex AI. Також всі бажаючі можуть ознайомитись з Gemini 2.5 Computer Use на Browserbase. Про це пише Neowin.

Для роботи з моделлю потрібно надіслати текстове завдання, вхідні дані зі скріншотом екрану та історією попередніх кроків. Після цього LLM проаналізує отримані вхідні дані, згенерує відповідь та зробить новий скріншот. Потім цикл повторюється, поки завдання буде виконано. За це відповідає новий інструмент computer_use, доступний у Gemini API. 

Робота з Gemini 2.5 Computer Use поки можлива тільки в браузері — в Google пояснили, що для управління на рівні настільної ОС модель поки не оптимізована.

У демонстраціях Gemini 2.5 Computer Use справляється із заповненням форм, вибором пунктів у списках, авторизацією на сайтах, перенесенням даних між сервісами та організацією елементів на дошках. Google наголошує, що модель працює з реальними веб-сторінками, включаючи сторінки з доступом за логіном. Це може значно спростити автоматизацію корпоративних інтерфейсів та типові офісні завдання.

Якщо модель в чомусь не впевнена, вона може запросити підтвердження у користувача. Наприклад, воно знадобиться, якщо дія пов’язана з купівлею товару.

Поки Computer Use перебуває у стадії preview. Google попереджає, що фокус зміщений на стабільну роботу у браузері та безпеку: кожна дія моделі проходить зовнішню перевірку, небезпечні сценарії (обхід капчі, втручання у пристрої) блокуються. Плани подальшого розвитку новинки поки що не розкриваються.

Останні статті

Anthropic оновлює Claude Code до версії 2.1.0

Компанія Anthropic випустила Claude Code у версії 2.1.0, яка стала помітним оновленням цього популярного інструменту…

09.01.2026

Senior-розробник Microsoft дає поради, як програмісту вижити в епоху штучного інтелекту

Нандіта Гірі, 32-річна програмістка з головного офісу Microsoft у Редмонді поділилась порадами, як розробникам слід…

09.01.2026

EPAM заключає партнерство з Cursor для створення та масштабування команд ШІ-розробників

Одна з найбільших світових аутсорс-компаній EPAM Systems оголосила про стратегічне партнерство з Cursor. Мета співпраці…

09.01.2026

Штучний інтелект у Gmail тепер сам буде вирішувати, які листи вам показувати в першу чергу

Google вносить масштабні зміни в Gmail, інтегруючи в поштовий сервіс можливості штучного інтелекту на базі…

09.01.2026

Ілон Маск анонсував випуск Grok Code — нового інструменту для вайб-кодингу

Ілон Маск анонсував значне оновлення LLM-моделі Grok разом із новими продуктами, в тому числі інструментом…

09.01.2026

CEO Replit: завдяки вайб-кодуванню керівникам більше не потрібно благати програмістів про допомогу

Глава стартапу Replit, який відомий однойменним IDE, Амджад Масад заявив, що інструменти вайб-кодингу змінюють баланс…

08.01.2026