Рубріки: Новини

Google випустила модель для роботи з user-інтерфейсом Gemini 2.5 Computer Use

Дмитро Сімагін

Команда Google DeepMind представила нову LLM-модель Gemini 2.5 Computer Use. Вона здатна діяти в інтерфейсі сайту або програми. Доступ до новинки вже відкрито через Gemini API в Google AI Studio та Vertex AI. Також всі бажаючі можуть ознайомитись з Gemini 2.5 Computer Use на Browserbase. Про це пише Neowin.

Для роботи з моделлю потрібно надіслати текстове завдання, вхідні дані зі скріншотом екрану та історією попередніх кроків. Після цього LLM проаналізує отримані вхідні дані, згенерує відповідь та зробить новий скріншот. Потім цикл повторюється, поки завдання буде виконано. За це відповідає новий інструмент computer_use, доступний у Gemini API. 

Робота з Gemini 2.5 Computer Use поки можлива тільки в браузері — в Google пояснили, що для управління на рівні настільної ОС модель поки не оптимізована.

У демонстраціях Gemini 2.5 Computer Use справляється із заповненням форм, вибором пунктів у списках, авторизацією на сайтах, перенесенням даних між сервісами та організацією елементів на дошках. Google наголошує, що модель працює з реальними веб-сторінками, включаючи сторінки з доступом за логіном. Це може значно спростити автоматизацію корпоративних інтерфейсів та типові офісні завдання.

Якщо модель в чомусь не впевнена, вона може запросити підтвердження у користувача. Наприклад, воно знадобиться, якщо дія пов’язана з купівлею товару.

Поки Computer Use перебуває у стадії preview. Google попереджає, що фокус зміщений на стабільну роботу у браузері та безпеку: кожна дія моделі проходить зовнішню перевірку, небезпечні сценарії (обхід капчі, втручання у пристрої) блокуються. Плани подальшого розвитку новинки поки що не розкриваються.

Останні статті

Google розробляє нову операційну систему Aluminium, яка перенесе Android на ПК

Google має намір об'єднати операційні системи ChromeOS та Android в єдину платформу для настільних комп'ютерів…

25.11.2025

ChatGPT тепер може виконувати складні дослідження покупок для пошуку ідеального товару

OpenAI додала в ChatGPT нову функцію «дослідження покупок», яка допоможе користувачам у процесі обрання найкращого…

25.11.2025

Китайська LLM-модель DeepSeek-R1 генерує небезпечний код, якщо в запитах згадується Тибет або уйгури

Дослідження компанії кібербезпеки CrowdStrike показало, що LLM-модель DeepSeek-R1 створює більше вразливостей безпеки в коді, якщо…

25.11.2025

Amazon примушує своїх розробників відмовитися від сторонніх інструментів кодування на користь Kiro

Amazon пропонує своїм розробникам відмовитися від інструментів генерації коду від сторонніх компаній на користь власного…

25.11.2025

Anthropic стверджує, що її нова модель Claude Opus 4.5 перевершує всіх в програмуванні

Anthropic випустила нову LLM-модель Claude Opus 4.5. Стверджується, що це найкраща модель у світі для…

25.11.2025

Китайський інструмент вайб-кодингу LingGuang обігнав за популярністю ChatGPT і Sora 2

Інструмент кодування LingGuang від китайської компанії Ant Group менше ніж за тиждень досяг першого мільйона…

24.11.2025