- ШІ-модель Gemini 3 Flash отримала нову функцію Agentic Vision.
- Так Gemini навчилася «думати й діяти» із зображеннями через виконання коду.
- В подальшому планують інтегрувати, наприклад, веб-пошук зображень.
Компанія Google представила нову можливість для своєї ШІ-моделі Gemini 3 Flash — Agentic Vision, що суттєво розширює здатність системи аналізувати складні зображення, включно з дрібними деталями на кшталт серійних номерів або тексту на складних схемах.
Introducing Agentic Vision, a new capability in Gemini 3 Flash.
Agentic Vision makes Gemini even better at analyzing complex images, enabling it to more accurately and consistently read fine details, like serial numbers or text on a complex diagram.
See what it can do.— Google Gemini (@GeminiApp) January 29, 2026
Оновлення підсилює напрям розвитку агентних моделей, які не лише генерують відповіді, а й виконують проміжні дії для досягнення точнішого результату.
У Google назвали це «новим рубежем можливостей ШІ». Agentic Vision впроваджує візуальний цикл Think, Act, Observe («Думай, дій, спостерігай») у задачі розуміння зображень:
- think (думай) — модель аналізує запит користувача та початкове зображення, формуючи багатокроковий план;
- oct (дій) — Gemini генерує й виконує Python-код для активної роботи із зображенням (кадрування, обертання, анотації) або його аналізу (обчислення, підрахунок об’єктів тощо);
- Observe (спостерігай) — змінене зображення додається до контексту моделі, що дозволяє їй повторно оцінити дані перед фінальною відповіддю.
Завдяки цьому Gemini 3 Flash краще працює з деталізованими візуальними даними. Серед ключових механік:
- планування — створення покрокової стратегії аналізу зображення;
- зумування — автоматичне наближення до дрібних елементів;
- анотації — можливість розмічати зображення для «заземлення» логіки моделі;
- візуальна математика та побудова графіків — розбір щільних таблиць і виконання Python-коду для візуалізації результатів.
Функція вже використовується через API та демонструється в Google AI Studio, зокрема:
- Детальна інспекція зображень: платформа PlanCheckSolver.com, що застосовує ШІ для перевірки будівельних планів, підвищила точність на 5% після активації виконання коду в Gemini 3 Flash. Модель генерує Python-код для вирізання окремих фрагментів (наприклад, країв даху чи секцій будівлі) та повторно додає їх у контекст для перевірки відповідності складним нормам.
- Анотація зображень: у прикладі із застосунка Gemini модель мала порахувати пальці на руці. Щоб уникнути помилок, вона використала Python для нанесення обмежувальних рамок і числових міток на кожен палець, створивши «візуальну чернетку» для точного підрахунку.
- Візуальна математика: Agentic Vision дозволяє обробляти щільні таблиці й будувати графіки через Matplotlib. Замість імовірнісних оцінок модель передає обчислення в детерміноване Python-середовище.
У Google повідомили, що це лише початок розвитку Agentic Vision. Компанія працює над тим, щоб більше дій (наприклад, обертання зображень або візуальна математика) запускалися без явної підказки користувача.
Також досліджується інтеграція нових інструментів — зокрема веб-пошуку та зворотного пошуку зображень, а можливість планують поширити на інші розміри моделей Gemini, не лише Flash.
Нагадаємо, що раніше Apple підтвердила багаторічне партнерство з Google. Наступне покоління Apple Foundation Models буде побудоване на базі моделей Gemini та хмарної інфраструктури Google. Вони стануть основою функцій Apple Intelligence, включно з оновленою персоналізованою Siri.
Google Gemini 3 Pro: кінець епохи чат-ботів та початок ери ШІ-агентів? 19.11.2025 Читати
Сообщение Google представила Agentic Vision у Gemini 3 Flash для глибшого аналізу зображень появились сначала на INCRYPTED.














