Google представила Agentic Vision у Gemini 3 Flash для глибшого аналізу зображень

ШІ-модель Gemini 3 Flash отримала нову функцію Agentic Vision.
Так Gemini навчилася «думати й діяти» із зображеннями через виконання коду.
В подальшому планують інтегрувати, наприклад, веб-пошук зображень.

Компанія Google представила нову можливість для своєї ШІ-моделі Gemini 3 Flash — Agentic Vision, що суттєво розширює здатність системи аналізувати складні зображення, включно з дрібними деталями на кшталт серійних номерів або тексту на складних схемах.

Оновлення підсилює напрям розвитку агентних моделей, які не лише генерують відповіді, а й виконують проміжні дії для досягнення точнішого результату.

У Google назвали це «новим рубежем можливостей ШІ». Agentic Vision впроваджує візуальний цикл Think, Act, Observe («Думай, дій, спостерігай») у задачі розуміння зображень:

Другие новости

Падіння вартості біткоїна нижче $76 000 призвело до ліквідацій на майже $2,6 млрд за добу

01.02.2026

MegaETH: проявляємо активність в основній мережі

01.02.2026

think (думай) — модель аналізує запит користувача та початкове зображення, формуючи багатокроковий план;
oct (дій) — Gemini генерує й виконує Python-код для активної роботи із зображенням (кадрування, обертання, анотації) або його аналізу (обчислення, підрахунок об’єктів тощо);
Observe (спостерігай) — змінене зображення додається до контексту моделі, що дозволяє їй повторно оцінити дані перед фінальною відповіддю.

Завдяки цьому Gemini 3 Flash краще працює з деталізованими візуальними даними. Серед ключових механік:

планування — створення покрокової стратегії аналізу зображення;
зумування — автоматичне наближення до дрібних елементів;
анотації — можливість розмічати зображення для «заземлення» логіки моделі;
візуальна математика та побудова графіків — розбір щільних таблиць і виконання Python-коду для візуалізації результатів.

Функція вже використовується через API та демонструється в Google AI Studio, зокрема:

Детальна інспекція зображень: платформа PlanCheckSolver.com, що застосовує ШІ для перевірки будівельних планів, підвищила точність на 5% після активації виконання коду в Gemini 3 Flash. Модель генерує Python-код для вирізання окремих фрагментів (наприклад, країв даху чи секцій будівлі) та повторно додає їх у контекст для перевірки відповідності складним нормам.
Анотація зображень: у прикладі із застосунка Gemini модель мала порахувати пальці на руці. Щоб уникнути помилок, вона використала Python для нанесення обмежувальних рамок і числових міток на кожен палець, створивши «візуальну чернетку» для точного підрахунку.
Візуальна математика: Agentic Vision дозволяє обробляти щільні таблиці й будувати графіки через Matplotlib. Замість імовірнісних оцінок модель передає обчислення в детерміноване Python-середовище.

У Google повідомили, що це лише початок розвитку Agentic Vision. Компанія працює над тим, щоб більше дій (наприклад, обертання зображень або візуальна математика) запускалися без явної підказки користувача.

Також досліджується інтеграція нових інструментів — зокрема веб-пошуку та зворотного пошуку зображень, а можливість планують поширити на інші розміри моделей Gemini, не лише Flash.

Нагадаємо, що раніше Apple підтвердила багаторічне партнерство з Google. Наступне покоління Apple Foundation Models буде побудоване на базі моделей Gemini та хмарної інфраструктури Google. Вони стануть основою функцій Apple Intelligence, включно з оновленою персоналізованою Siri.

Google Gemini 3 Pro: кінець епохи чат-ботів та початок ери ШІ-агентів? 19.11.2025 Читати

Сообщение Google представила Agentic Vision у Gemini 3 Flash для глибшого аналізу зображень появились сначала на INCRYPTED.

Google представила Agentic Vision у Gemini 3 Flash для глибшого аналізу зображень

Падіння вартості біткоїна нижче $76 000 призвело до ліквідацій на майже $2,6 млрд за добу

MegaETH: проявляємо активність в основній мережі

Читайте также

Падіння вартості біткоїна нижче $76 000 призвело до ліквідацій на майже $2,6 млрд за добу

MegaETH: проявляємо активність в основній мережі

Тестуємо Prism: на що реально здатен «науковий» ШІ від OpenAI

Уряд США зіткнувся з другим шатдауном за останні пів року

В Чехии завершилась 250-летняя история добычи каменного угля: закрыли последнюю шахту

Присоединяйся к нам!

Другие новости

В Виннице неизвестный стрелял в сторону группы оповещения ТЦК: нападавшего разыскивает полиция

В Чехии завершилась 250-летняя история добычи каменного угля: закрыли последнюю шахту

Google представила Agentic Vision у Gemini 3 Flash для глибшого аналізу зображень

Раненый украинский боец, находясь в плену, убедил двух россиян сдаться и дополз к своим. ВИДЕО

Переговоров сегодня не будет: названы даты следующей встречи Украины и РФ в Абу-Даби

Мы в Twitter

Разделы сайта

Популярное

Россия ударила по Запорожью: на месте атаки пожар

Миллионы дронов за год: Минобороны рассказало об амбициозных планах Украины на 2026-й

ЭП: депутатам предложат отмену пожизненного PEP в обмен на поддержку налоговых изменений

Зеленский обсудил с канцлером Австрии вступление в ЕС до 2027 года

Трагедия в Черкасской области: четверо полицейских погибли от огня бывшего военного

Правительство США второй раз за год приостановило работу: нет финансирования

Главное

В Киевской области мужчина угрожал гранатой патрульным — полиция открыла огонь

США предлагают Индии венесуэльскую нефть вместо российской, — Reuters

OSINT-проект DeepState сообщил о безрезультатных атаках РФ под Степногорском

Реальное принятие стейблкоинов в криптосфере составляет лишь около 1% от оценок

Експерти спрогнозували ріст біткоїна після ралі дорогоцінних металів