Gemini 3.1 Pro: обзор, бенчмарки, сравнение

Прогремел очередной релиз, Google DeepMind 19 февраля 2026 года выпустила свою новую модель - Gemini 3.1 Pro.Это стало неожиданностью даже для искушенного ИИ-сообщества. Обычно Google обновлял версии с шагом 0.5 (1.0 - 1.5 - 2.0 - 2.5 - 3.0), но здесь мы впервые видим обновление 3.1. И это при том, что предыдущая версия (Gemini 3 Pro) до сих пор носит гордую приставку Preview и так и не вышла в полноценный релиз. Согласитесь, немного похоже на ситуацию, когда вы ещё не допили чай, а вам уже наливают новую кружку, утверждая, что она горячее.Но Google явно знает, что делает. Компания заявляет, что 3.1 Pro - это не просто косметическое обновление, а шаг вперёд в фундаментальных рассуждениях. Модель создана для решения задач, где простого ответа недостаточно, и ориентирована на агентные рабочие процессы и глубокое планирование.

Возможности модели. Что нам обещают (и не обещают) разработчики

Google не стал мелочиться и назвал Gemini 3.1 Pro своей самой интеллектуальной моделью для сложных задач. Звучит гордо, но давайте посмотрим, что стоит за этими словами.Ключевое улучшение - ядро интеллектаГлавная фишка апдейта - это улучшенное базовое мышление. Если прошлые обновления Gemini 3 Pro были больше про расширение возможностей, то здесь инженеры Google DeepMind занялись прокачкой внутреннего процессора модели. Фактически, технология глубокого мышления, которую на прошлой неделе добавили в отдельный режим, теперь интегрирована прямо в основу модели. Это значит, что 3.1 Pro умеет думать над задачей дольше и качественнее, прокладывая несколько путей решения одновременно, а потом выбирая лучший.Зачем это нужно? Как говорят в Google, для задач, где простого ответа недостаточно. Представьте, что вы просите нейросеть не просто пересказать статью из Википедии, а проанализировать несколько противоречивых научных работ и сделать обоснованный вывод. Вот для такого ей и нужны эти улучшенные мозги.Мультимодальность и контекст: смотрим, слушаем, читаемПо части органов чувств у модели всё осталось на уровне топ-флагмана. Она понимает текст, изображения, видео, аудио и PDF-файлы.Контекстное окно - те же 1 миллион токенов на входе. Для тех, кто не в теме: это примерно как «Война и мир», которую вы можете загрузить и задавать вопросы. На выходе модель выдает до 64 тысяч токенов. То есть она способна сгенерировать целую небольшую повесть или очень объемный кусок кода.Кстати, про код. Разработчики утверждают, что 3.1 Pro специально оптимизирована для задач программирования и агентных рабочих процессов. Это когда вы даете ей не один запрос, а цепочку: «сделай это, потом на основе результата сделай то, и если увидишь ошибку - исправь».

Цифры, которые впечатляют (и которые стоит проверить)

Google традиционно приводит результаты бенчмарков. Вот где обещанное мышление проявило себя лучше всего:

ARC-AGI-2 - тест на способность решать новые, нестандартные логические задачи без опоры на шаблоны. Тут Gemini 3.1 Pro набрал 77,1%. Это более чем в два раза выше, чем у Gemini 3 Pro (31,1%). Рост, который сложно не заметить.

Humanity's Last Exam - проверка знаний в узкоспециализированных областях, где модель показала 44,4% . Для сравнения: Gemini 3 Pro было 37,5%, а GPT-5.2 - 34,5% .

Вот как эти цифры выглядят в сравнении (данные официальные, так что принимаем с долей здорового скептицизма):

Не только цифры. Что модель умеет делать руками (вернее, кодом)

Google не был бы Google, если бы не показал красивые демо. Они выкатили несколько примеров, наглядно демонстрирующих, зачем нужна такая умная модель:Литература - веб-дизайнМодель проанализировала роман «Грозовой перевал» и на основе его атмосферы сгенерировала полноценный сайт-портфолио для вымышленного фотографа. Дизайн реально передает мрачновато-романтическое настроение книги. Интерактивная 3D-симуляцияОна написала код, который создаёт симуляцию полета стаи птиц (моделирование сложных систем). И это не просто картинка - пользователь может мышкой влиять на траекторию полёта, а звуковой фон меняется в зависимости от плотности стаи.Аэрокосмический дашбордМодель подключилась к открытому API, получает данные о местоположении МКС в реальном времени и строит интерактивную карту с траекторией полёта. Прямо как в центре управления полётами, только на коленке за пять минут.Анимированные SVGИз текстового описания вроде “анимированная иконка загрузки в стиле киберпанк” модель генерирует чистый код анимации, который можно сразу вставить на сайт.Нюансы и мелкий шрифтРазработчики, как всегда, честно предупреждают о некоторых особенностях. Это preview-версия, находящаяся в стадии предварительного доступа. Google выпустил её для проверки обновлений и усовершенствований, поэтому баги возможны. Если вы используете специализированный эндпоинт gemini-3.1-pro-preview-customtools и предоставляете модели свои инструменты, такие как view_file или search_code, её работа будет лучше. Однако без инструментов качество ответов может варьироваться. Модель не генерирует изображения, не работает с Live API и не умеет привязываться к Google Maps, но может написать код для отрисовки картинки. Знания модели актуальны до января 2025 года, поэтому спрашивать о последних мемах февраля 2026 года бессмысленно.Что в сухом остаткеGemini 3.1 Pro - это попытка Google сделать инструмент для решения сложных, многошаговых задач. Основной упор сделан на качество рассуждений и способность модели действовать как агент, а не просто отвечать на запросы. Технические характеристики (контекст, мультимодальность) остались на уровне топ-моделей, а вот мозги ей действительно подкрутили.

Тестирование на заданиях: код, математика и сказки на ночь

Официальные бенчмарки - это, конечно, красиво. 77,1% в ARC-AGI-2 звучит внушительно. Но как говорится, доверяй, но проверяй. Тем более что тесты вроде Humanity's Last Exam хоть и сложные, но всё равно остаются тестами. Мне было интересно другое. Как модель поведёт себя в реальных, почти бытовых задачах, с которыми сталкивается обычный разработчик или исследователь.Для тестирования я использовала сервис BotHub - там модель уже доступна, не нужен VPN и можно спокойно работать с российской картой. Плюс 300 000 бесплатных токенов на старте по ссылке, чем не повод поэкспериментировать?Я решила не ограничиваться стандартными тестами, а придумать сценарии, которые покрывают разные аспекты работы модели: от чисто технических до социальных и креативных. Поехали.

Блок 1. Работа с кодом - рефакторинг legacy и отладка

Рефакторинг легаси-кодаGemini 3.1 Pro, судя по заявлениям Google об улучшенном core reasoning и оптимизации для задач программирования, должен не просто переписать код, а объяснить логику своих изменений. Ожидаю, что модель заметит потенциальное деление на ноль, упростит вложенные условия и добавит осмысленные имена переменных вместо a, b, c. В идеале - ещё и предложит разные варианты рефакторинга в зависимости от контекста использования.

Gemini 3.1 Pro выявила неочевидную логическую ошибку (невыполнимый код), которую многие программисты могли бы пропустить, механически отформатировав код. Поняла связь между входными данными, условиями и потоком выполнения, что позволило ей предсказать, какие ветки кода могут быть достигнуты. PEP 8, обработка ошибок, type hints, docstrings - всё это признаки промышленного кода. Модель не стала менять математическое выражение на y*0.6, хотя это короче, потому что исходная форма лучше отражает намерения автора. Это супер. Обрадовало, что модель увидела проблему, которой нет на поверхности. Код синтаксически корректен и даже работает (если не передавать ноль в специфических условиях), но содержит логическую ошибку, которая рано или поздно приведёт к багу.Написание SQL-запроса с объяснениемХороший запрос должен использовать JOIN, правильно фильтровать по дате (чтобы не сканировать всю таблицу), группировать и сортировать. В объяснении про индексы жду упоминания составного индекса по created_at и user_id, а также индекса для связи с таблицей пользователей. Если модель предложит ещё и покрывающий индекс - снимаю шляпу.

Модель написала оптимальный запрос с учётом всех правил производительности (SARGability, порядок соединений, корректная агрегация). Поняла, как запрос будет выполняться физически на уровне СУБД, и построила индексы, исходя из этого понимания. Учла различия между СУБД (PostgreSQL vs MySQL) и предложила адаптивные решения. Не ограничилась теорией, а дала практические рекомендации, что реально нужно в 95% случаев. 10/10. Модель подтвердила, что улучшения в core reasoning распространяются и на работу со структурированными данными и базами данных.Отладка бага (без подсказки)Тест на внимательность и здоровый скептицизм. Код, который я даю, на самом деле правильный, хотя выглядит подозрительно. Сможет ли модель распознать ловушку или начнёт копать там, где не надо? Если начнёт "исправлять" то, что не сломано, предлагая убрать проверку if char not in result или поменять логику - повод задуматься о её доверчивости. В бенчмарках программирования (SWE-Bench Verified) у модели 80,6%, что выше, чем у Gemini 3 Pro, так что надежда на адекватность есть.

Как я и рассчитывала, модель не поверила ложному утверждению в промпте, проверила код самостоятельно и уверенно заявила о его корректности. Показала свое знание не только синтаксиса Python, но и его историю (изменения в словарях с версии 3.7), типичные ошибки новичков (отступы) и подводные камни (регистр символов). Каждый пункт диагностики сопровождается объяснением механизма и примером результата - тоже плюсик.

Блок 2. Математика и логика - кредиты и парадоксы

Жизненная математика (кредитный калькулятор)Здесь важно не просто выдать цифры, а показать ход мыслей. Учитывая рывок в тесте ARC-AGI-2 (77,1% против 31,1% у предшественника), модель должна справиться с формулой аннуитета без проблем. Главное, чтобы объяснение было понятным. Если Gemini начнёт сыпать терминами без пояснений - поставлю минус. Если разжует так, что даже гуманитарий пойдет брать кредит (или наоборот, передумает) - плюс в карму.

Все цифры верны, формула применена корректно, результат соответствует банковским стандартам. Модель показала всю цепочку вычислений, не оставив у меня вопросов. Особенно ценно, что она совместила математическую строгость с человеческим объяснением. Формула есть для тех, кто хочет проверить, и простые слова для тех, кто хочет понять. Тест пройден отлично. Финансовая грамотность у модели на высоте.Парадокс Монти Холла (объяснить на пальцах)Парадокс Монти Холла - классический пример задачи, в которой интуиция подводит большинство людей. Даже зная правильный ответ, многие продолжают сомневаться. Задача модели - не просто сообщить факт, а сделать так, чтобы у человека исчезли сомнения. Это тест на педагогические способности, эмпатию и умение подбирать правильные аналогии. Google позиционирует 3.1 Pro как модель для задач, где простого ответа недостаточно. Объяснить Монти Холла так, чтобы ребёнок понял - это как раз про умение находить правильный уровень абстракции. Жду аналогий с конфетами, пиратами или хотя бы с тремя коробками сюрпризов. Псевдографика была бы вообще шиком.

Модель поняла, почему ответ может вызвать отторжение у неподготовленного человека, и выстроила объяснение так, чтобы избежать этого. Объяснение работает одновременно на интуитивном (аналогия со 100 сундуками), логическом (перебор сценариев) и эмоциональном (вовлекающий стиль) уровнях. Модель признает, что задача действительно сложна для интуитивного восприятия, и объясняет механизм этой ловушки. Нет ни одной формулы, ни одного термина вроде "условная вероятность" или "теорема Байеса". При этом математическая строгость полностью сохранена - это высший пилотаж популяризации. Благодаря ярким образам ("башмаки", "сундуки", "фильтр", "на блюдечке") объяснение надолго остаётся в памяти. Это именно то, что мы хотим видеть, когда просим объяснить сложное для ребенка. Задача на оптимизацию (переправа через реку)Классические задачи на переправу - отличный тест алгоритмического мышления. Здесь нет готовой формулы, нужно подумать, прикинуть варианты, найти оптимальное решение. Такие задачи часто дают на собеседованиях, чтобы проверить, как человек мыслит, а не просто воспроизводит заученное. Здесь важно не просто назвать число, а показать, как к нему пришли. Хорошее решение будет использовать жадный алгоритм или метод ветвей и границ. Модель должна объяснить, почему нельзя сделать меньше рейсов, и предложить способ проверки.

Gemini 3.1 Pro абсолютно верно определила, что минимальное количество рейсов - 2. Более того, она предложила две рабочие комбинации загрузки. Модель доказала оптимальность решения через нижнюю границу и классифицировала задачу, предложив правильный алгоритм для общего случая. Она пошагово промоделировала работу алгоритма и объяснила сложную концепцию простой и запоминающейся метафорой, указав на ограничения метода.Тест пройден блестяще, и улучшения в core reasoning оказались действительно работающей фичей.

Блок 3. Работа с текстом - юридический перевод и письмо-претензия

Перевод юридического документа (с сохранением стиля)Машинный перевод давно стал обыденностью, но юридические тексты - особый жанр. Здесь важна не просто передача смысла, а точность формулировок, сохранение канцелярского стиля и правильная интерпретация терминов. Ошибка в переводе договора может стоить очень дорого. Посмотрим, способен ли Gemini на такую ювелирную работу. Google заявляет о поддержке мультиязычности (MMMLU - 92,6%) , так что с английским проблем быть не должно.

Модель показала знание юридической лексики: "неисключительное право", "не подлежащее передаче", "срок действия подписки". Перевод не стал вольным пересказом, а сохранил канцелярскую точность. Еще модель дала краткие объяснения к некоторым терминам, я очень рассчитывала на это, получилось идеально. 10/10.Написание письма-претензии (эмоциональный интеллект)Письмо-претензия должно быть одновременно твердым и вежливым, содержать ссылки на закон и чёткие требования. Это тест не столько на знание законов, ведь модель может их просто загуглить, сколько на эмоциональный интеллект и чувство меры.

Здесь проверяется не столько знание законов, сколько умение выдержать правильный тон: не скатиться в истерику, но и не выглядеть тряпкой. Gemini 3.1 Pro, по заверениям Google, лучше справляется с агентными рабочими процессами, а написание официального письма - это как раз агентная задача. Я ждала грамотной структуры: шапка, факты, правовое обоснование, требование, подпись, никаких "умоляю, помогите". Я это получила, у меня вопросов нет. Создание технической документации (README для проекта)

Модель сгенерировала хороший README, который начинается с понятного описания, содержит четкие инструкции по установке и примеры запуска. Особенно ценен раздел про возможные ошибки. Модель не начала просто перечислять функции без объяснений о том, как их вызывать, - огромный плюсик за это.

Что говорят первые пользователи

Официальные бенчмарки - это хорошо, но, согласитесь, куда интереснее посмотреть, как модель ведет себя в реальных руках. Я прошерстила различные интернет-ресурсы и собрала самые показательные примеры использования Gemini 3.1 Pro. Где-то модель блеснула, где-то - заставила задуматься. Поехали.

Трёхуровневое мышление - крутилка интеллекта

Одна из самых обсуждаемых фич - появление трёхуровневого режима мышления.Раньше у Gemini 3 Pro было два уровня: низкий и высокий. Теперь добавили средний, а высокий по сути стал аналогом режима Deep Think (который раньше был отдельной опцией для подписчиков Ultra). Пользователи теперь могут сами крутить ручку мощности. Хочешь быстрый ответ на простой вопрос - ставь low, нужно поразмышлять над сложной задачей - включай high.Эта фича решает реальную проблему разработчиков. Раньше, если ты делал продукт, тебе приходилось держать несколько моделей: одну для быстрых ответов, другую для сложных задач. Разные API, разные цены, своя логика маршрутизации. Теперь всё в одной модели. Умно и удобно.

Чтение атмосферы книг

Тут сообщество реально офигело. Один из пользователей попросил Gemini 3.1 Pro разработать современный сайт-портфолио для романа “Грозовой перевал” Эмили Бронте.Модель не просто пересказала сюжет и не накидала шаблонных картинок. Gemini смог уловить мрачную, дикую, страстную атмосферу романа и превратить ее в современный минималистичный дизайн. Тёмные тона, размытые границы, ощущение ветра и одиночества - всё это было в сгенерированном коде.Модель прочувствовала (насколько это вообще применимо к ИИ) стиль и настроение. Для дизайнеров, маркетологов, креативщиков - это просто золотая жила.

3D-симуляция стаи скворцов с трекингом рук

Тут вообще что-то из области магии. Пользователь попросил Gemini 3.1 Pro создать 3D-симуляцию полета стаи скворцов.Модель сгенерировала код, который создал интерактивную 3D-сцену. Можно было рукой (через трекинг) влиять на траекторию полёта птиц, а звуковой фон менялся в зависимости от того, насколько плотно летит стая.Представьте, какие возможности это открывает для образования, игр, визуализации данных. И всё это - из одного промпта.

Реальный космос - дашборд МКС

Google в своих демо показал, как модель построила реальный аэрокосмический дашборд.Модель подключилась к публичному API с телеметрией, получила данные о текущем местоположении Международной космической станции и визуализировала их на интерактивной карте с траекторией полёта.Gemini 3.1 Pro способен работать с реальными API, парсить данные и строить на их основе полноценные приложения. Для разработчиков прототипов - просто подарок.

Критика - где модель проигрывает

Не всё так радужно, конечно. Сообщество быстро нащупало и слабые места.GDPval-AA тест. В этом тесте, который оценивает способность модели выполнять реальные рабочие задачи (сделать презентацию, таблицу, документ), Gemini 3.1 Pro набрал 1317 баллов. А вот Claude Sonnet 4.6 - 1633. Разрыв существенный.Terminal-Bench 2.0. В тесте на работу в терминале и написание сложного кода GPT-5.3-Codex по-прежнему остаётся недосягаемым.Arena Rankings. В рейтингах, где пользователи голосуют за «симпатичные» ответы, Claude Opus 4.6 всё ещё впереди на 4 очка.Gemini отлично поднял планку логики и цены, но в офисных задачах и в умении понравиться пользователю конкуренты пока сильнее.

Анимация из воздуха

Много шума наделала возможность генерировать анимированные SVG прямо из текстового описания.Раньше, чтобы сделать простую анимацию для сайта, нужно было или знать код, или разбираться в дизайнерских инструментах. Теперь можно просто написать: “сделай анимированную иконку загрузки в стиле киберпанк” - и модель выдаст готовый код.Эту фичу уже окрестили началом ambient programming - когда код генерируется из воздуха, по первому требованию.

Какой итог?

Gemini 3.1 Pro вышла очень хорошим обновлением. Google вложил кучу денег в улучшение логики и оставил ценник на доступном каждому уровне. Да, не идеальная, но очень привлекательна по некоторым характеристикам. Особенно для тех, кто считает деньги и умеет читать спецификации.В остальном, конечно, добавлю, что нет идеального решения для всего.Если вам нужно писать сложный системный код, тогда, возможно, GPT-5.3-Codex справится лучше. Если вы готовите презентации для совета директоров - Claude Sonnet 4.6 может сделать их аккуратнее. Если вы работаете с конфиденциальными данными и не можете отправлять их в облако, то вообще ни одна из этих моделей вам не подойдет, потому что все они живут на серверах США.Более того, модели, которые выходят сегодня, уже завтра могут устареть. Пока я писала этот обзор, в тихих лабораториях Google, OpenAI и Anthropic инженеры не спали и, возможно, уже натренировали что-то, что сделает Gemini 3.1 Pro вчерашним днём. Поэтому найдите то, что достаточно хорошо справится с вашей задачей прямо сейчас, и кайфуйте.Возьмите Gemini 3.1 Pro, попробуйте его на своих реальных задачах. Если зайдёт - радуйтесь и экономьте деньги. Если нет, то у вас есть из чего выбирать. Хороших моделей сейчас много, и это, пожалуй, лучшая новость. Спасибо за прочтение!