Google Gemini 3 Pro впервые обогнал GPT-5: результаты бенчмарков показали нового лидера ИИ-гонки

Ноябрь 2025 года стал поворотной точкой в истории ИИ. Без громких анонсов и традиционного хайпа Google представил Gemini 3 Pro.Цифры, последовавшие за релизом, говорили сами за себя: модель впервые обошла флагманский продукт OpenAI в ключевых независимых тестах.Представьте, что вы годами качаете одного и того же персонажа, вкладывая в него все ресурсы. Он — неоспоримый топ-1 на сервере, мета, икона стиля. А потом в патче появляется новая фракция. Сперва смешная и неуклюжая, но с каждым обновлением получающая всё более имбовые скиллы. И вот в последнем патч‑ноте скромная строка: «Балансировка моделей ИИ». Вы заходите на сайт с тир‑листами и видите немыслимое: ваш матёрый ветеран неожиданно скатился на второе место. Для OpenAI именно это и произошло: Google выпустил своего «имбу».Gemini 3 Pro от Google не только догнал, но и по многим параметрам превзошел ChatGPT 5.1. Давайте разберемся, что именно стоит за этими результатами.

Gemini 3 Pro — новый чемпион

18 ноября 2025 года Google официально выкатил Gemini 3 Pro — и это тот редкий случай, когда пресс‑релиз не хочется читать с подозрением. Анонс состоялся официально, без герольдского зова, но с последствиями.Перед нами — полноценная мультимодальная модель, рассчитанная на тяжёлую работу: сложные рассуждения, генерацию кода и уверенное жонглирование текстами, изображениями, аудио и видео. Всё сразу, без «это появится в следующем апдейте». Подробности — в документации.

CEO Google Сундар Пичай после релиза позволил себе редкую роскошь — человеческую усталость: «Кажется, некоторым нужно хорошенько выспаться». Судя по цифрам, спали они не зря.

Google аккуратно формулирует, что модель «превзошла предыдущие версии по всем ключевым метрикам», но даже без маркетингового лупинга видно: это серьёзный рывок.

Google как будто разом проснулся: модель мощная, решение целостное, а ранние насмешки над Bard выглядят парадоксальными.

В DeepMind, как обычно, держат покерфейс и не объявляют «побед», но статистика — вещь упрямая.Ключевая техническая особенность — гигантское контекстное окно (до 1 млн токенов) в сочетании с продвинутой логикой рассуждений. В результате — цифры, мимо которых уже не пройти.Для начала: в популярной LMArena, где пользователи вслепую сравнивают ответы моделей, Gemini 3 Pro набрал 1501 Elo и вышел на первое место. Предыдущий лидер — Gemini 2.5 Pro — удерживал трон несколько месяцев, но теперь уступил старшему брату.Ну и далее по списку...

GPQA Diamond (вопросы категории доктора наук): Gemini 3 Pro — 91,9%, отрыв почти 4 пункта от GPT-5.1 (88,1%).

ARC‑AGI-2 (абстрактные визуальные задачи): 31,1% (45,1% в режиме Deep Think) против 17,6% у GPT-5.1 — почти вдвое больше!
Humanity’s Last Exam (академическое мышление на 2500 сложных вопросах): 37,5% (41% с Deep Think; 45,8% с включённым веб‑поиском и запуском скриптов для вычислений).
AIME 2025 (математика): 100% задач при помощи кода и 95% без кода (GPT-5.1 в режиме без инструментов почти так же: 94%).
Мультимодальный интеллект (MMMU‑Pro и Video‑MMMU): 81,0% и 87,6% соответственно (у GPT-5.1 — 76,0% и 80,4%).
Первый результат по MMMLU (многоязычность): 91,8% (GPT-5.1 — 91,0%).
Кодинг: LiveCodeBench Pro Elo = 2439 (примерно +200 над GPT-5.1), SWE‑Bench = 76,2% (почти идентично 76,3% у GPT-5).

Добавим, что количество пользователей Gemini стремительно растёт (с 450 млн в июле до 650 млн в октябре), что усиливает давление на OpenAI.

Отмечается, что Gemini 3 Pro впечатляет не только цифрами. Например, CEO Salesforce Марк Бениофф после двух часов работы с моделью написал: «Я использовал ChatGPT три года, а Gemini 3 — два часа… теперь не вернусь обратно. Прогресс безумный — рассуждения, скорость, изображения, видео… всё чётче и быстрее. Мир изменился снова». Обычно так говорят, когда действительно впечатлило.

Краткая история гонки Gemini vs ChatGPT

Путь Gemini к нынешнему положению — это не история мгновенного триумфа: сперва был громкий анонс, проблемный релиз, патчи, ребаланс — и только потом версия «как задумывалось».В конце 2022 года в Google началось экстренное совещание масштаба «всем срочно в подвал»: после выхода ChatGPT руководство компании в авральном режиме перебросило инженеров на ИИ‑направление.Весной 2023-го свет увидел Bard. Проект вышел поспешно — и это было заметно. Ответы грешили неточностями, демо подводили, а публичная критика оказалась настолько громкой, что Google пришлось официально извиняться. Итог — минус около 100 млрд $ капитализации и ощущение, что корпорация внезапно забыла, как пользоваться Python.

К февралю 2024 года Bard отправили на ребрендинг и вернули под новым именем — Gemini. Формально это было маркетинговое переименование, но по факту — символический перезапуск.Дальше началась нормальная эволюция продукта: версии 1.0, 1.5, 2.0 и 2.5 последовательно усиливали мультимодальность, надзорное обучение и прикладные инструменты.

Каждый этап сопровождался одним и тем же посылом: «Мы учимся и улучшаемся». И в этот раз без иронии — стабильная версия Gemini 2.5 летом 2025-го уже уверенно обгоняла предшественников, пусть и уступала GPT-5 в отдельных дисциплинах. Стратегически Google держался курса AI‑first, накапливая данные, опыт и TPU‑чипы.Аналогично, OpenAI регулярно отвечала: GPT 4 → GPT 4o → o1 → GPT 4.5 → o3 → GPT‑5 → GPT‑5.1… → GPT-5.2!Наконец, Gemini 3 Pro стал тем «iPhone‑моментом» для Google.Ещё два года назад Google выглядел растерянным, а теперь снова вернулся в число лидеров.Видно, что обе компании давно едут параллельно, и без борьбы с Google OpenAI уже не безусловный лидер.

Код «Red»: Сэм Альтман мобилизуется

Начало декабря выдалось для OpenAI не из приятных. Новости о том, что Gemini резко рванул вперёд по бенчмаркам, прозвучали как сообщение об атаке. 1 декабря стало ясно: отсиживаться больше нельзя.Внутри компании была объявлена срочная мобилизация — пресловутый код «Красный». О планах писать скрипты красными чернилами Альтман официально не говорил, но СМИ пишут о внутреннем приказе: ускорить релиз и отказаться от некоторых второстепенных фич в пользу надёжности. Об этом написали Fortune, The Information, eWeek — и вообще все, кто в тот момент не спал.Сэм Альтман предупредил команду: нужно задвигать обновление ChatGPT как можно быстрее, особенно по качеству поведения модели и генерации изображений.Контекст был тревожный. В октябре у Gemini — 650 млн пользователей, у ChatGPT — около 800 млн, но при этом в ноябре активность ChatGPT просела примерно на 6%. Альтману пришлось внимательно смотреть не только на графики бенчмарков, но и на кривые вовлечённости. В результате планы пришлось перекраивать на ходу: рекламу и экспериментальные фишки отложили, фокус сместился на скорость, точность и «чистую» производительность модели.

Ранее, всего месяцем раньше, сотрудники OpenAI уже заметили нарастающее напряжение (code orange) — теперь же Альтман фактически приостановил крупные проекты — интеграцию рекламы и некоторые ИИ‑агенты, — чтобы сконцентрироваться на развитии ядра модели. Такой ответ прямо признаёт: достижения Gemini 3 воспринимаются как серьёзная угроза доминированию ChatGPT.

Почти сразу же поползли слухи: новая модель выйдет буквально на днях, а называться она будет GPT-5.2, 5.5 или Garlic. Сейчас уже понятно, что релиз оформился именно как 5.2, а Garlic отложили на начало 2026-го, но тогда индустрия гадала вслепую. Инсайдеры утверждали, что модель уже гоняют на внутренних тестах — и она показывает результаты не хуже Gemini 3 Pro в коде и рассуждениях.Первый звоночек прозвенел в четверг, 11 декабря. Пользователь X Ашутош Шривастава обнаружил, что в среде Cursor модель ChatGPT 5.2 засветилась раньше официальных сроков. Более того — появилось видео, где модель прямо заявляет, кто она и какая у неё версия.Эксперимент быстро прикрыли: доступ заблокировали, повторить находку никому не удалось, а комментаторы тут же начали писать, что «ничего такого нет». Официально OpenAI хранила молчание, но тем не менее «курсорная» утечка подтвердила, что новая модель уже готова.Ну а в тот же вечер модель наконец вышла. Сэм Альтман успел добавить мощности, ловкости и починил двигатели модели.И тут мы переходим к самому главному...

Почему Gemini в тот момент смог опередить GPT‑5 (и везде ли он победил)

Откуда взялся такой разрыв? Почему именно эта версия внезапно вышла вперёд? Если разложить по пунктам, картина выглядит так.

Слияние модальностей. Google натренировал модель сразу на текстах, коде, изображениях, аудио и видео. При обучении был упор на то, чтобы она сама понимала взаимосвязь (намеренно держали единый стек). Поэтому Gemini отлично сходится с реальными задачами, где нужно сразу и читать, и видеть. GPT-5.1, хотя и мультимодален, но не на столь высоком уровне. Подтверждает это прирост на мультимодальных тестах.
Глубокое обучение рассуждению. DeepMind наращивал внимание именно на цепочках размышления и учил Gemini решать задачи пошагово. Это видно в высоких баллах бенчмарков на рассуждение (HLE, GPQA). У ChatGPT тоже есть такое (и даже есть версии, акцентированные на мышлении, — ChatGPT 5/5.1/5.2 Thinking), но Google оказался чуть впереди.
Новая архитектура MoE. Gemini 3 Pro — микшер экспертов (MoE) c сотнями миллиардов параметров, тренированных на TPU v5. Это значит, что модель крайне «широкая» (большой параллелизм) и может использовать больше ресурсов во время вывода. Такой подход позволяет увеличить суммарное число параметров до триллионов (примерно в 3–4 трлн параметров, по оценкам специалистов), при этом основная вычислительная нагрузка идет на узкий «горячий путь». Google подчёркивает, что улучшенная архитектура — ключ к росту производительности.
Расширенный контекст и память. 1 млн токенов — уникальное окно, которое позволяет сразу решать мегадокументы и задачи с множеством шагов. GPT-5.1/5.2 пока ограничены меньшим контекстом: — 16k токенов в бесплатной веб‑версии; — 32k — в Plus и Business; — 128k — в Pro и Enterprise; — 196k во всех тарифах у версии Thinking; — 400k в API‑версии.
Gemini 3 построен на последних исследованиях DeepMind, и это принципиальное подтверждение идеи закона масштабирования. Google не просто увеличил модель, а оптимизировал баланс мощности и эффективности. При этом, как обычно, не использовались GPU Nvidia — всё на тензорных процессорах Google, что позволило компании активизировать всю инженерную проницательность.

Все эти технические улучшения создали мощный толчок. Вдобавок Gemini 3 Pro — модель с массивными ресурсами: она обучена на «всём, что можно легально использовать».Получается, что в основе успеха Gemini 3 Pro — сочетание нового архетипа тренировки, огромного контекстного окна (1M токенов), продвинутых кодовых модулей и мультимодальности. Новая модель — не просто апгрейд параметров, а одновременно новая архитектура.Именно поэтому победа Gemini в бенчмарках выглядит не случайностью, а логичным результатом долгой эволюции.

Gemini 3 Pro vs ChatGPT: победа без нокаута

Звучит впечатляюще, но одновременно возникает вопрос: а ChatGPT реально отстал? Или это односторонний «гуглооптимизм»? Можно ли уже сказать, что тогда «Gemini 3 Pro выиграл ИИ‑гонку»?Ответить на этот вопрос уже сложнее. Нужно учесть:

Оценки бенчмарков — лишь часть картины. В креативе и визуальных интеракциях ChatGPT тоже хорош. Кроме того, ChatGPT иногда показывает себя лучше в арифметических тестах.
Случайности и «оптимизация под тесты»: как предупреждает Андрей Карпатый, бенчмарки — это хорошо, но модели могут специально подтягиваться под них. По его мнению, реальные сценарии — диалоги, интеграция в сервисы — важнее формальных метрик.
Ну и конечно же, не стоит забывать, что: уже вышел ChatGPT 5.2, который вернул себе первое место!

Кроме того, многие пользователи ещё до момента релиза 5.2 отмечали: в повседневном диалоге ChatGPT 5.1 часто отвечал более подробно и последовательно. По наблюдению журналистов и исследователей, ChatGPT сильнее заточен под общение, тогда как Gemini — под вычисления и строгие рассуждения. Это хорошо видно в тестах: в сложных задачах по программированию Gemini 3 действительно обходил GPT-5.1, но в рутинных вопросах GPT чаще звучит «по‑человечески».В итоге возникает полезное разделение:

benchmark — здесь Gemini взял верх (пусть и ненадолго);
bench use case — в повседневном использовании многие по‑прежнему выбирают ChatGPT.

Но значит ли это, что Gemini 3 Pro выигрывал лишь «в одних играх»? На самом деле — и да и нет. Он был оптимизирован именно на эти тяжёлые тесты — уровня IQ‑опросников, кроссмодальных задач и длинных рассуждений. Создавалось впечатление, что Gemini 3 Pro хуже отполирован, зато предпочитает говорить по существу (отказ от банальных фраз), тогда как GPT иногда соглашается, чтобы не ссориться. Это подтверждают собственные слова главы Google DeepMind Демиса Хассабиса: Gemini 3 «не боится опровергнуть вас, если ваш запрос не очень разумен».

Что дальше?

Финал этого игрового сезона завершился с неожиданным твистом. Казалось, что Google вот‑вот зачтёт победный экран, но OpenAI, собрав все ульты, совершил захват контрольной точки в самой последней секунде. Статистика матча теперь в его пользу.Факт налицо: Google создал модель, которая ещё три дня назад демонстрировала наивысшие результаты в объективных измерениях интеллекта. Победа в гонке бенчмарков — важный психологический и технологический рубеж.Расслабляться рано. Впереди — Garlic и очередной виток масштабирования. Если вы разрабатываете ИИ‑приложения или просто работаете с кодом и изображениями, лучший совет сейчас — сравнить Gemini 3 Pro и ChatGPT 5.2 на собственных задачах. Разница ощущается куда ярче на практике, чем в таблицах.Будет ли Garlic внутренним названием для ChatGPT 5.3, 5.5 или вообще 6.0 — пока вопрос открытый. Можно ожидать роста контекста (хотя миллион токенов у Gemini уже никого не пугает) и дальнейших улучшений в кодогенерации. Многое упирается и в инфраструктуру: Google делает ставку на собственные TPU, OpenAI — на Nvidia, но рынок постепенно смешивается — даже Anthropic уже арендует огромные массивы гугловских тензоров.Ответы на эти вопросы появятся в ближайшие месяцы.