ChatGPT
AI

Какой ChatGPT выбрать в 2025 году? Подробный разбор всех моделей

Ещё пару лет назад вопрос «Какой ChatGPT лучше?» сводился к простому выбору: что за версию использовать — «тройку» или «четвёрку»? Теперь всё сложнее, и не всегда с ходу понятно, чем одна модель отличается от другой. OpenAI больше не делает ставку на одну универсальную, а предлагает линейки моделей, где каждая специализируется на чём‑то своём: одна лучше рассуждает, другой удобнее писать код, третья идеально подходит для повседневных задач (генераций и др.).Кажется, пора перестать мыслить категориями «лучше — хуже» и начать рассматривать нейросети как инструменты. В этом обзоре я расскажу, какая модель ChatGPT лучше для каких областей, то есть как выбрать ту, которая будет решать вашу задачу лучше остальных. Спойлер: для разных предназначений мы выберем всего три‑четыре модели, чтобы закрыть максимальное число вопросов наиболее способными нейросетями.
BotHub

Немного предыстории

Всё началось в 2018 году, когда инженеры стартапа OpenAI вывели на сцену первую большую языковую модель — GPT-1. Её обучали на текстовых материалах и интерактивных задачах, причём процесс разработки держали в секрете. Модель была как проба пера — интересная, но довольно ограниченная.Открытый релиз GPT-2 состоялся в феврале 2019-го. Причём тут было не одно, а сразу четыре «издания», с числом параметров от 0,117 до 1,5 млрд. С увеличением размеров модели возникла необходимость в более масштабном датасете. Для её обучения создали новый корпус данных WebText, собрав 45 миллионов веб‑страниц, — он значительно превосходил по объёму данные, использованные при предобучении GPT-1. Кроме того, были применены различные методы очистки и отбора данных для повышения их качества.И всё же, несмотря на успехи, GPT-2 была не без изъянов: в задачах вроде понимания текста, машинного перевода и ответов на вопросы она всё ещё проигрывала узкоспециализированным моделям. Именно поэтому разработка GPT-3 стала следующим логичным шагом.В процессе разработки GPT-2 и GPT-3 инженеры сосредоточились на переходе от дообучения к разработке универсального ИИ. Ведь дообучение неплохо работает в чётко определённых задачах, но далеко не во всех, и вообще идея сбора специализированного набора данных для обучения на каждой подзадаче делало процесс крайне неэффективным. Кроме того, исследования показывали, что по мере увеличения размеров моделей появлялось всё больше риска переобучения на случайные закономерности в данных. Возникал парадокс: чем больше модель, тем больше информации она может усвоить; но чем уже и менее разнообразен набор данных для дообучения, тем хуже она обобщает знания и адаптируется к новым данным.Кроме того, люди по своей природе не требуют огромных размеченных датасетов, чтобы овладеть знаниями. Поэтому, если мы хотим, чтобы ИИ‑модели действительно стали гибкими и универсальными, они должны учиться так же, как человек, — без необходимости подстраивать их под каждую новую задачу вручную. В результате при разработке GPT-2 и GPT-3 инженеры сосредоточились на таких аспектах, как:
  • Обучение без привязки к конкретным задачам. Модель осваивает широкий набор навыков ещё на этапе обучения, а затем применяет их в реальных задачах, адаптируясь к новым условиям без дополнительного дообучения. В результате этого подхода оказалось, что ИИ действительно может обучаться более гибко и обобщённо.
  • Обучение в контексте. Похожий принцип: модель учится понимать, что важно в данный момент, и реагировать на это.
  • Гипотеза масштабирования. Одна из самых значимых идей, лежащих в основе GPT-2 и GPT-3: по мере увеличения размера модели и объёма данных в процессе обучения нейросеть может развивать новые способности самостоятельно, без явного программирования. Это так называемые проявляющиеся способности — когда модель, никогда не учившаяся решать конкретную задачу, вдруг оказывается способна её выполнить.
Благодаря этим подходам, модели GPT стали гибкими и применимыми к самым разным задачам.GPT-3 сохранила основные архитектурные принципы GPT-2. В рамках исследования было обучено восемь моделей разного масштаба — от 0,125 до 175 млрд параметров. Эта версия была обучена на ещё более масштабных наборах данных, чем её предшественники. При этом дело было не только в количестве данных, но и в их качестве: вместо того чтобы просто набросать в датасет побольше текстов, приоритизировали надёжные источники.Итак, со временем политика OpenAI немного изменилась: если раньше ставка делалась на универсальные модели, которые должны были уметь всё, то теперь — на специализированные решения. Компания стала двигаться к тому, чтобы пользователи подбирали конкретную модель под конкретную задачу.Давайте теперь разберёмся, какие модели ChatGPT актуальны сегодня и чем они различаются. В итоге мы остановим выбор всего на нескольких моделях.Некоторые предыдущие, кстати, больше не развиваются как отдельные продукты: например, Codex (генерация кода) и InstructGPT (ранние попытки оптимизировать GPT для продолжительной беседы) уже не идут своими путями — их ключевые фишки интегрированы в более мощные современные версии.
Обратите внимание: упомянутые в статье модели (также 4.5-preview) доступны в нашем 

ChatGPT-3.5

Кодовое имя: gpt-3.5-turbo-0125. Когда появилась: ChatGPT-3.5 — ноябрь 2022-го; ChatGPT-3.5-Turbo — март 2023-го. Число параметров: 175 000 000 000. Актуальность датасета: до 30 сентября 2021-го. Поддержка веб‑браузинга в реальном времени: нет. Контекстное окно (сколько информации помнит): ChatGPT-3.5 — 4096 токенов; ChatGPT-3.5-Turbo — 16 385 токенов (считая от конца диалога). Максимальная длина ответа (сколько информации выдаёт за одно сообщение): 4096 токенов. Мультимодальность на входе: отсутствует. Скорость вывода: 100 токенов/с.Версию 3.5, уже в виде чат‑бота, представили миру в ноябре 2022 года, и именно тогда весь мир смог познакомиться с ИИ‑помощником. За первые пять дней бот набрал 1 миллион пользователей, и уже к февралю 2023 года ChatGPT стал самым быстрорастущим потребительским приложением в истории интернета. ChatGPT-3.5 произвёл впечатление на пользователей, предоставляя быстрые и чёткие ответы на широкий спектр вопросов.ChatGPT-3.5 нашёл широкое применение в различных сферах — от автоматизированных чат‑ботов, систем поддержки клиентов и создания текстового контента до генерации идей и решения логических задач. Однако у этой версии были свои ограничения, такие как потеря контекста в длинных беседах, ошибки в сложных расчётах, а также ограниченные способности к абстрактному мышлению, которые часто приводили к неточным или упрощённым ответам. Поэтому сейчас эта версия практически не используется.

Как использовать ChatGPT-3.5 

Если вдруг вы захотите прикоснуться к классике, то это можно сделать через API — ведь в браузерном OpenAI‑интерфейсе она уже недоступна. Однако с учётом устаревшей базы знаний (до сентября 2021-го) и частых галлюцинаций сфера её применения может быть ограниченна.

ChatGPT-4

Кодовое имя: ChatGPT-4 — gpt-4-0613, ChatGPT-4-Turbo — gpt-4-turbo-2024-04-09. Когда появилась: ChatGPT-4 — март 2023-го, ChatGPT-4-Turbo — апрель 2024-го. Число параметров: 1 800 000 000 000. Актуальность датасета: ChatGPT-4 — до 31 декабря 2022-го; ChatGPT-4-Turbo — до 31 декабря 2023-го. Поддержка веб‑браузинга в реальном времени: да. Контекстное окно (сколько информации помнит): ChatGPT-4 — 32 768 токенов; ChatGPT-4-Turbo — 128 000 токенов (считая от конца диалога). Максимальная длина ответа (сколько информации выдаёт за одно сообщение): ChatGPT-4 — 32 768 токенов; ChatGPT-4-Turbo — 4096 токенов. Мультимодальность на входе: ChatGPT-4 — текстовые документы (в т. ч. текстовое содержимое DOC, DOCX, PDF), таблицы (CSV, XLS, XLSX и др.), презентации, изображения; ChatGPT-4-Turbo — отсутствует. Скорость вывода: ChatGPT-4 — 104 токенов/с; ChatGPT-4-Turbo — 100 токенов/с.Когда мир только начинал осознавать, насколько удивителен ChatGPT, в марте 2023 года OpenAI представила ChatGPT-4, на базе новой архитектуры GPT-4. Модель существенно превосходит предшествующую — лучше понимает контекст и тонкости диалога, точнее отвечает даже на сложные вопросы и гораздо увереннее разбирается в научных текстах и абстрактных концепциях.Одно из ключевых нововведений — в том, что GPT-3.5 являлась моделью «текст‑в-текст», тогда как GPT-4 — уже «данные‑в-текст»: была добавлена возможность обрабатывать изображения, в то время как предыдущие могли орудовать лишь текстом. К примеру, модель способна предложить рецепты на основе увиденных на фото продуктов, угадать животное по картинке или объяснить, почему тот или иной мем является смешным, — достаточно лишь приложить к чату одно или несколько изображений. А ещё новая модель научилась гуглить в реальном времени — она может просматривать веб‑сайты по запросу, подтягивая актуальную информацию. Если раньше ИИ был ограничен моментом последнего обновления данных, то теперь ChatGPT заглядывает в интернет, чтобы перепроверить факты.
Мультимодальные возможности ChatGPT-4
В экспериментах модель более успешно, чем ChatGPT-3.5, проходила экзамены на профессиональные навыки (связанные с бизнесом, экономикой, медициной, юриспруденцией). И неспроста: в процессе разработки и обучения инженеры консультировались с более чем 50 экспертами в различных научных областях.Всё это она может также и за счёт большего количества усвоенных параметров, число которых, в зависимости от задачи, варьировалось от 200 до 1800 млрд. Если точнее, модель ChatGPT-4, обладая архитектурой mixture of agents, разбита на восемь агентов, каждый объёмом чуть более 200 млрд параметров, что в сумме как раз составляло 1,8 трлн параметров. Отдельные «части мозга» подключалась по мере необходимости в той или иной задаче, причём одновременно могло быть задействовано несколько.Была выпущена отдельная версия, ChatGPT-4-Turbo, оптимизированная для диалогового общения, например чат‑ботов: она не поддерживает ввод документов и изображений, длина вывода лимитирована 4096 токенами, однако модель помнит большую длину диалога — 128 000 токенов, что как раз позволяет ей ссылаться на гораздо более ранние ответы на протяжении сессии.Сейчас эту модель используют всё реже, отдавая предпочтение более универсальной и энергоэффективной ChatGPT-4o.

ChatGPT-4o

Кодовое имя: gpt-4o-2024-05-13gpt-4o-2024-08-06. Когда появилась: май 2024-го. Число параметров: неизвестно. Актуальность датасета: gpt-4o-2024-08-06 — до июня 2024-го. Поддержка веб‑браузинга в реальном времени: да. Контекстное окно (сколько информации помнит): 128 000 токенов, считая от конца диалога. Максимальная длина ответа (сколько информации выдаёт за одно сообщение): gpt-4o-2024-05-13 — 4096 токенов; gpt-4o-2024-08-06 — 16 384 токенов. Мультимодальность на входе: текстовые документы (в т. ч. текстовое содержимое DOC, DOCX, PDF), таблицы (CSV, XLS, XLSX и др.), презентации, изображения. Скорость вывода: gpt-4o-2024-05-13 — 100 токенов/с; gpt-4o-2024-08-06 — 132 токена/с.OpenAI продолжает расширять ИИ‑границы, выпуская новую модель — ChatGPT-4o. Линейка включает версии 4o и 4o-mini, которые оптимизированы для разных сценариев использования.Как и ChatGPT-4, модель 4o может интегрировать актуальную информацию в ответы (собранную только что на подходящих интернет‑сайтах), а не обходиться лишь тем, что было заложено в момент обучения, — больше никаких «Моя база ограничивается N годом». Кроме того, ChatGPT-4o демонстрирует расширенную поддержку множества языков, что делает её особенно ценной для многоязыковых приложений. Кроме того, оптимизирована архитектура модели — в частности, русское общение теперь расходует вдвое меньше токенов, поэтому пользователи могут получить больше полезной информации, не боясь выжечь лимит контекста.
Мультимодальный запрос к ChatGPT-4o
GPT-4o отличается более глубоким пониманием контекста и возможностью работы с различными типами данных, включая визуальную информацию и аудио. Модель хорошо справляется с задачами STEM (естественные науки, технология, инженерия и математика), но не настолько оптимизирована для задач, требующих сложных размышлений, как o1 и o3-mini.Благодаря огромному количеству параметров, 4o способна обрабатывать значительные объёмы данных, комбинируя данные из разных источников, выполняя многошаговые разъяснения, улавливая эмоциональный подтекст и тонкие смысловые оттенки (да, даже сарказм) и создавая связные и богатые контекстом ответы. Модель оптимизирована для работы как со структурированными, так и неструктурированными данными, лучше воспринимает неоднозначную или противоречивую информацию, что делает её универсальным инструментом для множества отраслей.4o находит применение в том числе в бизнесе, например в крупных онлайн‑системах, многоязычных приложениях и чат‑ботах, работающих с динамичными/объёмными данными.

ChatGPT-4o-mini

Кодовое имя: gpt-4o-mini-2024-07-18. Когда появилась: июль 2024-го. Число параметров: неизвестно. Актуальность датасета: до 1 октября 2023-го. Поддержка веб‑браузинга в реальном времени: нет. Контекстное окно (сколько информации помнит): 128 000 токенов, считая от конца диалога. Максимальная длина ответа (сколько информации выдаёт за одно сообщение): 16 384 токенов. Мультимодальность на входе: текстовые документы (в т. ч. текстовое содержимое DOC, DOCX, PDF), таблицы (CSV, XLS, XLSX и др.), презентации, изображения. Скорость вывода: 100 токенов/с.ChatGPT-4o‑mini — это облегчённая версия ChatGPT-4o: она быстрее генерирует ответы, но менее тщательно прорабатывает сложные запросы. Остаётся эффективной для некоторых повседневных задач, создания простого контента, а также чат‑ботов и иных систем с высокой частотой обработки типовых данных, где важна скорость, но не требуется глубокий анализ контекста.В тесте MMLU (оценка знаний в разных предметных областях) ChatGPT-4o‑mini набирает 82%, а на экзамене по математическим рассуждениям 87%. Это значит, что 4o‑mini вполне справляется с логическими задачами, хоть и с меньшей аналитической глубиной, которую демонстрирует полноразмерная 4o.

ChatGPT-o1-preview, o1, o1-pro

Кодовое имя: o1-preview — o1-preview; o1 — o1-2024-12-17; o1-pro — o1-pro-mode. Когда появилась: o1-preview — сентябрь 2024-го; o1, o1-pro — декабрь 2024-го. Число параметров: неизвестно. Актуальность датасета: o1-preview — до декабря 2023-го; o1 — до января 2024-го; o1-pro — до декабря 2024-го. Поддержка веб‑браузинга в реальном времени: нет. Контекстное окно (сколько информации помнит): o1-preview — 128 000 токенов; o1 — 200 000 токенов; o1-pro — 128 000 токенов (считая от конца диалога). Максимальная длина ответа (сколько информации выдаёт за одно сообщение): o1-preview — 32 768 токенов; o1 — 100 000 токенов; o1-pro — 32 768 токенов. Мультимодальность на входе: o1 — текстовые документы (в т. ч. DOC, DOCX, PDF), изображения, но CSV‑ и Excel‑таблицы не поддерживаются; o1-pro — только изображения. Скорость вывода: динамическая, зависит от сложности вопроса и длительности размышления.ChatGPT‑o1 — это модель, «прокачанная» для решения сложных задач по программированию, математике и естественным наукам. Если другие экземпляры стремятся отвечать быстро, то o1 делает ставку на качество размышлений: она анализирует, сопоставляет, строит логические связи — в общем, делает то, что в ИИ раньше приходилось эмулировать вручную.По сравнению с ChatGPT-4oo1 больше ориентирована на сложные задачи в программировании, математике и естественных науках. Она тратит больше времени на генерацию ответа, но зато выдаёт более продуманные и обоснованные решения. Эта модель буквально имитирует процесс размышления: её ход рассуждений можно проследить в виде поэтапного текста, примерно так, как если бы эксперт обдумывал решение задачи вслух. Модель использует алгоритмы обучения, основанные на реальных рассуждениях и причинно‑следственных связях.o1 — это первая рассуждающая модель от OpenAI, хотя, конечно, можно было имитировать рассуждения и в предыдущих версиях, как это нередко описывали на форумах, когда рекомендовали просить модель «подумать» или «порассуждать», прежде чем выдавать окончательное сообщение (по желанию пользователя это могло занимать отдельный ответ нейросети, а то и несколько). Теперь же рассуждающий режим интегрирован по умолчанию.Кроме того что размышляющие модели думают перед тем, как отвечать, в них также применяется многоэтапная генерация ответов, что ещё больше улучшает качество ответов — ведь нейросеть по нескольку раз сама перепроверяет качество предварительных ответов и тут же их улучшает. Благодаря этому, ChatGPT‑o1 способна выполнять сложные аналитические задачи без необходимости многократного уточнения от пользователя. Цепочки рассуждений позволяют модели разбирать сложные задачи на более простые этапы, распознавать и исправлять собственные недочёты, а также пробовать разные стратегии, если текущий путь не даёт результата, — причём более осмысленно, чем просто генерировать последующие результаты на основе другого случайного сида.
Схема многоэтапных генераций в o1-моделях
ChatGPT‑o1 — квантовый скачок в области ИИ‑рассуждений. Если вы искали модель, которая не просто подбирает вероятностные ответы, а анализирует ситуацию, строит логические связи и проверяет себя на ошибки, — поздравляем, вы её нашли. Бонусом идёт и расширенное окно вывода — 100 000 токенов. Что это даёт? Длинные отчёты, полноценные кодовые базы и детальные разборы вопросов, которые выходят далеко за рамки возможностей других ChatGPT‑моделей.Важно то, что в случае рассуждающих моделей (o1o1-proo3-mini) компания OpenAI  к промтингу:
  • Избегайте специальных техник промтинга, таких как , то есть не давайте модели списка примеров вида «да/нет», «правильно/неправильно», — это может, напротив, ухудшить процессы генерации.
  • Не просите модель рассуждать дополнительно — o1 уже делает это в бэкграунде, а если создавать ещё и фронтальную цепочку размышлений на основе фоновой, генерация может привести к непредсказуемым результатам.
  • Чётко разделяйте элементы информации, если у вас множество вводных данных. Лучше использовать XML‑теги или другой способ разметки, а не просто копировать хаотичный текст.
  • Сперва пробуйте описывать вопрос совсем без примеров, так как предоставленные образцы иногда сужают охват мыслительного процесса размышляющей модели.
  • В то же время различные рамки, ограничения задачи следует указывать в запросе. Кроме того, полезно указывать и критерии, которым должен соответствовать полученный ответ, а также «настойчиво просить» нейросеть продолжать процесс мышления до тех пор, пока они не будут достигнуты.
Результаты тестирования «Проекта „Земляника“» (как называют o1 из‑за LLM‑задачи про подсчёт букв в слове «strawberry») говорят сами за себя:
  • o1 входит в топ-11% в рейтинге соревнований по программированию Codeforces.
  • Входит в топ-500 учеников США по математической олимпиаде, где оцениваются навыки в геометрии, теории чисел и других дисциплинах.
  • Успешно —  — отвечает на вопросы в области астрофизики, органической химии и других наук: её точность выросла до 78%, что превышает не только уровень GPT-4o (56,1%), но и уровень человеческих экспертов (69,7%).
  • В задачах математических олимпиад модель продемонстрировала точность 83,3%, против 13,4% у GPT-4o.
Как отмечает Мэтт Уэлш, ИИ‑исследователь и основатель стартапа Fixie, «o1 — это настоящий прорыв, потому что впервые модель с цепочкой рассуждений становится доступной широкой аудитории. Способность к рассуждению теперь встроена прямо в модель, больше не нужно прибегать к дополнительным инструментам, чтобы добиться аналогичных результатов. Я уверен, что это изменит представление людей о возможностях ИИ».С другой стороны, GPT-4o остаётся более оптимальным выбором для работы с текстом, творческих задач и общения, благодаря глубокому языковому пониманию и способности адаптироваться к различным стилям общения. Этот контраст в возможностях и методах обработки запросов подчёркивает стремление OpenAI к созданию специализированных моделей, ориентированных на разные сферы применения.

ChatGPT-o1-pro

ChatGPT‑o1 сама по себе — машина для сложных рассуждений, но o1-pro идёт ещё дальше. Эта версия использует больше вычислительных ресурсов, что подходит для наиболее сложных анализов и логических построений. По бенчмаркам разница между o1 и o1-pro измеряется всего в несколько процентов, но когда речь идёт о задачах, где важен каждый нюанс, даже они могут стать решающими. Кроме того, o1-pro обладает самой актуальной базой знаний среди всей линейки — её память распространяется до декабря 2024 года. Кстати, если хотите увидеть, как эта модель справляется с задачами на практике,  наши результаты тестирования.

ChatGPT-o1-mini

Кодовое имя: o1-mini. Когда появилась: сентябрь 2024-го. Число параметров: неизвестно. Актуальность датасета: до сентября 2023-го. Поддержка веб‑браузинга в реальном времени: нет. Контекстное окно (сколько информации помнит): 128 000 токенов, считая от конца диалога. Максимальная длина ответа (сколько информации выдаёт за одно сообщение): 65 536 токенов. Мультимодальность на входе: текстовые документы (в т. ч. DOC, DOCX, PDF), изображения, но CSV‑ и Excel‑таблицы не поддерживаются. Скорость вывода: динамическая, зависит от сложности вопроса и длительности размышления.ChatGPT‑o1-mini — более быстрая модель, является облегчённой версией ChatGPT‑o1 и значительно компактнее неё: в ней меньше параметров, а трансформерная архитектура упрощена. Лучше всего подходит для выполнения задач с минимальным контекстом, где от модели требуется точность и скорость, но не предполагается использования обширных знаний.Стоит учитывать, что o1-mini не так глубоко анализирует контекст, а её энциклопедические знания ограничены. Она ориентирована на STEM‑задачи (наука, технологии, инженерия, математика), но в сферах, требующих богатого общего кругозора (например, история, культура), может работать менее эффективно — примерно на уровне 4o‑mini.Запросы к o1-mini рекомендуется составлять по тем же принципам, что и для o1. Но вообще говоря, модель считается устаревающей — вместо неё надёжнее применять более оптимизированную o3-mini.

ChatGPT-o3, o3-mini

Кодовое имя: o3o3-mini. Когда появилась: o3 — продемонстрирована в декабре 2024-го, но пока ещё недоступна; o3-mini — январь 2025-го. Число параметров: неизвестно. Актуальность датасета: o3-mini — до июня 2024-го. Поддержка веб‑браузинга в реальном времени: o3-mini — нет. Контекстное окно (сколько информации помнит): o3-mini — 200 000 токенов, считая от конца диалога. Максимальная длина ответа (сколько информации выдаёт за одно сообщение): o3-mini — 200 000 токенов. Мультимодальность на входе: текстовые документы (в т. ч. DOC, DOCX, PDF), изображения, но CSV‑ и Excel‑таблицы не поддерживаются. Скорость вывода: динамическая, зависит от сложности вопроса и длительности размышления.В декабре 2024 года OpenAI анонсировала o3 — новую итерацию своей рассуждающей модели, пришедшую на смену o1. Главное улучшение — ещё более точный процесс размышления, позволяющий модели строить сложные логические цепочки и выдавать обоснованные решения.Хотя полноценная версия o3 пока ещё недоступна, в январе 2025-го компания открыла доступ к o3-mini. Мини‑версия получила три уровня глубины анализа — lowmedium и high: если требуется быстрый ответ — можно выбрать low, если задача требует серьёзного размышления — high. В задачах, не требующих редких энциклопедических знаний, o3-mini сопоставима с o1 по качеству, но работает на ~24% быстрее.
BotHub
Генерация через o3-mini‑high игры наподобие Flappy Bird. Модель вывела код длиною в 264 строки
Помимо программирования, математика — ещё одна область, в которой модель сильна: на престижном экзамене American Invitational Mathematics Examination 2024, включающем задачи по теории чисел, вероятности, алгебре и геометрии, o3-mini‑high достигла 87,3%, оставив позади даже o1. Кроме того, o3-mini-high  и в AIME-2025, а также HMMT-2025 (Harvard-MIT Mathematics Tournament). Вы можете просмотреть результаты, тексты задач и их решения на сайте бенчмарка .
BotHub
BotHub
Конечно, и в сфере кодинга o3-mini упрощает процесс, создавая рабочие скрипты с минимальными исходными данными. На платформе соревновательного программирования Codeforces o3-mini‑high получила Elo‑рейтинг, равный 2130, и это вносит её в топ-2500 программистов мира. Между тем показатель o3 ещё выше — она набрала на Codeforces Elo‑коэффициент 2727, заняв 175-е место (!) в мировом рейтинге, что лучше, чем у ~99,9% пользователей сайта, уровень которых и так значительно выше среднего. Глава OpenAI Сэм Альтман обещает открыть доступ к o3 в ближайшие месяцы.На другом полигоне для испытаний навыков программирования, бенчмарке SWE‑bench Verified, o3 показывает точность 71,7%, а o3-mini‑high — 49,3%, что тоже выше, чем у o1 (48,9%).
BotHub
В области научных дисциплин модель o3-mini‑high также показывает выдающиеся результаты — уровня доктора философии. GPQA Diamond — один из самых сложных бенчмарков, оценивающий способности ИИ в узкоспециализированных научных областях, включая биологию, физику и химию. В этом тесте o3-mini‑high достигла 79,7%, превзойдя даже более «весомую» o1, результат которой 78%. Для сравнения, Gemini-2-Flash‑Thinking смогла набрать 73,3%, а Claude-3.5-Sonnet — 65%.
BotHub
Поскольку o3-mini — модель, оптимизированная для программирования, математики и естественных наук, отмечается, что в сфере общих знаний она всё‑таки уступает более крупным ИИ‑системам. Однако чаще всего, несмотря на меньший размер, она демонстрирует почти такой же уровень производительности, как и ведущие модели: в бенчмарке MMLU, оценивающем способности ИИ в различных предметных областях, o3-mini‑high набрала 86,9%, в то время как GPT-4o — 88,7%, а o1 — 92,3%. Ожидается, что полная версия, o3, поднимет и эту планку.
BotHub
Круто и то, как o3 оценивает надёжность своих ответов: в ряде случаев она прямо предлагала перепроверить данные, прежде чем принять факты на веру. Эта саморефлексия — важный шаг к созданию AI, который ведёт себя ближе к осторожному и вдумчивому эксперту.Важно отметить, что модели линейки o3 не оптимизированы для написания творческих текстов — они более ориентированы на логическое мышление и структурирование информации.

Какой ChatGPT выбрать? Давайте разберёмся

Мы прошли путь от первых версий ChatGPT до современных моделей, рассмотрели их со всех сторон. Теперь осталось самое важное — понять, какая из них подходит именно вам.

Повседневные задачи, генерация текстов, брейншторминг 

Если вам нужно написать письмо, составить текст, сгенерировать идеи или просто поболтать с ИИ — ChatGPT-4o остаётся лучшим вариантом: он универсален, хорошо понимает контекст и предлагает осмысленные, развёрнутые ответы.4o‑mini и o3-mini здесь не так хороши: мини‑модели уступают в энциклопедических знаниях, а значит, могут теряться в обсуждении более широких тем. К тому же рассуждающие версии (o1o1-proo3-mini) не оптимизированы для творческих задач, а кроме того, общение с ними ощущается как менее естественное. Но если ваш запрос уже ближе к сложным логическим или научным вопросам, стоит попытать счастья и у рассуждающих моделей.

Обсуждение естественных наук, технологий, инженерии и математики

Здесь 4o по‑прежнему на высоте, но, если нужен глубокий разбор технических или научных концепций, берите o3-mini‑high: он умеет анализировать алгоритмы, инженерные решения и сложные документы, предлагая логически выверенные объяснения. Кроме того, o3-mini‑high пригодится тем, кто готовится к экзаменам по ИТ, инженерии и математике: модель может разбирать задачи, объяснять их логику и предлагать альтернативные решения.

Работа с мультимодальными данными

Если вам нужно обработать текст, изображения, документы, таблицы или презентации, 4o — универсальный инструмент. Но если речь идёт о сложной научной обработке данных, то лучше попробовать o1 — он глубже анализирует входную информацию и лучше работает с логическими взаимосвязями.Кстати, мультимодальные модели используются и для более продвинутых сценариев: например, можно загрузить эскизы сайта или интерфейса программы (нарисованные от руки или в редакторе) и попросить нейросеть превратить их в код. Для проработки средней глубины подойдут 4o и o3-mini, а для макетов повышенной сложности — o1.

Сложные научные исследования, решение трудоёмких задач

Если перед вами стоит задача, требующая глубокого анализа, работы с научными статьями или построения сложных гипотез, ваш выбор — рассуждающие модели: o1 или o1-pro, а также o3-mini‑high. Но здесь есть нюанс: если вам нужны редкие энциклопедические, то есть фактические, знания, то o1 будет предпочтительнее, ведь o3-mini‑high, несмотря на выдающуюся способность к рассуждениям, может упускать некоторые «редкоприменяемые» детали.То же замечают и пользователи: для анализа и создания сложных технических текстов, насыщенных специализированной терминологией и требующих высокой точности формулировок, результаты o1 и o1-pro заметно превосходят другие модели, а o3-mini‑high пока не достигает их уровня «вау‑эффекта». Поэтому, когда ваша задача требует основательных фактических знаний и сложных рассуждений, выбирайте ChatGPT‑o1/o1-pro. Однако если тема — программирование, то именно o3-mini‑high получает большее количество положительных отзывов.

Написание, отладка кода и вопросы по программированию

Чтобы писать код, разбираться в алгоритмах или отлаживать скрипты, o3-mini‑high — лучший вариант: она создаёт работающие программы с минимальными вводными и помогает разбирать сложные участки кода.Что насчёт 4o? Хотя это универсальная модель, в области программирования она работает не так эффективно, как специализированные решения. Она может справляться с простыми скриптами, но если нужен разбор сложных алгоритмов и фрагментов кода — лучше выбирать o3-mini‑high.

Извлечение (парсинг) данных из текстового потока, чат-боты

Если ваша задача — автоматический парсинг данных (преобразование необработанного текста в XML, JSON или другую разметку), стоит рассмотреть 4o‑mini или 4o. Какую именно? Всё зависит от сложности данных — желательно начать тест с 4o‑mini: когда речь идёт о частых автоматизированных запросах, лучше всего подходят нерассуждающие мини‑модели, они быстрее и экономичнее. В случае чат‑ботов также стоит отдать предпочтение версии mini, если, конечно, речь не идёт о сложных системах, работающих с большими массивами данных (тогда 4o будет предпочтительнее).

А можно ещё проще?

Если ещё проще:
  • 4o — для генерации контента и других повседневных задач;
  • o1 и o1-pro (любые направления), o3-mini-high (STEM‑направления) — для сложных логических и научных задач;
  • o3-mini‑high — для программирования;
  • 4o‑mini4o — для извлечения данных и чат‑ботов.
Мир ИИ стремительно меняется, и ChatGPT яркий тому пример. OpenAI дробит модели, а пользователи ломают голову — теперь не одна нейросеть пытается делать всё, а каждая решает свою задачу. Но именно в этом и ценность: мы выбираем не просто мощность, а удобство, инструменты становятся ближе к задачам, значит работать с ними проще и эффективнее.Любопытно, насколько по‑разному пользователи воспринимают эти модели: для кого‑то 4o — почти идеальный помощник, а кто‑то считает его слишком мягким и предпочитает строгую структуру o1 и o3. ИИ становится не просто умнее, а разнообразнее, оставляя за пользователем осознанный выбор.