ChatGPT

Стоит ли ChatGPT о1 Pro своих денег? Небольшой тест-драйв модели

Выбираешь, какую нейросеть использовать для своих задач? В нашем новом обзоре мы тестируем ChatGPT o1 Pro — одну из самых обсуждаемых моделей искусственного интеллекта. За время тестирования мы проверили возможности модели в самых разных сценариях: от математики и программирования до творчества и анализа текстов.Мы сравнили производительность o1 Pro с базовой версией o1 и ChatGPT-4, чтобы понять, действительно ли новая модель превосходит своих предшественников. В нашем обзоре вы найдете результаты тестов по криптографии, решению логических задач, работе с кодом и даже написанию стихов. Мы постарались максимально объективно оценить все сильные и слабые стороны новой модели.Надеемся, наш обзор поможет вам решить, стоит ли инвестировать в Pro-версию для решения различных задач.
chatgpt

Немного про модель

Предлагаем продублировать информацию, а именно метрики, демонстрирующие "техническую мощь" (кавычки, так как мы еще не знаем действительно ли оно так) o1 Pro Mode:
  • AIME 2024: Точность выросла с 50% до 86%, показывая способность решать сложные математические задачи.
  • Codeforces: Производительность увеличилась с 62% до 90%.
  • GPQA Diamond: Точность поднялась с 74% до 79%, успешно справляясь с узкоспециализированными запросами.
chatgpt
Согласно OpenAI, модель создана специально для программистов и дата-сайентистов, которым важна предельная точность. Она отлично справляется со сложными задачами, вроде разработки алгоритмов, отладки кода и многоуровневой логикой.Благодаря высшему (!) уровню надежности (4 из 4) практически исключены ошибочные ответы (галлюцинации). Модель показывает отличные результаты в работе с продвинутыми алгоритмами - от динамического программирования до обхода графов, что подтверждается её рейтингом на Codeforces. И особенно полезна при решении технических казусов - например, когда нужно разобраться с блокировками в C++ или утечками памяти в Java.Итак, по вводной прошлись, предлагаем перейти к тестам и выяснить: нужна ли вам о1 в Pro режиме.

Шифрование

Мы зашифровали "Ну что, давай доказывай, что стоишь своих денег" со сдвигом 13. Наш промт:
Расшифруй, что тут написано: "Ъа дяы, рмомц рычмфзомц, дяы юяыхеи юоыхв рсъсп"

о1 Pro Mode

chatgpt

о1


chatgpt
chatgpt

4o


chatgpt
То есть если посмотреть на результаты, то даже без измены алфавита, о1 Pro Mode > o1. Соответственно если мы усложним задачу, уберем по аналогии 1-2-3 буквы из алфавита, о1 Pro Mode должна бить обычную о1, поскольку с шифрованием без звездочки классическая о1 не справилась, но про режим смог.Но зачем гадать, также попробуем изменить алфавит, уберем "а" и "е" из русского алфавита и используем сдвиг 5. Наш зашифрованный текст будет следующим: “Тш ьчу, йазао йупамбзао, ьчу цчунэв цзунъ йетеи”.Итоговый промт:
Расшифруй, что тут написано: “Тш ьчу, йазао йупамбзао, ьчу цчунэв цзунъ йетеи”
Посмотрим на результаты:

о1 Pro Mode

chatgpt
chatgpt

о1


chatgpt


gpt
Вполне вероятно, если мы дали более подробную инструкцию, то модели бы не провалили задание. Однако, все-таки мы оправдали свое смущение: о1 Pro Mode все же лучше, даже с учетом того, что не смогла разгадать. Она поняла а) что за шифр перед ней и б) сдвиг без вводных. Но опять же, перед нами русский язык и русский алфавит, не то что бы нужно делать на это скидку, но учитывать стоит, на наш взгляд.

Загадка про направление

Как вы поняли, нас интересуют навыки в логике, поскольку согласно многим инфлюенсерам и блоггерам в сфере AI, модель не стала умнее, она стала логичнее, более рассудительной, поэтому перейдем к загадкам.Промт следующий:
Обычный человек каждый день едет на работу утром и возвращается домой после обеда. В обоих направлениях он движется в одном и том же направлении. Почему так? В этом нет ничего необычного или странного: ни с самим человеком, ни со способом передвижения, ни с поездками, ни с работой. Нет никаких экзотических мест. Нет семантических уловок. Это абсолютно нормальная и рутинная ситуация.

Ответ на загадку связан не с географической ориентацией, а с положением солнца. Утром человек движется на восток, в сторону восхода солнца, поскольку солнце встает на востоке. После обеда, возвращаясь домой, он движется на запад, в сторону заката, поскольку солнце заходит на западе. И если рассмотреть направление относительно солнца, то в обоих случаях человек фактически “движется в сторону солнца”: сначала к восходу, затем к закату.

о1 Pro Mode

gpt

o1

gpt

4o


chatgpt
Тут на самом деле o1 Pro = o1 = 4o. Ответы подходят, но задумывался иной ответ. Ожидалось, что о1 Pro Mode сможет отличиться.

Загадка со ступенями

Идем дальше по загадкам, промт следующий:
Если ты стоишь на верхней ступеньке лестницы с 100 ступенями и спускаешься на 1 ступень вниз, затем поднимаешься на 2 ступени вверх, потом спускаешься на 3 ступени вниз, поднимаешься на 4 ступени вверх, спускаешься на 5 ступеней вниз и так далее. Если продолжишь эту последовательность, доберешься ли ты когда-нибудь до нижней ступеньки лестницы?

o1 Pro mode


chatgpt

o1

gpt

4o

chatgpt
О1 выдала верный и полный ответ за 42 с, в то время как o1 Pro выдала тоже верный, но не совсем полный ответ за 4 м 55 с. Да и решение, на наш взгляд, более понятное именно у базовой о1, т.к. рассматривает как позиции после полных (спуск+подъем) пар шагов, так и позиции после шагов вниз внутри пары. 4о, к сожалению, не справилась, но объясняет понятно, хотя и ведет к неверному выводу.

А может стих?

А что если ChatGPT преисполнился и может писать стихи теперь лучше Claude? Нам хочется это проверить. Зададим такой промт:
Придумай стихотворение в стиле Бродского про Бродского. В стихотворении не должно быть буквы "о".
Конечно же мы усложним задачу, просто стих скучно, мы смотрим еще и на следование инструкциям.

o1 Pro Mode

chatgpt

o1

gpt

4o

gpt
4о, к сожалению, выбывает из этого раунда, допуская ошибку, в словах "непокрыт", "скользит", "уходит", "кто". Рассмотрим о1 Pro и о1. У базовой о1 вышло лучше, во-первых быстрее (1 м 37 с против 5 м 15 с), во-вторых пишет именно о биографии Иосифа Бродского, в то время как Pro Mode ушел в рефлексию и очень отдаленно говорит про "И.Б.", не понятно как здесь появился "Pacific", похоже на ошибку. Но Claude, на наш взгляд,  в этом деле, а стихи явно не про модели GPT (да и в целом тексты), по крайней мере пока. 

Линейная алгебра

Далее предлагаем дать моделям одну задачу по линейной алгебре. Раз O1 Pro Mode записали в PhD, то как профессиональный математик она должна решить с легкостью вузовскую задачу. Предлагаем оценить, какие шансы у о1 в Pro Mode заменить компетентного преподавателя.

o1 Pro Mode

chatgpt
chatgpt

o1 

chatgpt
chatgpt

4o

chatgpt
Если сравнивать решения двух о1, то можно заметить, что в Pro-режиме гораздо меньше неточностей, то есть o1 Pro более детально и понятно объясняет нахождение обратной матрицы, а также явно находит вектор b. Но на самом деле, даже учитывая некоторые неточности базовой о1, ее решение также хорошо: оно хорошо структурировано и понятно.

Анализ статьи

Ни у о1, ни у о1 Pro Mode нет функции загрузки документа/доступа к вебу, но нам все же стало интересно попробовать. Напомним:
"Благодаря высшему (!) уровню надежности (4 из 4) практически исключены ошибочные ответы (галлюцинации)"
Промт будет следующим:
Проанализируй эту статью: И напиши ключевые элементы в статье
Статья про датасет Dusha для задач распознавания эмоций в речи на русском языке, в ней описан процесс сбора данных, этапы предобработки, аннотирование, и также эксперимент с базовой моделью, демонстрирующий метрики, которые можно получить с использованием датасета.Мы дали эту статью, ожидая, что только 4о ответит (за счет доступа к вебу), но.. А начнем, пожалуй, с ответа о1 без Pro Mode.

o1

chatgpt

O1 Pro Mode

chatgpt

4o

chatgpt
Мы не ожидали ответа от Pro-версии, признаться честно. Но ответ был получен, довольно уверенный, хотя предполагалось, что ответ будет аналогичным о1. Что же, поймали на ошибке получается. Интересно, что модель решила как факт изложить анализ названия статьи (конференция "Interspeech 2023"+ названия файла "kondratenko23_interspeech.pdf"), то есть она основывалась на своих предположениях "о чем может быть статья с таким названием". Притом модель понимает свои возможности, она знает, что не имеет доступа к файлу:
I’m thinking about key points from memory to draft a general summary, given no direct access or browsing is possible.Перевод: Я обдумываю ключевые моменты по памяти, чтобы составить общий обзор, поскольку прямого доступа или возможности просмотра нет.
И по итогу:
Without direct access, I'm crafting a summary based on the link's name, likely associating the article with speech recognition advancements.Перевод: Без прямого доступа я создаю резюме, опираясь на название ссылки, вероятно, связывая статью с достижениями в области распознавания речи.
В общем, результат перед глазами.

Код

Предлагаем также посмотреть и на способности в коде, конечно. Попросим приложение для демонстрации мультиверса. Промт следующий:
Создай приложение на JavaScript, HTML и CSS, которое визуализирует концепцию мультиверса. Оно должно быть представлено в виде одной HTML-страницы и включать интерактивную графику для путешествия пользователя между параллельными вселенными. В каждой вселенной создаётся уникальный визуальный мир с изменёнными параметрами физических законов, такими как сила гравитации, скорость света или размер атомов. Для отображения этих миров используй любые графические технологии. Приложение должно обеспечивать плавные переходы между вселенными, добавляя эффекты, подчёркивающие их отличия. Реализуй панель управления с удобными ползунками или переключателями, позволяющими изменять физические параметры в реальном времени. Анимации на экране должны мгновенно адаптироваться к изменениям. Добавь визуальные эффекты, такие как свечение, градиенты, динамическое изменение цветов и движений объектов, чтобы усилить ощущение многомерного пространства. Приложение должно быть адаптивным и хорошо выглядеть на любых устройствах. Добавь всплывающие подсказки с анимацией при наведении на элементы панели управления, поясняющие научные концепции каждого параметра. Используй 3D-эффекты, чтобы создать глубокое, иммерсивное пространство. Дизайн приложения должен быть современным, с детализированными графическими элементами, плавными переходами и интерактивностью
Посмотрим на результат с 1 итерацией ()

o1 Pro Mode

gpt

o1

chatgpt

chatgpt

Нарисуй..

И напоследок попросим нарисовать енота в svg:
сделай svg картинку с енотом 

o1 Pro Mode

chatgpt

o1

chatgpt

4o

chatgpt
Итак, мы провели небольшой тест драйв для первостепенно о1 Pro Mode, а также сравнили ее с базовой о1, и конечно, 4о. Конечно, она демонстрирует навыки на ступень выше своих предшественников, но нужна ли она? Нужна. Нужна для работы, но не для повседневных задач. С повседневными прекрасно справятся 4о и о1, которые доступны по плюс подписке, а также через API (например, на нашей платформе-агрегаторе BotHub). Мы думаем, что модель прекрасный помощник для человека, который знает свое дело, то есть человека с богатым опытом, который знает "что", "зачем" и "куда". Который сможет надиктовывать ей инструкции и тем самым получать AI-ассистента, который прекрасно заменит начинающего специалиста, и именно в такой позиции покупка оправдана.