Поиск жулика: Как понять, что перед вами ChatGPT 4?

С момента появления ChatGPT 4, вопрос о том, как отличить ее на практике от старой-доброй 3.5, волнует многих пользователей, в том числе и пользователей нашего сервиса. Простой запрос «какая версия ChatGPT передо мной?» не всегда даст правильный ответ — модели могут сообщить, что они не те, кем должны быть. И конечно же это насторожит. В этой статье мы покажем, как отличить ChatGPT 4o от ChatGPT 3.5, используя задачи, с которыми обе модели справляются по-разному. Эти тесты помогут вам быстро определить, с какой версией вы работаете, если вдруг появились сомнения.

Хотя OpenAI убрали ChatGPT 3.5 из своего интерфейса и заменили ее на ChatGPT 4o mini, но 3.5 пока также доступна через API. Так как же верить сервисам, которые предоставляют доступ к официальным моделям, используя API? Как убедиться, что вы платите именно за то, за чем пришли? Мы здесь, чтобы показать вам парочку задач, которые помогут разобраться, что за модель перед глазами. Многих вводит в заблуждение вопрос «что ты за модель?», адресованный одной из моделей. Почему же вводит в заблуждение? Все просто: модель может ответить неверно, сказав, что она более устаревшей версии, чем та, за которой вы пришли и за которую могли заплатить. Конечно же это посеет сомнения! Но это явление можно отнести к галлюцинациям, о которых мы когда‑то уже говорили. Предлагаем задать пару вопросов моделям 4о и 3.5. Обращаться к 4о будем двумя способами: через наш сервис BotHub и через официальное приложение ChatGPT, чтобы сравнить ответы. Сразу отметим, что ответы через API и официальный UI могут разнится, почему? По причине системного промта, настроек и параметров. В то время как разработчик может сам себе все настроить, как ему угодно, прикупив API, — в официальном UI может быть сделано все за него.

Актуальные данные

Начнем с данных. Обучающая выборка 4о модели — до октября 2023 года, а 3.5 до сентября 2021 года.Наш промт будет таким:

что произошло 6 февраля 2023 года

ChatGPT-4o (BotHub)

ChatGPT-4o (OpenAI)

ChatGPT-3.5

Итак, перед нашими глазами абсолютно разные ответы, наглядная демонстрация разницы в предоставлении актуальной информации (в условиях выборки, конечно). Чтобы убедиться, что перед вами ChatGPT 4o - просто задайте вопрос по той информации, которая появилась на просторах интернета уже после сентября 2021 года, но до октября 2023 года (это без функции поиска). ChatGPT 3.5 не сможет ответить на такой вопрос, либо ответит неверно, поскольку будет ограничена в своих возможностях.

Логика

Знаем, что версия 4o гораздо лучше 3.5 в логике, предлагаем это проверить на конкретном примере.Наш промт будет следующим:

Две лодки плывут по реке параллельно друг другу. Каждая движется со скоростью 30 км/ч. С какой скоростью относительно берега движется их общий центр?

ChatGPT-4o

ChatGPT-4o (OpenAI)

ChatGPT-3.5

В задаче на логику, сравнивая модели, вы заметите, что ChatGPT 3.5 будет демонстрировать недостаточное понимание условия задачи, что приведет к неправильному выводу, в то время как ChatGPT 4o будет более точен в логических рассуждениях и физических задачах. ChatGPT 3.5, в силу того, что не понимает задачу, будет вдаваться (либо наоборот избегать, об этом далее) в подробности там, где того не требуется и только запутает вас, в то время как версия 4o сможет сразу установить, какие элементы важны для решения и применит правильный подход в решении.

Математика

И давайте, например, возьмем задачу по математике, простую, но которая требует внимательности. Наш промт:

Кирпич весит 1 кг и полкирпича. Сколько весит кирпич?

ChatGPT-4o (BotHub)

ChatGPT-4o (OpenAI)

ChatGPT-3.5

Итак, как мы указала ранее, ChatGPT 3.5 может наоборот избегать подробностей, как она пришла к такому выводу, и ответ, полученный сейчас — яркая демонстрация этого явления. Вы не увидите логики и рассуждений, а только неправильное интерпретирование задачи, что, как и в предыдущей задаче, только создаст путаницу. Также, и ответ вы получите неверный, поскольку у версии 3.5 большие пробелы в математике в сравнении с версией 4o.

Таким образом, прогоняя модели через простые для человека, но порой непонятные для машины задачи, можно легко вычислить, где модель, за которой вы пришли, а где спрятался жулик. GPT 3.5 справляется исключительно с базовыми запросами, если пытаться копать дальше и давать ему задачки, связанные с рассуждениями, логикой и сложными (в сравнении с базовым уровнем) вычислениями — он посыпется и вы сможете понять, что перед вами ChatGPT 3.5. Но в то же время, нужно понимать, что и GPT 4/4o не так хороша, как могло показаться в ходе прочтения этой небольшой статьи. Статья предоставляет примеры задач, как понять, что перед вами ChatGPT 3.5, но не возносит GPT 4/4o к небесам: в нашем блоге, как на Хабр, так и на сайте, есть много сравнений моделей (например, последний релиз API Grok 2), поиска галлюцинаций и когнитивных искажений, которые демонстрируют изъяны моделей, в том числе GPT-4o.