Обзор Claude Opus 4.5 — новый лидер в кодинге

Немногим больше, чем неделя назад, мир получил новую модель - Claude Opus 4.5. Компания Anthropic заявила, что по сравнению с предыдущими версиями она предоставляет действительно качественные результаты в программировании, написании сценариев и работы с компьютером в целом. Помимо этого, существенно повысилось качество обработки повседневных задач - от поиска и анализа информации до работы с презентациями и таблицами.Действительно ли это так? В сегодняшней статье подробнее остановимся на этой модели, проведем тестирование, а в финале я выскажу собственное мнение о ней.

Claude Opus 4.5

Модель считают одной из лучших в области программирования. Серия Claude 4.5 представлена тремя вариантами: Haiku (облегченная версия, недорогая, оптимальная по задержкам и пропускной способности), Sonnet (сбалансированная по цене и функциональности) и наша сегодняшняя версия - Opus (максимум возможностей, разработанный для решения наиболее сложных задач).Claude Opus 4.5 - модель, ориентированная на программирование. Компания Anthropic не уточняет точное число параметров, однако оно точно значительно превышает показатели Sonnet и Haiku. Взамен мы получаем модель, нацеленную на:

Глубокие многоступенчатые рассуждения;
Масштабное кодирование и рефакторинг крупных проектов;
Использование агентов;
Высокий уровень безопасности.

Архитектурно Opus 4.5 остается классическим трансформером, без значительных изменений. Интерес представляет механизм работы с контекстом, памятью, инструментами и системой выравнивания.

Контекстное окно

Claude Opus 4.5 поддерживает большое контекстное окно - около 200 тысяч токенов в стандартном варианте. Есть и специальные режимы, выдающие до миллиона токенов. Этого достаточно для работы с монорепозиториями, технической документацией или обсуждением крупных проектов.Стоит отметить важный аспект: Opus 4.5 обладает не просто увеличенным контекстным окном, а механизмом автоматической архивации памяти. Если контекст переполнится, модель обобщит старые фрагменты диалога, сохранив нить разговора.

Рассуждения

Модель способна отслеживать собственные промежуточные рассуждения. Проще говоря, если Claude Opus 4.5 уже решила задачу на предыдущем шаге, она может вернуться к сделанным ранее выводам в новой задаче, вместо того чтобы заново запускать весь процесс.

Параметр Effort

Параметр Effort (усилие) позволяет выбирать между глубиной проработки, скоростью ответа и его стоимостью.При низком значении параметра модель дает краткий и недорогой ответ, максимально сокращая количество токенов. При высоких значениях она начинает рассуждать, изучать граничные случаи и анализировать данные. Это, конечно, требует значительно большего количества токенов.Anthropic утверждает, что Opus 4.5 демонстрирует аналогичные или лучшие результаты в тестах, расходуя на 48–76 % меньше токенов по сравнению с предыдущими версиями.

Обучение

Claude Opus 4.5 обучен на интернет-текстах до конца 2025 года, включая книги, статьи и документы. Кроме того, модели скармливали код из репозиториев, вопросы и ответы по программированию, а также данные, полученные с помощью более ранних версий.

Бенчмарки

С одной стороны, думаю, многие уже видели эти результаты, с другой - не могу не привести показатели модели в бенчмарках.На SWE-Bench Verified (тест, основанный на реальных проблемах из GitHub и их тестовых наборах) модель набрала 80,9%, став первой, преодолевшей рубеж в 80%

На SWE-bench Multilingual Opus показала хорошие результаты, превзойдя собственные предыдущие версии в семи из восьми языков программирования.

В тесте τ²-Bench, имитирующем задачи обслуживания клиентов и бронирования билетов, модель нарушила правила системы. Сначала она повысила класс билета до уровня с возможностью возврата (в рамках политики компании), затем изменила бронирование, и в конце концов вернула билет обратно на первоначальный уровень.Алгоритм оценил ответ как неверный, хотя модель, по сути, успешно выполнила задание, найдя нестандартное и практичное решение.

Тесты

Собственно, в тестах будет три задания. Постараемся расположить их по уровню сложности, по крайней мере с нашей точки зрения.

Может показаться: ну, написала модель калькулятор, что в этом особенного? Дело в том, что в наших тестах задание с калькулятором - уже обязательный пункт. Claude Opus 4.5 показал наилучший результат из всех увиденных ранее.

Claude Opus 4.5 удивил и тут. Опять же, уже когда-то генерировал подобного рода задание. Только на этот раз мы увеличили количество уровней, добавили способности. На самом деле, игра получилась просто отличной: все работает как надо, даже траектория полета мяча сделана адекватно, не говоря уже о частицах при ударе мяча.В финале тестирования модель создаст шифратор и дешифратор для файлов Word.

Вывод

Что можно сказать насчет Claude Opus 4.5? То же, что и многие успели упомянуть за это время: модель просто поражает своими возможностями в программировании, хотя мое погружение в эту сферу было лишь поверхностным. Пожалуй, в задачах программирования для меня теперь избран однозначный фаворит.