Что умеет модель Claude 3.5 Sonnet?

Claude 3.5 Sonnet — новый шаг в развитии ИИ от Anthropic. В статье мы тестируем его способности: от написания стихов и анализа изображений до работы с кодом и интерактивными объектами. Проверяем, насколько Claude 3.5 Sonnet действительно лучше своих предшественников и конкурентов, и оцениваем его потенциал в мире генеративного ИИ.

Claude 3.5 Sonnet. Что нового?

Знакомьтесь, Claude 3.5 Sonnet — новый член семьи искусственного интеллекта от Anthropic. Эта модель создана, чтобы понимать и генерировать текст еще лучше, чем ее предшественники.Что же нового? Claude 3.5 Sonnet в два раза быстрее Claude Opus, умеет лучше рассуждать и обладает передовыми способностями визуального восприятия. Она точнее, быстрее и надёжнее предыдущих версий.

Anthropic стремится к тому, чтобы Sonnet напрямую конкурировал с GPT-4 от OpenAI, и надеется, что пользователи оценят его новые возможности. Модель уже превосходит собственную разработку Anthropic — Claude 3 Opus — по многим параметрам, включая скорость, стоимость и результаты тестов.Модель устанавливает новые стандарты в таких областях, как рассуждения на уровне выпускника (GPQA), знания на уровне бакалавра (MMLU) и навыки программирования (HumanEval):

Знаете, чем еще примечателен Claude 3.5 Sonnet? Он научился понимать нюансы, юмор и даже справляется со сложными инструкциями.Теперь можно не бояться, что текст будет звучать сухо и безжизненно: Sonnet пишет довольно естественно и увлекательно.С кодом дела обстоят не хуже: внутренние испытания показали, что Claude 3.5 Sonnet решил 64% задач, оставив далеко позади своего предшественника Claude 3 Opus (тот справился только с 38%).Sonnet пишет, редактирует и выполняет код, словно это для него детская игра. Перевод кода, обновление старых программ, миграция баз данных — ему всё по плечу.Claude 3.5 Sonnet еще и мастер визуализации. Anthropic превзошли сами себя: эта модель работает с изображениями даже лучше, чем Claude 3 Opus.Представьте: Sonnet не просто "видит" картинку, он анализирует диаграммы и графики, понимает, что на них изображено, и даже может распознать текст на нечетких фотографиях.Claude 3.5 Sonnet умеет генерировать интерактивные диаграммы и даже создавать целые презентации на основе JSON-данных.

И самая главная особенность, это Artifacts (аналог Advanced Data Analysis в ChatGPT). Представьте: вы просите Claude сгенерировать код, написать текст или даже создать дизайн сайта. Вместо того, чтобы просто выдать результат, Sonnet создает Artifact — интерактивный объект, с которым можно работать прямо в чате.Хотите поправить код, отредактировать текст или изменить дизайн? Пожалуйста! Artifacts превращают общение с Claude в увлекательный творческий процесс, где вы и искусственный интеллект работаете бок о бок.Кстати о стоимости: использование модели обойдется в 3 доллара за миллион входных токенов и 15 долларов за миллион выходных. Контекстное окно составляет 200 тысяч токенов.Важно отметить, что Claude 3.5 Sonnet — это только первый шаг. В ближайшем будущем Anthropic планирует выпустить Claude 3.5 Haiku и Claude 3.5 Opus, которые станут ещё более впечатляющими.

Полный список моделей Claude:

Кстати, внешние эксперты подтвердили, что Claude 3.5 Sonnet соответствует всем стандартам безопасности.

Стихи

Слова это, конечно, хорошо, но проверить на практике - еще лучше.Первое, посмотрим как хорошо модель пишет стихи. Мы попросим несколько моделей написать стихи по мотивам Бродского. Для таких тестов будем использовать наш сервис BotHub, ввиду некоторых сложностей с официальным сайтом, а также из-за того, что модель больше "подчиняется" через API. Начнем с новичка:

В этом стихотворении действительно чувствуется атмосфера одиночества и тоски, так свойственная Бродскому. Лаконичные и точные образы тоже напоминают его стиль.Однако стихотворению не хватает глубины и многослойности, присущих поэзии Бродского. Тема одиночества раскрыта слишком прямолинейно, без характерной для него иронии и философской задумчивости.Но в целом, стихотворение звучит неплохо!

Сравним с предшественником:

Тема одиночества, поиска смысла жизни, обращение к книгам — всё это очень созвучно поэзии Бродского. Атмосфера задумчивости и рефлексии тоже передана очень точно.

Теперь посмотрим на GPT-4o:

Здесь наблюдаем попытку создания философской образности, использование развёрнутых метафор, созерцательный настрой. Но стих перегружен образами, которые не всегда работают на общую идею. Слишком много пафоса и прямолинейности в выражении чувств, чего у Бродского практически не встретишь.

И, например, оценим Gemini 1.5 Pro:

Образ города, особенно Петербурга, часто встречается у Бродского. Здесь присутствует такая же мрачноватая, осенняя атмосфера. Не хватает характерной для Бродского интеллектуальности и сложности языка. Рифмовка простовата, а образ лирического героя шаблонен.Вообще, нужно понимать, конечно, что подражание стилю — это не только использование определенных образов или тем, но и умение мыслить и чувствовать так же, как поэт, чего ИИ пока не умеет. Однако, именно у Claude лучше всего получается писать и Соннет мне нравится гораздо больше за счет своей лаконичности.

Код страницы скрина

Claude 3.5 Sonnet:

Сlaude 3 Оpus:

ChatGPT-4o

Gemini 1.5 Pro

Artifacts

Например, здесь пользователь попросил модель создать карту фэнтези мира, павшего от старой магии, с культурными и военными соображениями:

Или здесь тот же самый пользователь попросил сделать интерактивные приложение, демонстрирующее центральную предельную теорему:

Таким образом мы вместе с вами пробежалась по новой модели, которая после себя оставила положительные впечатления. Конечно, игра престолов на поле генеративных моделей только наращивает обороты: компании пытаются прыгнуть выше головы, чтобы переиграть своих конкурентов, а нам остается наблюдать за этим.