GPT-4o: Новый уровень естественного взаимодействия человека и ИИ

GPT-4o ("o" for "omni") - это шаг к гораздо более естественному взаимодействию человека и компьютера. Модель принимает на вход любую комбинацию текста, аудио, изображений и видео и генерирует любую комбинацию текста, аудио и изображений на выходе.

GPT-4o может реагировать на аудиовходы всего за 232 миллисекунды, в среднем за 320 миллисекунд, что сопоставимо со временем реакции человека в разговоре. Модель соответствует производительности GPT-4 Turbo на текстах на английском языке и коде, со значительным улучшением на текстах на других языках, при этом работая намного быстрее и на 50% дешевле в API. GPT-4o особенно хорошо справляется с пониманием изображений и аудио по сравнению с существующими моделями.

Характеристики

Принимает на вход любую комбинацию текста, аудио, изображений и видео
Генерирует любую комбинацию текста, аудио и изображений на выходе
Время реакции на аудиовходы сопоставимо со временем реакции человека в разговоре
Соответствует производительности GPT-4 Turbo на текстах на английском языке и коде
Значительное улучшение на текстах на других языках
Работает в 2 раза быстрее и на 50% дешевле, чем GPT-4 Turbo в API
Превосходит существующие модели в понимании изображений и аудио

Преимущества

Естественное взаимодействие человека и компьютера благодаря мультимодальности
Высокая скорость реакции на аудиовходы, сопоставимая с человеческой
Улучшенная производительность на текстах на разных языках
Более быстрая и экономичная работа по сравнению с GPT-4 Turbo
Передовые возможности понимания изображений и аудио

Ограничения

Некоторые ограничения, наблюдаемые во всех модальностях модели
Аудиовыходы на момент запуска ограничены набором предустановленных голосов и соответствуют существующим политикам безопасности
Требуется дальнейшее улучшение для превосходства над GPT-4 Turbo в некоторых задачах

Области применения

Чат-боты и виртуальные ассистенты с естественным взаимодействием
Мультимодальная обработка данных (текст, аудио, изображения, видео)
Генерация текста, аудио и изображений
Понимание и анализ изображений и аудио
Перевод речи и текста на разные языки

Производительность

GPT-4o достигает уровня производительности GPT-4 Turbo на текстах, рассуждениях и интеллекте кодирования, при этом устанавливая новые высокие ориентиры для многоязычных, аудио и визуальных возможностей.
GPT-4o значительно улучшает производительность распознавания речи по сравнению с Whisper-v3 на всех языках, особенно на языках с меньшим количеством ресурсов.
GPT-4o устанавливает новый уровень передового опыта в переводе речи и превосходит Whisper-v3 на бенчмарке MLS.
GPT-4o сильнее, чем GPT-4, на бенчмарке M3Exam на всех языках, который включает в себя как многоязычные, так и визуальные вопросы.
GPT-4o достигает передовых результатов на бенчмарках визуального восприятия, таких как MMMU, MathVista и ChartQA.

Интересные факты

GPT-4o обучена end-to-end на текстах, изображениях и аудио, что означает, что все входы и выходы обрабатываются одной и той же нейронной сетью.
Новый токенизатор GPT-4o значительно сокращает количество токенов на разных языках, например, в 4.4 раза меньше токенов для гуджарати и в 3.5 раза меньше для телугу.
Безопасность GPT-4o встроена в дизайн модели во всех модальностях с помощью таких методов, как фильтрация обучающих данных и уточнение поведения модели после обучения.
GPT-4o прошла обширное внешнее красное тестирование с участием более 70 внешних экспертов в таких областях, как социальная психология, предвзятость и справедливость, дезинформация, для выявления рисков, связанных с новыми модальностями.
Возможности GPT-4o будут развертываться итеративно, начиная с текстовых и визуальных возможностей в ChatGPT и API, с последующим добавлением аудио и видео возможностей для небольшой группы доверенных партнеров в API.

GPT-4o представляет собой значительный шаг вперед в естественном взаимодействии человека и компьютера, сочетая в себе мультимодальность, высокую производительность, скорость и экономичность. Модель открывает новые возможности для разработки передовых приложений ИИ, охватывающих текст, аудио, изображения и видео.