ChatGPT
AI
May 31, 2024
GPT-4o: Новый уровень естественного взаимодействия человека и ИИ
GPT-4o ("o" for "omni") - это шаг к гораздо более естественному взаимодействию человека и компьютера. Модель принимает на вход любую комбинацию текста, аудио, изображений и видео и генерирует любую комбинацию текста, аудио и изображений на выходе.
GPT-4o может реагировать на аудиовходы всего за 232 миллисекунды, в среднем за 320 миллисекунд, что сопоставимо со временем реакции человека в разговоре. Модель соответствует производительности GPT-4 Turbo на текстах на английском языке и коде, со значительным улучшением на текстах на других языках, при этом работая намного быстрее и на 50% дешевле в API. GPT-4o особенно хорошо справляется с пониманием изображений и аудио по сравнению с существующими моделями.
Характеристики
- Принимает на вход любую комбинацию текста, аудио, изображений и видео
- Генерирует любую комбинацию текста, аудио и изображений на выходе
- Время реакции на аудиовходы сопоставимо со временем реакции человека в разговоре
- Соответствует производительности GPT-4 Turbo на текстах на английском языке и коде
- Значительное улучшение на текстах на других языках
- Работает в 2 раза быстрее и на 50% дешевле, чем GPT-4 Turbo в API
- Превосходит существующие модели в понимании изображений и аудио
Преимущества
- Естественное взаимодействие человека и компьютера благодаря мультимодальности
- Высокая скорость реакции на аудиовходы, сопоставимая с человеческой
- Улучшенная производительность на текстах на разных языках
- Более быстрая и экономичная работа по сравнению с GPT-4 Turbo
- Передовые возможности понимания изображений и аудио
Ограничения
- Некоторые ограничения, наблюдаемые во всех модальностях модели
- Аудиовыходы на момент запуска ограничены набором предустановленных голосов и соответствуют существующим политикам безопасности
- Требуется дальнейшее улучшение для превосходства над GPT-4 Turbo в некоторых задачах
Области применения
- Чат-боты и виртуальные ассистенты с естественным взаимодействием
- Мультимодальная обработка данных (текст, аудио, изображения, видео)
- Генерация текста, аудио и изображений
- Понимание и анализ изображений и аудио
- Перевод речи и текста на разные языки
Производительность
- GPT-4o достигает уровня производительности GPT-4 Turbo на текстах, рассуждениях и интеллекте кодирования, при этом устанавливая новые высокие ориентиры для многоязычных, аудио и визуальных возможностей.
- GPT-4o значительно улучшает производительность распознавания речи по сравнению с Whisper-v3 на всех языках, особенно на языках с меньшим количеством ресурсов.
- GPT-4o устанавливает новый уровень передового опыта в переводе речи и превосходит Whisper-v3 на бенчмарке MLS.
- GPT-4o сильнее, чем GPT-4, на бенчмарке M3Exam на всех языках, который включает в себя как многоязычные, так и визуальные вопросы.
- GPT-4o достигает передовых результатов на бенчмарках визуального восприятия, таких как MMMU, MathVista и ChartQA.
Интересные факты
- GPT-4o обучена end-to-end на текстах, изображениях и аудио, что означает, что все входы и выходы обрабатываются одной и той же нейронной сетью.
- Новый токенизатор GPT-4o значительно сокращает количество токенов на разных языках, например, в 4.4 раза меньше токенов для гуджарати и в 3.5 раза меньше для телугу.
- Безопасность GPT-4o встроена в дизайн модели во всех модальностях с помощью таких методов, как фильтрация обучающих данных и уточнение поведения модели после обучения.
- GPT-4o прошла обширное внешнее красное тестирование с участием более 70 внешних экспертов в таких областях, как социальная психология, предвзятость и справедливость, дезинформация, для выявления рисков, связанных с новыми модальностями.
- Возможности GPT-4o будут развертываться итеративно, начиная с текстовых и визуальных возможностей в ChatGPT и API, с последующим добавлением аудио и видео возможностей для небольшой группы доверенных партнеров в API.