ChatGPT
AI

GPT-4o: Новый уровень естественного взаимодействия человека и ИИ

GPT-4o ("o" for "omni") - это шаг к гораздо более естественному взаимодействию человека и компьютера. Модель принимает на вход любую комбинацию текста, аудио, изображений и видео и генерирует любую комбинацию текста, аудио и изображений на выходе.
GPT-4o может реагировать на аудиовходы всего за 232 миллисекунды, в среднем за 320 миллисекунд, что сопоставимо со временем реакции человека в разговоре. Модель соответствует производительности GPT-4 Turbo на текстах на английском языке и коде, со значительным улучшением на текстах на других языках, при этом работая намного быстрее и на 50% дешевле в API. GPT-4o особенно хорошо справляется с пониманием изображений и аудио по сравнению с существующими моделями.
ChatGPT-4o

Характеристики

  • Принимает на вход любую комбинацию текста, аудио, изображений и видео
  • Генерирует любую комбинацию текста, аудио и изображений на выходе
  • Время реакции на аудиовходы сопоставимо со временем реакции человека в разговоре
  • Соответствует производительности GPT-4 Turbo на текстах на английском языке и коде
  • Значительное улучшение на текстах на других языках
  • Работает в 2 раза быстрее и на 50% дешевле, чем GPT-4 Turbo в API
  • Превосходит существующие модели в понимании изображений и аудио

Преимущества

  • Естественное взаимодействие человека и компьютера благодаря мультимодальности
  • Высокая скорость реакции на аудиовходы, сопоставимая с человеческой
  • Улучшенная производительность на текстах на разных языках
  • Более быстрая и экономичная работа по сравнению с GPT-4 Turbo
  • Передовые возможности понимания изображений и аудио

Ограничения

  • Некоторые ограничения, наблюдаемые во всех модальностях модели
  • Аудиовыходы на момент запуска ограничены набором предустановленных голосов и соответствуют существующим политикам безопасности
  • Требуется дальнейшее улучшение для превосходства над GPT-4 Turbo в некоторых задачах

Области применения

  • Чат-боты и виртуальные ассистенты с естественным взаимодействием
  • Мультимодальная обработка данных (текст, аудио, изображения, видео)
  • Генерация текста, аудио и изображений
  • Понимание и анализ изображений и аудио
  • Перевод речи и текста на разные языки

Производительность

ChatGPT-4o

  • GPT-4o достигает уровня производительности GPT-4 Turbo на текстах, рассуждениях и интеллекте кодирования, при этом устанавливая новые высокие ориентиры для многоязычных, аудио и визуальных возможностей.
  • GPT-4o значительно улучшает производительность распознавания речи по сравнению с Whisper-v3 на всех языках, особенно на языках с меньшим количеством ресурсов.
  • GPT-4o устанавливает новый уровень передового опыта в переводе речи и превосходит Whisper-v3 на бенчмарке MLS.
  • GPT-4o сильнее, чем GPT-4, на бенчмарке M3Exam на всех языках, который включает в себя как многоязычные, так и визуальные вопросы.
  • GPT-4o достигает передовых результатов на бенчмарках визуального восприятия, таких как MMMU, MathVista и ChartQA.

Интересные факты

  • GPT-4o обучена end-to-end на текстах, изображениях и аудио, что означает, что все входы и выходы обрабатываются одной и той же нейронной сетью.
  • Новый токенизатор GPT-4o значительно сокращает количество токенов на разных языках, например, в 4.4 раза меньше токенов для гуджарати и в 3.5 раза меньше для телугу.
  • Безопасность GPT-4o встроена в дизайн модели во всех модальностях с помощью таких методов, как фильтрация обучающих данных и уточнение поведения модели после обучения.
  • GPT-4o прошла обширное внешнее красное тестирование с участием более 70 внешних экспертов в таких областях, как социальная психология, предвзятость и справедливость, дезинформация, для выявления рисков, связанных с новыми модальностями.
  • Возможности GPT-4o будут развертываться итеративно, начиная с текстовых и визуальных возможностей в ChatGPT и API, с последующим добавлением аудио и видео возможностей для небольшой группы доверенных партнеров в API.
GPT-4o представляет собой значительный шаг вперед в естественном взаимодействии человека и компьютера, сочетая в себе мультимодальность, высокую производительность, скорость и экономичность. Модель открывает новые возможности для разработки передовых приложений ИИ, охватывающих текст, аудио, изображения и видео.