Whisper: система распознавания речи от OpenAI

Whisper - это автоматическая система распознавания речи (ASR), разработанная OpenAI.
Она обучена на 680 000 часов многоязычных и многозадачных размеченных данных, собранных из интернета. Использование такого большого и разнообразного набора данных повышает устойчивость модели к акцентам, фоновому шуму и специальной терминологии. Более того, это позволяет выполнять транскрипцию на нескольких языках, а также переводить с этих языков на английский.Whisper имеет простую архитектуру "конец-в-конец" на основе трансформера с кодировщиком и декодером. Входное аудио разбивается на 30-секундные фрагменты, преобразуется в log-Mel спектрограмму и подается в кодировщик. Декодер обучен предсказывать соответствующий текст, перемежающийся специальными токенами, которые указывают модели выполнять такие задачи, как идентификация языка, временные метки на уровне фраз, многоязычная транскрипция речи и перевод речи на английский язык.
Whisper

Характеристики:

  • Архитектура Transformer кодировщик-декодер
  • Обучена на 680 000 часов многоязычных транскрибированных данных
  • Многозадачное обучение на распознавание речи, перевод и идентификацию языка
  • Входное аудио преобразуется в log-Mel спектрограмму
  • Использует байтовый BPE токенизатор, как в GPT-2

Преимущества:

  • Высокая устойчивость к акцентам, шумам и специальной лексике
  • Возможность транскрипции на многих языках и перевода на английский
  • Простая архитектура, позволяющая легко масштабировать модель
  • Значительно превосходит модели, обученные на LibriSpeech, в задачах распознавания речи вне домена

Ограничения:

  • Работает с аудио длиной до 30 секунд, для более длинных нужна буферизованная транскрипция
  • Качество сильно зависит от объема обучающих данных для конкретного языка
  • Многоязычная идентификация языка уступает специализированным моделям
  • Генерирует весь конвейер обработки речи, что не всегда нужно

Применение:

  • Транскрипция аудио и видео на разных языках
  • Перевод речи на английский язык
  • Базовая модель для дообучения на специфичных данных
  • Анализ устойчивости ASR к шумам и акцентам

Производительность:

  • Превосходит модели, обученные на LibriSpeech, в задачах распознавания вне домена
  • Показывает новый уровень качества в переводе речи с многих языков на английский (CoVoST2)
  • Близка к человеческому уровню точности транскрипции на сложных реальных данных
  • Устойчива к аддитивному шуму, особенно в естественных условиях (к примеру, шум паба)

Интересные факты:

  • Название Whisper происходит от WSPSR (Web-scale Supervised Pretraining for Speech Recognition)
  • Около трети обучающих данных - не на английском языке
  • Точность распознавания для языка сильно коррелирует с объемом обучающих данных
  • Качество перевода на английский зависит от объема данных меньше, чем качество распознавания
Whisper представляет собой значительный прорыв в области автоматического распознавания речи. Обучение на огромном объеме многоязычных транскрибированных данных из интернета позволило достичь впечатляющей устойчивости к различным факторам, таким как фоновый шум, акценты и специальная лексика. Модель также демонстрирует выдающиеся результаты в задачах многоязычной транскрипции и перевода речи на английский язык. Хотя Whisper не превосходит узкоспециализированные модели в некоторых задачах, таких как идентификация языка, ее широкие возможности и простая архитектура делают ее привлекательной основой для дальнейшего развития. Модель уже показывает близкую к человеческому уровню точность на сложных реальных аудиоданных, что свидетельствует о ее потенциале для практического применения.Дальнейшие исследования и усовершенствования Whisper, вероятно, будут направлены на повышение качества для низкоресурсных языков, улучшение обработки длинных аудиозаписей и более эффективное использование обучающих данных. В целом, Whisper представляет собой значительный шаг на пути к созданию универсальных и надежных систем распознавания речи.