13 июня 2024 г.

Whisper: система распознавания речи от OpenAI

Whisper - это автоматическая система распознавания речи (ASR), разработанная OpenAI.

Она обучена на 680 000 часов многоязычных и многозадачных размеченных данных, собранных из интернета. Использование такого большого и разнообразного набора данных повышает устойчивость модели к акцентам, фоновому шуму и специальной терминологии. Более того, это позволяет выполнять транскрипцию на нескольких языках, а также переводить с этих языков на английский.Whisper имеет простую архитектуру "конец-в-конец" на основе трансформера с кодировщиком и декодером. Входное аудио разбивается на 30-секундные фрагменты, преобразуется в log-Mel спектрограмму и подается в кодировщик. Декодер обучен предсказывать соответствующий текст, перемежающийся специальными токенами, которые указывают модели выполнять такие задачи, как идентификация языка, временные метки на уровне фраз, многоязычная транскрипция речи и перевод речи на английский язык.

Характеристики:

Архитектура Transformer кодировщик-декодер
Обучена на 680 000 часов многоязычных транскрибированных данных
Многозадачное обучение на распознавание речи, перевод и идентификацию языка
Входное аудио преобразуется в log-Mel спектрограмму
Использует байтовый BPE токенизатор, как в GPT-2

Преимущества:

Высокая устойчивость к акцентам, шумам и специальной лексике
Возможность транскрипции на многих языках и перевода на английский
Простая архитектура, позволяющая легко масштабировать модель
Значительно превосходит модели, обученные на LibriSpeech, в задачах распознавания речи вне домена

Ограничения:

Работает с аудио длиной до 30 секунд, для более длинных нужна буферизованная транскрипция
Качество сильно зависит от объема обучающих данных для конкретного языка
Многоязычная идентификация языка уступает специализированным моделям
Генерирует весь конвейер обработки речи, что не всегда нужно

Применение:

Транскрипция аудио и видео на разных языках
Перевод речи на английский язык
Базовая модель для дообучения на специфичных данных
Анализ устойчивости ASR к шумам и акцентам

Производительность:

Превосходит модели, обученные на LibriSpeech, в задачах распознавания вне домена
Показывает новый уровень качества в переводе речи с многих языков на английский (CoVoST2)
Близка к человеческому уровню точности транскрипции на сложных реальных данных
Устойчива к аддитивному шуму, особенно в естественных условиях (к примеру, шум паба)

Интересные факты:

Название Whisper происходит от WSPSR (Web-scale Supervised Pretraining for Speech Recognition)
Около трети обучающих данных - не на английском языке
Точность распознавания для языка сильно коррелирует с объемом обучающих данных
Качество перевода на английский зависит от объема данных меньше, чем качество распознавания

Whisper представляет собой значительный прорыв в области автоматического распознавания речи. Обучение на огромном объеме многоязычных транскрибированных данных из интернета позволило достичь впечатляющей устойчивости к различным факторам, таким как фоновый шум, акценты и специальная лексика. Модель также демонстрирует выдающиеся результаты в задачах многоязычной транскрипции и перевода речи на английский язык. Хотя Whisper не превосходит узкоспециализированные модели в некоторых задачах, таких как идентификация языка, ее широкие возможности и простая архитектура делают ее привлекательной основой для дальнейшего развития. Модель уже показывает близкую к человеческому уровню точность на сложных реальных аудиоданных, что свидетельствует о ее потенциале для практического применения.Дальнейшие исследования и усовершенствования Whisper, вероятно, будут направлены на повышение качества для низкоресурсных языков, улучшение обработки длинных аудиозаписей и более эффективное использование обучающих данных. В целом, Whisper представляет собой значительный шаг на пути к созданию универсальных и надежных систем распознавания речи.