13 juin 2024
Whisper: система распознавания речи от OpenAI
Whisper - это автоматическая система распознавания речи (ASR), разработанная OpenAI.
Она обучена на 680 000 часов многоязычных и многозадачных размеченных данных, собранных из интернета. Использование такого большого и разнообразного набора данных повышает устойчивость модели к акцентам, фоновому шуму и специальной терминологии. Более того, это позволяет выполнять транскрипцию на нескольких языках, а также переводить с этих языков на английский.Whisper имеет простую архитектуру "конец-в-конец" на основе трансформера с кодировщиком и декодером. Входное аудио разбивается на 30-секундные фрагменты, преобразуется в log-Mel спектрограмму и подается в кодировщик. Декодер обучен предсказывать соответствующий текст, перемежающийся специальными токенами, которые указывают модели выполнять такие задачи, как идентификация языка, временные метки на уровне фраз, многоязычная транскрипция речи и перевод речи на английский язык.
Характеристики:
- Архитектура Transformer кодировщик-декодер
- Обучена на 680 000 часов многоязычных транскрибированных данных
- Многозадачное обучение на распознавание речи, перевод и идентификацию языка
- Входное аудио преобразуется в log-Mel спектрограмму
- Использует байтовый BPE токенизатор, как в GPT-2
Преимущества:
- Высокая устойчивость к акцентам, шумам и специальной лексике
- Возможность транскрипции на многих языках и перевода на английский
- Простая архитектура, позволяющая легко масштабировать модель
- Значительно превосходит модели, обученные на LibriSpeech, в задачах распознавания речи вне домена
Ограничения:
- Работает с аудио длиной до 30 секунд, для более длинных нужна буферизованная транскрипция
- Качество сильно зависит от объема обучающих данных для конкретного языка
- Многоязычная идентификация языка уступает специализированным моделям
- Генерирует весь конвейер обработки речи, что не всегда нужно
Применение:
- Транскрипция аудио и видео на разных языках
- Перевод речи на английский язык
- Базовая модель для дообучения на специфичных данных
- Анализ устойчивости ASR к шумам и акцентам
Производительность:
- Превосходит модели, обученные на LibriSpeech, в задачах распознавания вне домена
- Показывает новый уровень качества в переводе речи с многих языков на английский (CoVoST2)
- Близка к человеческому уровню точности транскрипции на сложных реальных данных
- Устойчива к аддитивному шуму, особенно в естественных условиях (к примеру, шум паба)
Интересные факты:
- Название Whisper происходит от WSPSR (Web-scale Supervised Pretraining for Speech Recognition)
- Около трети обучающих данных - не на английском языке
- Точность распознавания для языка сильно коррелирует с объемом обучающих данных
- Качество перевода на английский зависит от объема данных меньше, чем качество распознавания