Mistral 7B: характеристики модели

Mistral 7B - это языковая модель с 7.3 миллиардами параметров, разработанная компанией Mistral AI.

Она превосходит модель Llama 2 13B по всем показателям и даже приближается к производительности CodeLlama 7B в задачах, связанных с кодом, при этом сохраняя высокую эффективность в задачах на английском языке.Mistral 7B использует механизмы Grouped-query attention (GQA) для ускорения вывода и Sliding Window Attention (SWA) для обработки более длинных последовательностей с меньшими затратами. Модель выпущена под лицензией Apache 2.0 и может использоваться без ограничений.

Характеристики

7.3 миллиарда параметров
Использование Grouped-query attention (GQA) и Sliding Window Attention (SWA)
Превосходит Llama 2 13B по всем показателям
Приближается к производительности CodeLlama 7B в задачах, связанных с кодом
Выпущена под лицензией Apache 2.0

Преимущества

Высокая производительность в широком спектре задач.
Эффективная обработка длинных последовательностей.
Возможность тонкой настройки под конкретные задачи.
Свободное использование без ограничений.

Ограничения

Относительно большой размер модели (7.3 миллиарда параметров).
Отсутствие встроенных механизмов модерации вывода.

Области применения

Обработка естественного языка.
Генерация текста.
Ответы на вопросы.
Анализ кода и решение задач, связанных с программированием.
Тонкая настройка под специфические задачи.

Производительность

Commonsense Reasoning: 0-shot средний результат на Hellaswag, Winogrande, PIQA, SIQA, OpenbookQA, ARC-Easy, ARC-Challenge и CommonsenseQA.
World Knowledge: 5-shot средний результат на NaturalQuestions и TriviaQA.
Reading Comprehension: 0-shot средний результат на BoolQ и QuAC.
Math: Средний результат на 8-shot GSM8K с maj@8 и 4-shot MATH с maj@4.
Code: Средний результат на 0-shot Humaneval и 3-shot MBPP.
Популярные агрегированные результаты: 5-shot MMLU, 3-shot BBH, и 3-5-shot AGI Eval (только вопросы с множественным выбором на английском языке).

Интересные факты

Mistral 7B показывает производительность, эквивалентную модели Llama 2, которая была бы более чем в 3 раза больше по размеру, что значительно экономит память и повышает скорость работы.
Модель была дополнительно обучена на общедоступных наборах инструкций с Hugging Face, что позволило создать версию Mistral 7B Instruct, превосходящую все модели размером 7B на бенчмарке MT-Bench и сравнимую с чат-моделями размером 13B.

Mistral 7B - впечатляющая языковая модель, сочетающая высокую производительность, эффективность и гибкость. Она открывает новые возможности для решения широкого спектра задач обработки естественного языка и может быть адаптирована под конкретные потребности путем тонкой настройки.