Mistral AI
5 марта 2025 г.
Mistral 7B: характеристики модели
Mistral 7B - это языковая модель с 7.3 миллиардами параметров, разработанная компанией Mistral AI.
Она превосходит модель Llama 2 13B по всем показателям и даже приближается к производительности CodeLlama 7B в задачах, связанных с кодом, при этом сохраняя высокую эффективность в задачах на английском языке.Mistral 7B использует механизмы Grouped-query attention (GQA) для ускорения вывода и Sliding Window Attention (SWA) для обработки более длинных последовательностей с меньшими затратами. Модель выпущена под лицензией Apache 2.0 и может использоваться без ограничений.

Характеристики
- 7.3 миллиарда параметров
- Использование Grouped-query attention (GQA) и Sliding Window Attention (SWA)
- Превосходит Llama 2 13B по всем показателям
- Приближается к производительности CodeLlama 7B в задачах, связанных с кодом
- Выпущена под лицензией Apache 2.0
Преимущества
- Высокая производительность в широком спектре задач.
- Эффективная обработка длинных последовательностей.
- Возможность тонкой настройки под конкретные задачи.
- Свободное использование без ограничений.
Ограничения
- Относительно большой размер модели (7.3 миллиарда параметров).
- Отсутствие встроенных механизмов модерации вывода.
Области применения
- Обработка естественного языка.
- Генерация текста.
- Ответы на вопросы.
- Анализ кода и решение задач, связанных с программированием.
- Тонкая настройка под специфические задачи.
Производительность
- Commonsense Reasoning: 0-shot средний результат на Hellaswag, Winogrande, PIQA, SIQA, OpenbookQA, ARC-Easy, ARC-Challenge и CommonsenseQA.
- World Knowledge: 5-shot средний результат на NaturalQuestions и TriviaQA.
- Reading Comprehension: 0-shot средний результат на BoolQ и QuAC.
- Math: Средний результат на 8-shot GSM8K с maj@8 и 4-shot MATH с maj@4.
- Code: Средний результат на 0-shot Humaneval и 3-shot MBPP.
- Популярные агрегированные результаты: 5-shot MMLU, 3-shot BBH, и 3-5-shot AGI Eval (только вопросы с множественным выбором на английском языке).
Интересные факты
- Mistral 7B показывает производительность, эквивалентную модели Llama 2, которая была бы более чем в 3 раза больше по размеру, что значительно экономит память и повышает скорость работы.
- Модель была дополнительно обучена на общедоступных наборах инструкций с Hugging Face, что позволило создать версию Mistral 7B Instruct, превосходящую все модели размером 7B на бенчмарке MT-Bench и сравнимую с чат-моделями размером 13B.