Mistral AI

Mistral 7B: характеристики модели

Mistral 7B - это языковая модель с 7.3 миллиардами параметров, разработанная компанией Mistral AI.
Она превосходит модель Llama 2 13B по всем показателям и даже приближается к производительности CodeLlama 7B в задачах, связанных с кодом, при этом сохраняя высокую эффективность в задачах на английском языке.Mistral 7B использует механизмы Grouped-query attention (GQA) для ускорения вывода и Sliding Window Attention (SWA) для обработки более длинных последовательностей с меньшими затратами. Модель выпущена под лицензией Apache 2.0 и может использоваться без ограничений.
Mistral AI

Характеристики

  • 7.3 миллиарда параметров
  • Использование Grouped-query attention (GQA) и Sliding Window Attention (SWA)
  • Превосходит Llama 2 13B по всем показателям
  • Приближается к производительности CodeLlama 7B в задачах, связанных с кодом
  • Выпущена под лицензией Apache 2.0

Преимущества

  • Высокая производительность в широком спектре задач.
  • Эффективная обработка длинных последовательностей.
  • Возможность тонкой настройки под конкретные задачи.
  • Свободное использование без ограничений.

Ограничения

  • Относительно большой размер модели (7.3 миллиарда параметров).
  • Отсутствие встроенных механизмов модерации вывода.

Области применения

  • Обработка естественного языка.
  • Генерация текста.
  • Ответы на вопросы.
  • Анализ кода и решение задач, связанных с программированием.
  • Тонкая настройка под специфические задачи.

Производительность

  • Commonsense Reasoning: 0-shot средний результат на Hellaswag, Winogrande, PIQA, SIQA, OpenbookQA, ARC-Easy, ARC-Challenge и CommonsenseQA.
  • World Knowledge: 5-shot средний результат на NaturalQuestions и TriviaQA.
  • Reading Comprehension: 0-shot средний результат на BoolQ и QuAC.
  • Math: Средний результат на 8-shot GSM8K с maj@8 и 4-shot MATH с maj@4.
  • Code: Средний результат на 0-shot Humaneval и 3-shot MBPP.
  • Популярные агрегированные результаты: 5-shot MMLU, 3-shot BBH, и 3-5-shot AGI Eval (только вопросы с множественным выбором на английском языке).

Интересные факты

  • Mistral 7B показывает производительность, эквивалентную модели Llama 2, которая была бы более чем в 3 раза больше по размеру, что значительно экономит память и повышает скорость работы.
  • Модель была дополнительно обучена на общедоступных наборах инструкций с Hugging Face, что позволило создать версию Mistral 7B Instruct, превосходящую все модели размером 7B на бенчмарке MT-Bench и сравнимую с чат-моделями размером 13B.
Mistral 7B - впечатляющая языковая модель, сочетающая высокую производительность, эффективность и гибкость. Она открывает новые возможности для решения широкого спектра задач обработки естественного языка и может быть адаптирована под конкретные потребности путем тонкой настройки.