LLaMA

Открытые и эффективные базовые языковые модели

triangle-exclamation

Что нового?


В данной статье представлена коллекция базовых языковых моделей (LLaMA) с числом параметров в диапазоне от 7 миллиардов до 65 миллиардов.

Модели обучаются на триллионах токенов с использованием публично доступных наборов данных.

Исследование, проведенное командой (Hoffman et al., 2022)arrow-up-right, указывает на то, что при ограниченных вычислительных ресурсах более компактные модели, обученные на более обширных наборах данных, могут достичь более высокой производительности по сравнению с их крупными аналогами. В их работе рекомендуется обучать модели с числом параметров в размере 10 миллиардов на 200 миллиардов токенов. Однако в статье о коллекции базовых языковых моделей (LLaMA) было обнаружено, что производительность модели с 7 миллиардами параметров продолжает улучшаться даже после обучения на триллионе токенов.

В данной работе основное внимание уделяется обучению моделей из коллекции базовых языковых моделей (LLaMA), достигающих оптимальной производительности при различных ограничениях на вычислительные ресурсы, путем обучения на более обширных объемах токенов.

Возможности и ключевые моменты


В целом, модель LLaMA-13B показывает лучшие результаты по сравнению с GPT-3(175B) на многих бенчмарках, несмотря на то, что она в 10 раз меньше и может работать на одной графической карте. Модель LLaMA-65B конкурентоспособна с моделями, такими как Chinchilla-70B и PaLM-540B.

Статья: LLaMA: Open and Efficient Foundation Language Modelsarrow-up-right

Код: https://github.com/facebookresearch/llamaarrow-up-right

Ссылки


Last updated