LLaMA
Открытые и эффективные базовые языковые модели
Last updated
Открытые и эффективные базовые языковые модели
Last updated
Данный раздел находится в активной разработке.
В данной статье представлена коллекция базовых языковых моделей (LLaMA) с числом параметров в диапазоне от 7 миллиардов до 65 миллиардов.
Модели обучаются на триллионах токенов с использованием публично доступных наборов данных.
Исследование, проведенное командой (Hoffman et al., 2022), указывает на то, что при ограниченных вычислительных ресурсах более компактные модели, обученные на более обширных наборах данных, могут достичь более высокой производительности по сравнению с их крупными аналогами. В их работе рекомендуется обучать модели с числом параметров в размере 10 миллиардов на 200 миллиардов токенов. Однако в статье о коллекции базовых языковых моделей (LLaMA) было обнаружено, что производительность модели с 7 миллиардами параметров продолжает улучшаться даже после обучения на триллионе токенов.
В данной работе основное внимание уделяется обучению моделей из коллекции базовых языковых моделей (LLaMA), достигающих оптимальной производительности при различных ограничениях на вычислительные ресурсы, путем обучения на более обширных объемах токенов.
В целом, модель LLaMA-13B показывает лучшие результаты по сравнению с GPT-3(175B) на многих бенчмарках, несмотря на то, что она в 10 раз меньше и может работать на одной графической карте. Модель LLaMA-65B конкурентоспособна с моделями, такими как Chinchilla-70B и PaLM-540B.
Статья: LLaMA: Open and Efficient Foundation Language Models
Код: https://github.com/facebookresearch/llama
Koala: A Dialogue Model for Academic Research(Апрель 2023 г.)
GPT4All(Март 2023 г.)
Stanford Alpaca(Март 2023 г.)