LLaMA
Открытые и эффективные базовые языковые модели
Last updated
Открытые и эффективные базовые языковые модели
Last updated
Данный раздел находится в активной разработке.
В данной статье представлена коллекция базовых языковых моделей (LLaMA) с числом параметров в диапазоне от 7 миллиардов до 65 миллиардов.
Модели обучаются на триллионах токенов с использованием публично доступных наборов данных.
Исследование, проведенное командой , указывает на то, что при ограниченных вычислительных ресурсах более компактные модели, обученные на более обширных наборах данных, могут достичь более высокой производительности по сравнению с их крупными аналогами. В их работе рекомендуется обучать модели с числом параметров в размере 10 миллиардов на 200 миллиардов токенов. Однако в статье о коллекции базовых языковых моделей (LLaMA) было обнаружено, что производительность модели с 7 миллиардами параметров продолжает улучшаться даже после обучения на триллионе токенов.
В данной работе основное внимание уделяется обучению моделей из коллекции базовых языковых моделей (LLaMA), достигающих оптимальной производительности при различных ограничениях на вычислительные ресурсы, путем обучения на более обширных объемах токенов.
В целом, модель LLaMA-13B показывает лучшие результаты по сравнению с GPT-3(175B) на многих бенчмарках, несмотря на то, что она в 10 раз меньше и может работать на одной графической карте. Модель LLaMA-65B конкурентоспособна с моделями, такими как Chinchilla-70B и PaLM-540B.
Статья:
Код:
(Апрель 2023 г.)
(Апрель 2023 г.)
(Март 2023 г.)
(Март 2023 г.)
(Март 2023 г.)
(Март 2023 г.)
(Март 2023 г.)