Коллекция LLM

В данном разделе представлен сборник и краткое описание ключевых и фундаментальных языковых моделей (LLM).

Модели


Модель
Дата выхода
Размер(B)
Чекпоинты
Description

Май 2023 г.

7, 40

Falcon LLM - это фундаментальная большая языковая модель (LLM) с 40 миллиардами параметров, обученная на одном триллионе токенов. Компания TII выпустила Falcon LLM - 40-битную модель.

Май 2023 г.

-

-

Языковая модель, обладающая лучшими многоязыковыми и аргументационными возможностями и более высокой вычислительной эффективностью, чем ее предшественница PaLM.

Май 2023 г.

-

-

"К достижению экспертного уровня в ответах на медицинские вопросы с использованием больших языковых моделей"

Май 2023 г.

7

Gorilla: Большая языковая модель, связанная с массивными API

Май 2023 г.

3, 7

Семейство моделей, включающее базовую, настраиваемую по инструкции и чат-модели.

Май 2023 г.

65

-

Языковая модель LLaMa с 65 параметрами, настроенная с помощью стандартных потерь при супервизии всего на 1000 тщательно отобранных подсказках и ответах, без какого-либо обучения с подкреплением или моделирования предпочтений человека.

Май 2023 г.

3

Модель replit-code-v1-3b представляет собой 2.7B LLM, обученный на 20 языках из набора данных Stack Dedup v1.2.

Май 2023 г.

12

h2oGPT - это фреймворк для тонкой настройки большой языковой модели (LLM) и пользовательский интерфейс чатбота с функцией "вопрос-ответ" для документов.

Май 2023 г.

1, 3, 7, 16

Модели кода для синтеза программ.

Май 2023 г.

16

Модели CodeT5 и CodeT5+ для понимания и генерации кода от Salesforce Research.

Май 2023 г.

15

StarCoder: Современный LLM для кода

Май 2023 г.

7

MPT-7B - это модель в стиле GPT, первая в серии моделей MosaicML Foundation.

Май 2023 г.

0.124 - 1.5

Облегченные модели следования инструкциям, демонстрирующие интерактивность, подобную ChatGPT.

Апрель 2023 г.

3, 7, 12

LLM, работающий по инструкции, отлаженный на базе данных инструкций, созданных человеком, лицензированной для исследовательского и коммерческого использования.

Апрель 2023 г.

3, 7

Серия языковых моделей StableLM компании Stability AI

Апрель 2023 г.

0.070 - 12

Набор из 16 LLM, обученных на общедоступных данных, представленных в точно таком же порядке и имеющих размер от 70М до 12Б параметров.

Март 2023 г.

12

OpenAssistant - это чат-ассистент, который понимает задачи, может взаимодействовать со сторонними системами и динамически получать для этого информацию.

Март 2023 г.

0.111 - 13

"Cerebras-GPT: Обучение оптимальных языковых моделей с использованием вычислительного кластера Cerebras на вафельной плате"

Март 2023 г.

50

-

BloombergGPT: Большая языковая модель для финансов

Март 2023 г.

1085

-

PanGu-Σ: К модели языка с триллионом параметров с помощью разреженных гетерогенных вычислений

Март 2023 г.

-

-

Технический отчет GPT-4

Февраль 2023 г.

7, 13, 33, 65

LLaMA: открытые и эффективные базовые языковые модели

Ноябрь 2022 г.

-

-

Модель под названием ChatGPT, которая взаимодействует в диалоговом режиме. Формат диалога позволяет ChatGPT отвечать на последующие вопросы, признавать свои ошибки, оспаривать неверные предпосылки и отклонять неуместные запросы.

Ноябрь 2022 г.

0.125 - 120

Galactica:Большая языковая модель для науки

Ноябрь 2022 г.

13

Межъязыковая генерализация через многозадачную настройку

Ноябрь 2022 г.

176

BLOOM: 176B-параметрическая многоязычная модель с открытым доступом

Октябрь 2022 г.

540

-

Преодоление законов масштабирования с помощью 0,1% дополнительных вычислений

Октябрь 2022 г.

20

UL2: Объединение парадигм обучения иностранным языкам

Сентябрь 2022 г.

70

-

Улучшение согласованности диалоговых агентов с помощью целевых человеческих оценок

Октябрь 2022 г.

11

Масштабирование языковых моделей, ориентированных на обучение

Август 2022 г.

20

-

AlexaTM 20B: обучение по нескольким снимкам с использованием крупномасштабной многоязычной модели Seq2Seq

Октябрь 2022 г.

130

GLM-130B: открытая двуязычная предварительно обученная модель

Декабрь 2022 г.

30, 175

OPT-IML: масштабирование метаобучения языковых моделей через призму обобщения

Май 2022 г.

175

OPT: Открытые предварительно обученные трансформаторные языковые модели

Апрель 2022 г.

540

-

PaLM: масштабирование моделирования языка с помощью путей

Апрель 2022 г.

11

Super-NaturalInstructions: Обобщение с помощью декларативных инструкций на 1600+ задач НЛП

Апрель 2022 г.

20

GPT-NeoX-20B: авторегрессионная модель языка с открытым исходным кодом

Март 2022 г.

70

-

Показано, что при определенном вычислительном бюджете наилучшие показатели достигаются не за счет самых больших моделей, а за счет меньших моделей, обученных на большем количестве данных.

Март 2022 г.

175

-

Обучение языковых моделей выполнению инструкций с обратной связью от человека

Март 2022 г.

0.350 - 16

CodeGen: Открытая модель большого языка для кода с многооборотным программным синтезом

Февраль 2022 г.

41

-

Генерация кода на уровне соревнований с помощью AlphaCode

Январь 2022 г.

530

-

Использование DeepSpeed и Megatron для обучения крупномасштабной генеративной модели языка Megatron-Turing NLG 530B

Январь 2022 г.

137

-

LaMDA: Языковые модели для диалоговых приложений

Декабрь 2021 г.

1200

-

GLaM: Эффективное масштабирование языковых моделей с использованием смеси экспертов

Декабрь 2021 г.

280

-

Масштабирование языковых моделей: Методы, анализ и выводы из обучения Gopher

Декабрь 2021 г.

175

-

WebGPT: Браузерный поиск ответов на вопросы с обратной связью

Октябрь 2021 г.

245

-

Юань 1.0: Крупномасштабная предварительно обученная языковая модель при обучении с нулевым и малым количеством кадров

Октябрь 2021 г.

11

Многозадачное обучение с подсказками обеспечивает генерализацию задач с нулевым результатом

Сентябрь 2021 г.

137

-

Тонко настроенные языковые модели являются нулевыми обучаемыми

Сентябрь 2021 г.

82

-

Какие изменения могут принести крупномасштабные языковые модели? Интенсивное исследование HyperCLOVA: миллиардные генеративные предварительно обученные трансформаторы корейского языка

Июль 2021 г.

10

-

ERNIE 3.0 Titan: Исследование крупномасштабного предварительного обучения с расширением знаний для понимания и генерации языка

Август 2021 г.

178

-

Jurassic-1: технические подробности и оценка

Июль 2021 г.

10

-

ERNIE 3.0: Крупномасштабное предварительное обучение с расширением знаний для понимания и генерации языков

Июль 2021 г.

12

-

Оценка больших языковых моделей, обученных на коде

Июнь 2021 г.

6

Модель генерации текста с авторегрессией и 6 миллиардами параметров, обученная на The Pile.

Июнь 2021 г.

198

CPM-2: крупномасштабные экономически эффективные предварительно обученные языковые модели

Апрель 2021 г.

13

PanGu-α: Крупномасштабные авторегрессионные модели китайского языка с предварительным обучением и автопараллельными вычислениями

Октябрь 2020 г.

13

mT5: Массовый многоязычный предварительно обученный преобразователь текста в текст

Июнь 2020 г.

-

Предварительное обучение по методу Denoising Sequence-to-Sequence для генерации, перевода и понимания естественного языка

Июнь 2020 г.

600

-

GShard: масштабирование гигантских моделей с помощью условных вычислений и автоматического чередования

Май 2020 г.

175

-

"Языковые модели - это обучаемые с небольшим числом примеров обучения."

Сентябрь 2019 г.

1.63

CTRL: Модель языка условных преобразований для управляемой генерации

Сентябрь 2019 г.

0.235

Lite BERT для самоконтролируемого обучения языковым репрезентациям

Июнь 2019 г.

-

Обобщенное авторегрессионное предварительное обучение для понимания и генерации языка

Октябрь 2019 года

0.06 - 11

Исследование пределов трансферного обучения с помощью унифицированного преобразователя текста в текст

Ноябрь 2019 г.

1.5

"Языковые модели - это многозадачные модели, обученные без учителя."

Июль 2019 г.

0.125 - 0.355

Надежно оптимизированный подход к предварительному обучению BERT

Октябрь 2018 г.

-

"Двунаправленные представления кодировщика на основе трансформеров"

Июнь 2018 г.

-

Улучшение понимания языка с помощью генеративного предварительного обучения

Данный раздел находится в стадии разработки.

Данные для этого раздела взяты из Papers with Code и из недавних работ Zhao et al. (2023).

Last updated