Коллекция LLM
В данном разделе представлен сборник и краткое описание ключевых и фундаментальных языковых моделей (LLM).
Модели
Май 2023 г.
7, 40
Falcon LLM - это фундаментальная большая языковая модель (LLM) с 40 миллиардами параметров, обученная на одном триллионе токенов. Компания TII выпустила Falcon LLM - 40-битную модель.
Май 2023 г.
-
-
Языковая модель, обладающая лучшими многоязыковыми и аргументационными возможностями и более высокой вычислительной эффективностью, чем ее предшественница PaLM.
Май 2023 г.
-
-
"К достижению экспертного уровня в ответах на медицинские вопросы с использованием больших языковых моделей"
Май 2023 г.
3, 7
Семейство моделей, включающее базовую, настраиваемую по инструкции и чат-модели.
Май 2023 г.
65
-
Языковая модель LLaMa с 65 параметрами, настроенная с помощью стандартных потерь при супервизии всего на 1000 тщательно отобранных подсказках и ответах, без какого-либо обучения с подкреплением или моделирования предпочтений человека.
Май 2023 г.
3
Модель replit-code-v1-3b представляет собой 2.7B LLM, обученный на 20 языках из набора данных Stack Dedup v1.2.
Май 2023 г.
12
h2oGPT - это фреймворк для тонкой настройки большой языковой модели (LLM) и пользовательский интерфейс чатбота с функцией "вопрос-ответ" для документов.
Май 2023 г.
16
Модели CodeT5 и CodeT5+ для понимания и генерации кода от Salesforce Research.
Май 2023 г.
7
MPT-7B - это модель в стиле GPT, первая в серии моделей MosaicML Foundation.
Май 2023 г.
0.124 - 1.5
Облегченные модели следования инструкциям, демонстрирующие интерактивность, подобную ChatGPT.
Апрель 2023 г.
3, 7, 12
LLM, работающий по инструкции, отлаженный на базе данных инструкций, созданных человеком, лицензированной для исследовательского и коммерческого использования.
Апрель 2023 г.
0.070 - 12
Набор из 16 LLM, обученных на общедоступных данных, представленных в точно таком же порядке и имеющих размер от 70М до 12Б параметров.
Март 2023 г.
12
OpenAssistant - это чат-ассистент, который понимает задачи, может взаимодействовать со сторонними системами и динамически получать для этого информацию.
Март 2023 г.
0.111 - 13
"Cerebras-GPT: Обучение оптимальных языковых моделей с использованием вычислительного кластера Cerebras на вафельной плате"
Март 2023 г.
1085
-
PanGu-Σ: К модели языка с триллионом параметров с помощью разреженных гетерогенных вычислений
Ноябрь 2022 г.
-
-
Модель под названием ChatGPT, которая взаимодействует в диалоговом режиме. Формат диалога позволяет ChatGPT отвечать на последующие вопросы, признавать свои ошибки, оспаривать неверные предпосылки и отклонять неуместные запросы.
Октябрь 2022 г.
540
-
Преодоление законов масштабирования с помощью 0,1% дополнительных вычислений
Сентябрь 2022 г.
70
-
Улучшение согласованности диалоговых агентов с помощью целевых человеческих оценок
Август 2022 г.
20
-
AlexaTM 20B: обучение по нескольким снимкам с использованием крупномасштабной многоязычной модели Seq2Seq
Декабрь 2022 г.
30, 175
OPT-IML: масштабирование метаобучения языковых моделей через призму обобщения
Май 2022 г.
175
OPT: Открытые предварительно обученные трансформаторные языковые модели
Апрель 2022 г.
11
Super-NaturalInstructions: Обобщение с помощью декларативных инструкций на 1600+ задач НЛП
Апрель 2022 г.
20
GPT-NeoX-20B: авторегрессионная модель языка с открытым исходным кодом
Март 2022 г.
70
-
Показано, что при определенном вычислительном бюджете наилучшие показатели достигаются не за счет самых больших моделей, а за счет меньших моделей, обученных на большем количестве данных.
Март 2022 г.
175
-
Обучение языковых моделей выполнению инструкций с обратной связью от человека
Март 2022 г.
0.350 - 16
CodeGen: Открытая модель большого языка для кода с многооборотным программным синтезом
Январь 2022 г.
530
-
Использование DeepSpeed и Megatron для обучения крупномасштабной генеративной модели языка Megatron-Turing NLG 530B
Декабрь 2021 г.
1200
-
GLaM: Эффективное масштабирование языковых моделей с использованием смеси экспертов
Декабрь 2021 г.
280
-
Масштабирование языковых моделей: Методы, анализ и выводы из обучения Gopher
Октябрь 2021 г.
245
-
Юань 1.0: Крупномасштабная предварительно обученная языковая модель при обучении с нулевым и малым количеством кадров
Октябрь 2021 г.
11
Многозадачное обучение с подсказками обеспечивает генерализацию задач с нулевым результатом
Сентябрь 2021 г.
82
-
Какие изменения могут принести крупномасштабные языковые модели? Интенсивное исследование HyperCLOVA: миллиардные генеративные предварительно обученные трансформаторы корейского языка
Июль 2021 г.
10
-
ERNIE 3.0 Titan: Исследование крупномасштабного предварительного обучения с расширением знаний для понимания и генерации языка
Июль 2021 г.
10
-
ERNIE 3.0: Крупномасштабное предварительное обучение с расширением знаний для понимания и генерации языков
Июнь 2021 г.
6
Модель генерации текста с авторегрессией и 6 миллиардами параметров, обученная на The Pile.
Июнь 2021 г.
198
CPM-2: крупномасштабные экономически эффективные предварительно обученные языковые модели
Апрель 2021 г.
13
PanGu-α: Крупномасштабные авторегрессионные модели китайского языка с предварительным обучением и автопараллельными вычислениями
Октябрь 2020 г.
13
mT5: Массовый многоязычный предварительно обученный преобразователь текста в текст
Июнь 2020 г.
-
Предварительное обучение по методу Denoising Sequence-to-Sequence для генерации, перевода и понимания естественного языка
Июнь 2020 г.
600
-
GShard: масштабирование гигантских моделей с помощью условных вычислений и автоматического чередования
Июнь 2019 г.
-
Обобщенное авторегрессионное предварительное обучение для понимания и генерации языка
Октябрь 2019 года
0.06 - 11
Исследование пределов трансферного обучения с помощью унифицированного преобразователя текста в текст
Июль 2019 г.
0.125 - 0.355
Надежно оптимизированный подход к предварительному обучению BERT
Данный раздел находится в стадии разработки.
Данные для этого раздела взяты из Papers with Code и из недавних работ Zhao et al. (2023).
Last updated