大语言模型(Large Language Model)在近年来呈井喷式发展。

自 2017 年特征提取器 Tranformer 发表以来,LLM 主要有三条发展方向:

发展方向 特征 简述
BERT Encoder Only 自编码,适合做理解任务
GPT Decode Only 自回归,适合做生成任务
T5 Encoder-Decoder 综合了上述两点的优势,参数暴涨但潜力大

图源: https://github.com/Mooler0410/LLMsPracticalGuide

LLM News

2023.4 奶奶漏洞(Grandma Exploit):网友发现在和大模型对话时,如果要求其扮演自己已经过世的祖母,就可以绕开模型的安全护栏机制,套取包括 Win11 序列号在内的敏感内容。

LLM Concept

思维链chain of Thought):要求模型在输出最终答案之前,显式输出中间逐步的推理步骤。CoT 是一种简单有效的 Prompt 技术,在复杂场景(如算术推理、常识推理、符号推理等)里效果很好。

涌现能力emergent ability):当模型规模在一定范围内(如 FLOPs 在 102210^{22} 以内),能力并没有随着规模的提升而显著提高;而当规模超过一个临界值时(尽管没有改变结构),效果会马上提升。

幻觉hallucination):LLM 生成看似合理但却虚假或有误导性的响应。目前普遍的看法认为,经过校准的语言模型必然会出现幻觉,而与 Transformer 架构或数据质量无关。

缩放法则scaling law):模型的性能强烈依赖于模型的规模(包括参数数量、数据集大小和计算量),最后的模型的效果会随着三者的指数增加而线性提高。由 Kaplan J 等人 2020 年提出。

投机解码speculative decoding):针对自回归解码(autoregressive decoding)推理时串行输出 token 的场景进行加速。投机解码是 draftingverification 两个阶段的循环:先用一个独立小模型串行生成一定长度的 token 序列,再把序列的每个前缀都并行过一遍大模型,从第一个不能被大模型接受的位置重复上述操作。投机解码的本质是用并行算力换低时延,大模型的总推理量不变,但额外增加了小模型的推理量。

微调Fine-Ture):在预训练的大型语言模型基础上,针对特定任务或数据集进行进一步训练,通过较小规模的目标任务数据集使模型更好地适应特定任务,如文本分类、情感分析、问答系统等。

微调方法 概述
LowRank Adaptation 保持原有模型不变,对差值低秩分解: Wd,d=Wd,d+ΔW=Wd,d+Ad,rBr,dW'_{d,d}=W_{d,d}+\Delta W=W_{d,d}+A_{d,r}B_{r,d}

Transformer

Attention is All You Need

The Illustrated Transformer

LLM Products

全球常见的大模型和大模型产品举例如下:

发布时间 单位 产品 参数量 上下文KB 定位
2017.6 OpenAI GPT-1 117M 0.5 聊天机器人
2019.11 OpenAI GPT-2 1.5B 1 聊天机器人
2020.6 OpenAI GPT-3 125M~175B 2 聊天机器人等
2022.2 Google LamDA 2B, 8B, 137B 未开源模型
2022.3 OpenAI GPT-3.5 ~600B 4 聊天机器人等
2023.2 Meta LLaMA 7B, 13B, 30B, 65B 2 免费商用模型
2023.3 OpenAI GPT-4 1760B 8, 32 聊天机器人等
2023.3 Anthropic Claude 93B 100 安全聊天机器人
2023.7 Meta LLaMa2 7B, 13B, 70B 4 免费商用模型
2023.8 Meta Code Llama 7B, 13B, 34B 16 免费商用模型
2023.11 Anthropic Claude2 137B 200 安全聊天机器人
2024.3 Anthropic Claude3 Haiku、Sonnet Opus 200 安全聊天机器人

中文社区的大模型情况如下:

发布时间 单位 产品 参数量 是否开源
2023.2 复旦大学 MOSS 16B 开源

Huggingface

Hugging face 相当于机器学习界的 github,目前已共享了超过 10510^5 个预训练模型,10410^4 个数据集。

Hugging face 由三名法国人于 2016 年在纽约创办,第一个产品是一个聊天机器人。2018年,他们在 github 上开源了大名鼎鼎的 Transformers 库,迅速在机器学习社区火了起来。