初窥大模型
大语言模型(Large Language Model)在近年来呈井喷式发展。
自 2017 年特征提取器 Tranformer 发表以来,LLM 主要有三条发展方向:
发展方向 | 特征 | 简述 |
---|---|---|
BERT | Encoder Only | 自编码,适合做理解任务 |
GPT | Decode Only | 自回归,适合做生成任务 |
T5 | Encoder-Decoder | 综合了上述两点的优势,参数暴涨但潜力大 |
图源: https://github.com/Mooler0410/LLMsPracticalGuide
LLM News
2023.4 奶奶漏洞(Grandma Exploit):网友发现在和大模型对话时,如果要求其扮演自己已经过世的祖母,就可以绕开模型的安全护栏机制,套取包括 Win11 序列号在内的敏感内容。
LLM Concept
思维链(chain of Thought):要求模型在输出最终答案之前,显式输出中间逐步的推理步骤。CoT 是一种简单有效的 Prompt 技术,在复杂场景(如算术推理、常识推理、符号推理等)里效果很好。
涌现能力(emergent ability):当模型规模在一定范围内(如 FLOPs 在 以内),能力并没有随着规模的提升而显著提高;而当规模超过一个临界值时(尽管没有改变结构),效果会马上提升。
幻觉(hallucination):LLM 生成看似合理但却虚假或有误导性的响应。目前普遍的看法认为,经过校准的语言模型必然会出现幻觉,而与 Transformer 架构或数据质量无关。
缩放法则(scaling law):模型的性能强烈依赖于模型的规模(包括参数数量、数据集大小和计算量),最后的模型的效果会随着三者的指数增加而线性提高。由 Kaplan J 等人 2020 年提出。
投机解码(speculative decoding):针对自回归解码(autoregressive decoding)推理时串行输出 token 的场景进行加速。投机解码是 drafting 和 verification 两个阶段的循环:先用一个独立小模型串行生成一定长度的 token 序列,再把序列的每个前缀都并行过一遍大模型,从第一个不能被大模型接受的位置重复上述操作。投机解码的本质是用并行算力换低时延,大模型的总推理量不变,但额外增加了小模型的推理量。
微调(Fine-Ture):在预训练的大型语言模型基础上,针对特定任务或数据集进行进一步训练,通过较小规模的目标任务数据集使模型更好地适应特定任务,如文本分类、情感分析、问答系统等。
微调方法 | 概述 |
---|---|
LowRank Adaptation | 保持原有模型不变,对差值低秩分解: |
Transformer
LLM Products
全球常见的大模型和大模型产品举例如下:
发布时间 | 单位 | 产品 | 参数量 | 上下文KB | 定位 |
---|---|---|---|---|---|
2017.6 | OpenAI | GPT-1 | 117M | 0.5 | 聊天机器人 |
2019.11 | OpenAI | GPT-2 | 1.5B | 1 | 聊天机器人 |
2020.6 | OpenAI | GPT-3 | 125M~175B | 2 | 聊天机器人等 |
2022.2 | LamDA | 2B, 8B, 137B | 未开源模型 | ||
2022.3 | OpenAI | GPT-3.5 | ~600B | 4 | 聊天机器人等 |
2023.2 | Meta | LLaMA | 7B, 13B, 30B, 65B | 2 | 免费商用模型 |
2023.3 | OpenAI | GPT-4 | 1760B | 8, 32 | 聊天机器人等 |
2023.3 | Anthropic | Claude | 93B | 100 | 安全聊天机器人 |
2023.7 | Meta | LLaMa2 | 7B, 13B, 70B | 4 | 免费商用模型 |
2023.8 | Meta | Code Llama | 7B, 13B, 34B | 16 | 免费商用模型 |
2023.11 | Anthropic | Claude2 | 137B | 200 | 安全聊天机器人 |
2024.3 | Anthropic | Claude3 | Haiku、Sonnet Opus | 200 | 安全聊天机器人 |
中文社区的大模型情况如下:
发布时间 | 单位 | 产品 | 参数量 | 是否开源 |
---|---|---|---|---|
2023.2 | 复旦大学 | MOSS | 16B | 开源 |
Huggingface
Hugging face 相当于机器学习界的 github,目前已共享了超过 个预训练模型, 个数据集。
Hugging face 由三名法国人于 2016 年在纽约创办,第一个产品是一个聊天机器人。2018年,他们在 github 上开源了大名鼎鼎的 Transformers 库,迅速在机器学习社区火了起来。