LLM 术语

最近听播客经常遇到一些专业名词，有些当时没听懂，后面才渐渐理解其中的含义。我把印象比较深的放前面，其他的放在后面。

个人印象比较深的

FOMO (Fear of Missing Out)

因为担心错过某个机会而产生的焦虑和不安。现在 AI 资讯、工具、模型太多，很容易觉得学不过来，陷入 FOMO。

杰文斯悖论

原本是经济学概念：技术进步提高了某种资源的使用效率，反而导致该资源总消耗量增加。工业革命时蒸汽机提高了生产效率，结果对煤炭的需求量反而更大。我觉得 token 也会出现类似情况。恐怖的是，人也是资源，也逃不过这个悖论——这也是 FOMO 的一个原因。

泛化与泛化能力 (Generalization)

模型在训练数据以外的新数据上，依然能保持良好预测和处理性能的能力。这是衡量 AI 是否具备智能的核心指标——只记住训练集里的问题、遇到新问题就束手无策，叫过拟合（死记硬背）。大模型之所以强大，就是因为海量参数赋予了极强的泛化能力，能处理从未见过的任务。以前没有 AI 时只能用低代码解决某几类场景，现在 AI 可以解决很多以前解决不了的问题。关键是我们想泛化什么场景、怎么通过 AI 去解决。

Benchmark（评测基准）

用于标准化评估和比较不同 AI 模型能力的标准化数据集和测试任务，就像学生的期末考卷。常见的包括 MMLU（大规模多任务语言理解，涵盖 57 个学科）、C-Eval（中文能力评测）等。在公认的 Benchmark 上拿到高分，才能得到学术界和工业界的认可。有了泛化能力，Benchmark 就格外重要——一个模型公司好不好，很大程度上看它提出的 Benchmark 是否有说服力。

Harness Engineering / Agent（评测框架工程）

在构建和评估 AI Agent 或大模型时，设计用于自动化测试、评估和监控的系统化框架的工程实践。Claude Code、OpenClaw、OpenCode、Hermes-Agent（俗称爱马仕）都属于这一类。Agent 领域里 Harness Engineering 尤其重要，因为评估一个能自主行动的 Agent 比评估一个只会聊天的模型要复杂得多。去年是 Agent 元年，今年是 Harness 元年。

宏观规律与模型能力评估

鲁棒性 (Robustness)

模型面对输入中的噪声、异常值、对抗攻击或微小扰动时，仍能稳定输出的能力。泛化性强调对新场景的适应，鲁棒性强调对恶劣或异常输入的抵抗。比如用户故意输入带错别字、语法混乱或有诱导性的 prompt，鲁棒性高的模型依然能理解真实意图并给出准确回答，不会崩溃或产生严重幻觉。

SOTA (State-of-the-Art)

当前最高水平或最先进技术。AI 论文和模型发布会里 SOTA 出现频率很高，一个新模型宣称在某项评测上达到 SOTA，意味着它击败了之前所有模型，创造了该领域新纪录。

Transformer 与 Attention（注意力机制）

Transformer 是目前几乎所有主流大模型（GPT、Llama 等）的底层神经网络架构，核心是自注意力机制（Self-Attention）。传统 RNN 像一个字一个字读书的人，读到后面容易忘记前面；Transformer 像能一目十行的人，能瞬间算出当前词与整句话中其他词的关联权重。这是大模型理解复杂语义的基石。

MoE (Mixture of Experts，混合专家架构)

一种稀疏激活的神经网络架构，把模型内部的某些层替换成多个专家网络，推理时通过门控网络只激活最相关的少数专家。如果把 Transformer 比作全科医生，每次调动所有脑细胞；MoE 就是一个大型医院，分设各科专家，遇到特定问题只请对应专家出诊。这样可以在不显著增加推理算力的情况下大幅扩大总参数量（GPT-4 和 Mixtral 都用了 MoE）。

预训练 (Pre-training)

大模型从零学习世界知识的阶段，用海量无标注互联网文本（几万亿个 Token）训练模型，让它学会语言规律、世界常识和逻辑推理。这个阶段极其昂贵，GPT-4 据估计花费超过 1 亿美元。预训练结束得到的是基座模型（Base Model），它只会续写文本，还不会听指令。

后训练 (Post-training)

让基座模型从会说话变成能用的所有训练步骤，通常包括指令微调（SFT，教模型听懂人类指令）、偏好对齐（RLHF / DPO，让模型价值观和行为符合人类期望）和安全训练（让模型拒绝有害请求）。后训练决定模型的性格和能力上限，是目前各家公司竞争最激烈的环节。

强化学习 (Reinforcement Learning)

智能体通过与环境交互，不断试错，以最大化累积奖励为目标来学习策略。在 AI 领域，强化学习不仅用于训练 AlphaGo，更是大模型后训练阶段（RLHF）的核心技术。它让模型在没有标准答案的情况下，通过人类或另一个 AI 的好评或差评来调整自己的行为。

奖励机制 (Reward Mechanism)

在强化学习中评估模型输出质量并给予反馈的系统。RLHF 流程里要先训练一个奖励模型（Reward Model），模拟人类评分员对大模型的每条输出打分，然后用这个分数指导强化学习训练。奖励模型打得准不准，直接决定了大模型对齐的质量。

知识蒸馏 (Knowledge Distillation)

把一个庞大的教师模型（如 GPT-4）的知识转移到一个小巧的学生模型中的技术。为了在手机等端侧设备上运行模型，工程师用大模型生成高质量的推理过程和答案，然后用这些数据训练小模型，让小模型在特定任务上接近大模型的能力。

应用工程与智能体 (Agent)

RAG (Retrieval-Augmented Generation，检索增强生成)

结合信息检索和文本生成的技术架构。在模型生成回答前，先从外部知识库检索相关信息，再将信息作为上下文喂给模型。RAG 是目前解决大模型幻觉和知识无法实时更新最主流的工程方案，相当于给大模型配备了一个可以随时查阅的外挂资料库。

向量数据 (Embeddings)

将文本、图像等非结构化数据映射为高维空间中的稠密实数向量。计算机不懂人类语言但懂数字，Embedding 就是把语义转化为坐标。在向量空间中，语义相近的词（苹果和香蕉）距离会很近。这是实现 RAG 和语义搜索的底层基础设施。

向量数据库 (Vector Database)

专门存储、索引和查询高维向量数据的数据库系统。RAG 架构中，文本被转化为向量后需要存储起来。向量数据库能快速计算向量之间的相似度，实现语义搜索。搜苹果时能根据上下文判断是指水果还是手机，这是传统关系型数据库做不到的。

KV Cache（键值缓存）

在大模型自回归生成文本时，缓存已经计算过的 Key 和 Value 矩阵，避免重复计算。大模型是一个词一个词往外蹦的，每生成一个新词都需要把前面的词重新算一遍，在长文本下极其耗时。KV Cache 相当于模型的草稿本，把算过的中间结果存起来，能极大加速推理。

结语

从杰文斯悖论的宏观视角，到 Transformer 的底层架构；从耗资巨大的预训练，到精雕细琢的后训练与强化学习；再到应用层的 RAG、向量数据库和 Agent。这 19 个术语勾勒出了大模型技术从实验室走向千行百业的完整图景。

LLM 术语 ​

个人印象比较深的 ​

FOMO (Fear of Missing Out) ​

杰文斯悖论 ​

泛化与泛化能力 (Generalization) ​

Benchmark（评测基准） ​

Harness Engineering / Agent（评测框架工程） ​

宏观规律与模型能力评估 ​

鲁棒性 (Robustness) ​

SOTA (State-of-the-Art) ​

Transformer 与 Attention（注意力机制） ​

MoE (Mixture of Experts，混合专家架构) ​

预训练 (Pre-training) ​

后训练 (Post-training) ​

强化学习 (Reinforcement Learning) ​

奖励机制 (Reward Mechanism) ​

知识蒸馏 (Knowledge Distillation) ​

应用工程与智能体 (Agent) ​

RAG (Retrieval-Augmented Generation，检索增强生成) ​

向量数据 (Embeddings) ​

向量数据库 (Vector Database) ​

KV Cache（键值缓存） ​

结语 ​