Skip to content

LLM 术语

最近听播客经常遇到一些专业名词,有些当时没听懂,后面才渐渐理解其中的含义。我把印象比较深的放前面,其他的放在后面。

个人印象比较深的

FOMO (Fear of Missing Out)

因为担心错过某个机会而产生的焦虑和不安。现在 AI 资讯、工具、模型太多,很容易觉得学不过来,陷入 FOMO。

杰文斯悖论

原本是经济学概念:技术进步提高了某种资源的使用效率,反而导致该资源总消耗量增加。工业革命时蒸汽机提高了生产效率,结果对煤炭的需求量反而更大。我觉得 token 也会出现类似情况。恐怖的是,人也是资源,也逃不过这个悖论——这也是 FOMO 的一个原因。

泛化与泛化能力 (Generalization)

模型在训练数据以外的新数据上,依然能保持良好预测和处理性能的能力。这是衡量 AI 是否具备智能的核心指标——只记住训练集里的问题、遇到新问题就束手无策,叫过拟合(死记硬背)。大模型之所以强大,就是因为海量参数赋予了极强的泛化能力,能处理从未见过的任务。以前没有 AI 时只能用低代码解决某几类场景,现在 AI 可以解决很多以前解决不了的问题。关键是我们想泛化什么场景、怎么通过 AI 去解决。

Benchmark(评测基准)

用于标准化评估和比较不同 AI 模型能力的标准化数据集和测试任务,就像学生的期末考卷。常见的包括 MMLU(大规模多任务语言理解,涵盖 57 个学科)、C-Eval(中文能力评测)等。在公认的 Benchmark 上拿到高分,才能得到学术界和工业界的认可。有了泛化能力,Benchmark 就格外重要——一个模型公司好不好,很大程度上看它提出的 Benchmark 是否有说服力。

Harness Engineering / Agent(评测框架工程)

在构建和评估 AI Agent 或大模型时,设计用于自动化测试、评估和监控的系统化框架的工程实践。Claude Code、OpenClaw、OpenCode、Hermes-Agent(俗称爱马仕)都属于这一类。Agent 领域里 Harness Engineering 尤其重要,因为评估一个能自主行动的 Agent 比评估一个只会聊天的模型要复杂得多。去年是 Agent 元年,今年是 Harness 元年。

宏观规律与模型能力评估

鲁棒性 (Robustness)

模型面对输入中的噪声、异常值、对抗攻击或微小扰动时,仍能稳定输出的能力。泛化性强调对新场景的适应,鲁棒性强调对恶劣或异常输入的抵抗。比如用户故意输入带错别字、语法混乱或有诱导性的 prompt,鲁棒性高的模型依然能理解真实意图并给出准确回答,不会崩溃或产生严重幻觉。

SOTA (State-of-the-Art)

当前最高水平或最先进技术。AI 论文和模型发布会里 SOTA 出现频率很高,一个新模型宣称在某项评测上达到 SOTA,意味着它击败了之前所有模型,创造了该领域新纪录。

Transformer 与 Attention(注意力机制)

Transformer 是目前几乎所有主流大模型(GPT、Llama 等)的底层神经网络架构,核心是自注意力机制(Self-Attention)。传统 RNN 像一个字一个字读书的人,读到后面容易忘记前面;Transformer 像能一目十行的人,能瞬间算出当前词与整句话中其他词的关联权重。这是大模型理解复杂语义的基石。

MoE (Mixture of Experts,混合专家架构)

一种稀疏激活的神经网络架构,把模型内部的某些层替换成多个专家网络,推理时通过门控网络只激活最相关的少数专家。如果把 Transformer 比作全科医生,每次调动所有脑细胞;MoE 就是一个大型医院,分设各科专家,遇到特定问题只请对应专家出诊。这样可以在不显著增加推理算力的情况下大幅扩大总参数量(GPT-4 和 Mixtral 都用了 MoE)。

预训练 (Pre-training)

大模型从零学习世界知识的阶段,用海量无标注互联网文本(几万亿个 Token)训练模型,让它学会语言规律、世界常识和逻辑推理。这个阶段极其昂贵,GPT-4 据估计花费超过 1 亿美元。预训练结束得到的是基座模型(Base Model),它只会续写文本,还不会听指令。

后训练 (Post-training)

让基座模型从会说话变成能用的所有训练步骤,通常包括指令微调(SFT,教模型听懂人类指令)、偏好对齐(RLHF / DPO,让模型价值观和行为符合人类期望)和安全训练(让模型拒绝有害请求)。后训练决定模型的性格和能力上限,是目前各家公司竞争最激烈的环节。

强化学习 (Reinforcement Learning)

智能体通过与环境交互,不断试错,以最大化累积奖励为目标来学习策略。在 AI 领域,强化学习不仅用于训练 AlphaGo,更是大模型后训练阶段(RLHF)的核心技术。它让模型在没有标准答案的情况下,通过人类或另一个 AI 的好评或差评来调整自己的行为。

奖励机制 (Reward Mechanism)

在强化学习中评估模型输出质量并给予反馈的系统。RLHF 流程里要先训练一个奖励模型(Reward Model),模拟人类评分员对大模型的每条输出打分,然后用这个分数指导强化学习训练。奖励模型打得准不准,直接决定了大模型对齐的质量。

知识蒸馏 (Knowledge Distillation)

把一个庞大的教师模型(如 GPT-4)的知识转移到一个小巧的学生模型中的技术。为了在手机等端侧设备上运行模型,工程师用大模型生成高质量的推理过程和答案,然后用这些数据训练小模型,让小模型在特定任务上接近大模型的能力。

应用工程与智能体 (Agent)

RAG (Retrieval-Augmented Generation,检索增强生成)

结合信息检索和文本生成的技术架构。在模型生成回答前,先从外部知识库检索相关信息,再将信息作为上下文喂给模型。RAG 是目前解决大模型幻觉和知识无法实时更新最主流的工程方案,相当于给大模型配备了一个可以随时查阅的外挂资料库。

向量数据 (Embeddings)

将文本、图像等非结构化数据映射为高维空间中的稠密实数向量。计算机不懂人类语言但懂数字,Embedding 就是把语义转化为坐标。在向量空间中,语义相近的词(苹果和香蕉)距离会很近。这是实现 RAG 和语义搜索的底层基础设施。

向量数据库 (Vector Database)

专门存储、索引和查询高维向量数据的数据库系统。RAG 架构中,文本被转化为向量后需要存储起来。向量数据库能快速计算向量之间的相似度,实现语义搜索。搜苹果时能根据上下文判断是指水果还是手机,这是传统关系型数据库做不到的。

KV Cache(键值缓存)

在大模型自回归生成文本时,缓存已经计算过的 Key 和 Value 矩阵,避免重复计算。大模型是一个词一个词往外蹦的,每生成一个新词都需要把前面的词重新算一遍,在长文本下极其耗时。KV Cache 相当于模型的草稿本,把算过的中间结果存起来,能极大加速推理。


结语

从杰文斯悖论的宏观视角,到 Transformer 的底层架构;从耗资巨大的预训练,到精雕细琢的后训练与强化学习;再到应用层的 RAG、向量数据库和 Agent。这 19 个术语勾勒出了大模型技术从实验室走向千行百业的完整图景。