跳到正文

大白话读懂Ai的27 个大语言模型核心概念

很多人都在用 ChatGPT、Claude、Gemini。

但一聊到大语言模型相关概念,就容易被一堆术语绕晕。

所以这篇,我把这些核心概念重新整理成 6 大类,按“概念 + 大白话理解 + 例子”来讲,读起来会更清楚,也更适合直接发。

一、大语言模型基础概念

  1. 大语言模型(LLM)

概念:通过海量文本训练出来的语言模型,能理解和生成文字内容。

大白话:像一个读了很多书的“超级大脑”。

例子:ChatGPT、Claude。

  1. Transformer

概念:目前主流大模型使用的核心网络结构。

大白话:让 AI 能更高效地同时理解整段内容,而不是一个字一个字慢慢读。

例子:GPT、BERT 都基于 Transformer。

  1. 注意力机制(Attention)

概念:让模型判断一句话里哪些词更重要。

大白话:读文章时先抓重点。

例子:翻译一句话时,模型会重点关注主语、动作和宾语。

  1. 自注意力(Self-Attention)

概念:让一句话中的每个词都能和其他词建立联系。

大白话:每个词都会“看看”其他词,判断彼此关系。

例子:理解“他”“她”“它”到底指代谁。

二、大模型是怎么学出来的

  1. 预训练(Pre-training)

概念:先用海量通用数据训练模型,获得基础语言能力和常识。

大白话:像高考前先做全面复习。

例子:GPT 在大量网页、书籍、文章上做预训练。

  1. 微调(Fine-tuning)

概念:在通用模型基础上,再用专业数据继续训练。

大白话:在通识教育之后,再补专业课。

例子:用医学文献微调模型,让它更懂医疗场景。

  1. 指令微调

概念:专门训练模型更好地理解和执行人类指令。

大白话:训练 AI 更“听话”。

例子:给模型大量“指令-回答”样本,让它学会按要求回复。

  1. RLHF

概念:基于人类反馈的强化学习,让模型回答更符合人的偏好。

大白话:让人类给 AI 打分,AI 再根据反馈优化。

例子:ChatGPT 就用了 RLHF 来提升回答质量。

  1. 涌现能力(Emergent Abilities)

概念:模型规模足够大后,突然出现的小模型没有的新能力。

大白话:模型变大后,突然“开窍”了。

例子:小模型不会复杂推理,大模型却突然能做了。

三、你和 AI 怎么交流

  1. 提示词(Prompt)

概念:你给 AI 的问题、要求或任务描述。

大白话:你对 AI 说的话。

例子:“请帮我写一篇关于春天的短文。”

  1. 提示词工程(Prompt Engineering)

概念:研究怎样提问,才能让 AI 输出更好的结果。

大白话:问问题的技巧。

例子:给 AI 设定角色、格式、风格后,回答通常会更好。

  1. 少样本学习(Few-shot)

概念:给模型几个例子,它就能照着完成新任务。

大白话:举几个例子,AI 就学会了。

例子:先给 3 个翻译案例,再让 AI 翻译新句子。

  1. 零样本学习(Zero-shot)

概念:不给示例,直接让模型完成任务。

大白话:不教也能做。

例子:直接让 AI 总结文章、翻译句子、分类文本。

  1. 思维链(CoT)

概念:引导模型一步步推理,再给出答案。

大白话:让 AI 把解题过程写出来。

例子:做数学题时先列步骤,再给最终答案。

四、大模型的“记忆”和“处理方式”

  1. 上下文窗口(Context Window)

概念:模型一次能处理和记住的信息总量。

大白话:AI 的短期记忆容量。

例子:上下文太长时,AI 可能会忘掉前面说过的话。

  1. Token

概念:模型处理文本时拆分出来的最小单位。

大白话:AI 读文字时用的小积木块。

例子:“我爱北京”会被拆成几个 Token 来处理。

  1. 分词器(Tokenizer)

概念:负责把文本切分成 Token 的工具。

大白话:先把句子拆开,AI 才能继续处理。

例子:把一句中文拆成模型能识别的小块。

  1. 温度参数(Temperature)

概念:控制模型输出的随机性和创造性。

大白话:控制 AI 回答是保守一点,还是放飞一点。

例子:写代码常用低温度,写诗可以用高温度。

  1. Beam Search

概念:生成答案时同时保留多个候选结果,再选更优的。

大白话:多想几种说法,再挑最好的。

例子:机器翻译时,从多个候选译文里选最流畅的。

  1. 贪婪解码(Greedy Decoding)

概念:每一步都直接选当前概率最高的下一个词。

大白话:走一步,选当前最稳的那个。

例子:生成技术说明时,经常用这种方式保证稳定性。

  1. 困惑度(Perplexity)

概念:衡量模型对下一个词预测得有多确定。

大白话:AI 对自己的答案有多大把握。

例子:困惑度越低,通常说明模型越确定。

五、大模型为什么有时很强,有时又会翻车

  1. 幻觉(Hallucination)

概念:模型生成看起来很合理、实际上却错误的内容。

大白话:一本正经地胡说八道。

例子:编造不存在的法律条文、论文、新闻来源。

  1. 知识截止(Knowledge Cutoff)

概念:模型训练数据更新到某个时间点后停止。

大白话:AI 记忆的截止日期。

例子:某个模型只知道 2024 年 4 月之前的信息。

  1. Embedding

概念:把文字、图片等内容转换成有语义的向量表示。

大白话:把“意思”变成数字。

例子:语义相近的两段话,在向量空间里距离也更近。

六、大模型如何接入外部知识与扩展能力

  1. RAG(检索增强生成)

概念:让模型先查资料,再结合资料生成答案。

大白话:让 AI 先翻书,再回答。

例子:客服机器人先查产品手册,再回复用户。

  1. 向量数据库

概念:专门存储语义向量的数据系统。

大白话:存放“知识语义”的仓库。

例子:把公司文档做成向量后,用于语义搜索。

  1. 多模态(Multimodal)

概念:模型不仅能处理文字,还能处理图片、语音、视频等多种信息。

大白话:AI 不只是会聊天,还会“看”和“听”。

例子:GPT-4V 能看图回答问题。

为什么普通人也要懂这些词?

因为未来真正会用 AI 的人,不是只会打开聊天框的人,而是知道:

  • 提示词怎么写更有效,
  • 上下文为什么会失忆,
  • 幻觉为什么会出现,
  • RAG 为什么能让答案更靠谱,
  • 微调为什么适合专业场景,
  • 多模态为什么会成为下一阶段重点。

你不一定要自己训练模型。但你至少要知道,自己每天在用的东西,到底是怎么回事。

当你懂了这些概念,你就不会再把 AI 当成一个完全看不懂的黑箱。


来源:飞书 · AI Spark 知识库 | 原文(最新版):https://lcnniolukk80.feishu.cn/wiki/DYBXwg5yviBvd9kDggQccPv6nac | 归档:2026-06-04