外观
大白话读懂Ai的27 个大语言模型核心概念
很多人都在用 ChatGPT、Claude、Gemini。
但一聊到大语言模型相关概念,就容易被一堆术语绕晕。
所以这篇,我把这些核心概念重新整理成 6 大类,按“概念 + 大白话理解 + 例子”来讲,读起来会更清楚,也更适合直接发。
一、大语言模型基础概念
- 大语言模型(LLM)
概念:通过海量文本训练出来的语言模型,能理解和生成文字内容。
大白话:像一个读了很多书的“超级大脑”。
例子:ChatGPT、Claude。
- Transformer
概念:目前主流大模型使用的核心网络结构。
大白话:让 AI 能更高效地同时理解整段内容,而不是一个字一个字慢慢读。
例子:GPT、BERT 都基于 Transformer。
- 注意力机制(Attention)
概念:让模型判断一句话里哪些词更重要。
大白话:读文章时先抓重点。
例子:翻译一句话时,模型会重点关注主语、动作和宾语。
- 自注意力(Self-Attention)
概念:让一句话中的每个词都能和其他词建立联系。
大白话:每个词都会“看看”其他词,判断彼此关系。
例子:理解“他”“她”“它”到底指代谁。
二、大模型是怎么学出来的
- 预训练(Pre-training)
概念:先用海量通用数据训练模型,获得基础语言能力和常识。
大白话:像高考前先做全面复习。
例子:GPT 在大量网页、书籍、文章上做预训练。
- 微调(Fine-tuning)
概念:在通用模型基础上,再用专业数据继续训练。
大白话:在通识教育之后,再补专业课。
例子:用医学文献微调模型,让它更懂医疗场景。
- 指令微调
概念:专门训练模型更好地理解和执行人类指令。
大白话:训练 AI 更“听话”。
例子:给模型大量“指令-回答”样本,让它学会按要求回复。
- RLHF
概念:基于人类反馈的强化学习,让模型回答更符合人的偏好。
大白话:让人类给 AI 打分,AI 再根据反馈优化。
例子:ChatGPT 就用了 RLHF 来提升回答质量。
- 涌现能力(Emergent Abilities)
概念:模型规模足够大后,突然出现的小模型没有的新能力。
大白话:模型变大后,突然“开窍”了。
例子:小模型不会复杂推理,大模型却突然能做了。
三、你和 AI 怎么交流
- 提示词(Prompt)
概念:你给 AI 的问题、要求或任务描述。
大白话:你对 AI 说的话。
例子:“请帮我写一篇关于春天的短文。”
- 提示词工程(Prompt Engineering)
概念:研究怎样提问,才能让 AI 输出更好的结果。
大白话:问问题的技巧。
例子:给 AI 设定角色、格式、风格后,回答通常会更好。
- 少样本学习(Few-shot)
概念:给模型几个例子,它就能照着完成新任务。
大白话:举几个例子,AI 就学会了。
例子:先给 3 个翻译案例,再让 AI 翻译新句子。
- 零样本学习(Zero-shot)
概念:不给示例,直接让模型完成任务。
大白话:不教也能做。
例子:直接让 AI 总结文章、翻译句子、分类文本。
- 思维链(CoT)
概念:引导模型一步步推理,再给出答案。
大白话:让 AI 把解题过程写出来。
例子:做数学题时先列步骤,再给最终答案。
四、大模型的“记忆”和“处理方式”
- 上下文窗口(Context Window)
概念:模型一次能处理和记住的信息总量。
大白话:AI 的短期记忆容量。
例子:上下文太长时,AI 可能会忘掉前面说过的话。
- Token
概念:模型处理文本时拆分出来的最小单位。
大白话:AI 读文字时用的小积木块。
例子:“我爱北京”会被拆成几个 Token 来处理。
- 分词器(Tokenizer)
概念:负责把文本切分成 Token 的工具。
大白话:先把句子拆开,AI 才能继续处理。
例子:把一句中文拆成模型能识别的小块。
- 温度参数(Temperature)
概念:控制模型输出的随机性和创造性。
大白话:控制 AI 回答是保守一点,还是放飞一点。
例子:写代码常用低温度,写诗可以用高温度。
- Beam Search
概念:生成答案时同时保留多个候选结果,再选更优的。
大白话:多想几种说法,再挑最好的。
例子:机器翻译时,从多个候选译文里选最流畅的。
- 贪婪解码(Greedy Decoding)
概念:每一步都直接选当前概率最高的下一个词。
大白话:走一步,选当前最稳的那个。
例子:生成技术说明时,经常用这种方式保证稳定性。
- 困惑度(Perplexity)
概念:衡量模型对下一个词预测得有多确定。
大白话:AI 对自己的答案有多大把握。
例子:困惑度越低,通常说明模型越确定。
五、大模型为什么有时很强,有时又会翻车
- 幻觉(Hallucination)
概念:模型生成看起来很合理、实际上却错误的内容。
大白话:一本正经地胡说八道。
例子:编造不存在的法律条文、论文、新闻来源。
- 知识截止(Knowledge Cutoff)
概念:模型训练数据更新到某个时间点后停止。
大白话:AI 记忆的截止日期。
例子:某个模型只知道 2024 年 4 月之前的信息。
- Embedding
概念:把文字、图片等内容转换成有语义的向量表示。
大白话:把“意思”变成数字。
例子:语义相近的两段话,在向量空间里距离也更近。
六、大模型如何接入外部知识与扩展能力
- RAG(检索增强生成)
概念:让模型先查资料,再结合资料生成答案。
大白话:让 AI 先翻书,再回答。
例子:客服机器人先查产品手册,再回复用户。
- 向量数据库
概念:专门存储语义向量的数据系统。
大白话:存放“知识语义”的仓库。
例子:把公司文档做成向量后,用于语义搜索。
- 多模态(Multimodal)
概念:模型不仅能处理文字,还能处理图片、语音、视频等多种信息。
大白话:AI 不只是会聊天,还会“看”和“听”。
例子:GPT-4V 能看图回答问题。
为什么普通人也要懂这些词?
因为未来真正会用 AI 的人,不是只会打开聊天框的人,而是知道:
- 提示词怎么写更有效,
- 上下文为什么会失忆,
- 幻觉为什么会出现,
- RAG 为什么能让答案更靠谱,
- 微调为什么适合专业场景,
- 多模态为什么会成为下一阶段重点。
你不一定要自己训练模型。但你至少要知道,自己每天在用的东西,到底是怎么回事。
当你懂了这些概念,你就不会再把 AI 当成一个完全看不懂的黑箱。
来源:飞书 · AI Spark 知识库 | 原文(最新版):https://lcnniolukk80.feishu.cn/wiki/DYBXwg5yviBvd9kDggQccPv6nac | 归档:2026-06-04