跳到正文

一篇讲清 20 个 AI 基础概念,普通人入门先看这个就够了

最近很多人想学 AI,但第一步就卡在概念上。

所以我把最常见的 20 个 AI 基础词,尽量用最通俗的方式整理了一遍。让小白一篇就能学的会,先把这些词听懂,后面学工具、学应用会顺很多。

第一组:先分清 AI、机器学习、深度学习、神经网络

人工智能(AI),是一个大概念,目标是让机器具备类似人类智能的能力,比如理解、学习、决策、生成内容。

机器学习(ML),是实现 AI 的一种方法。它不靠人工把规则一条条写死,而是让机器从数据中自己找规律。

深度学习(DL),是机器学习中的一种重要方法,核心是多层神经网络,适合处理图片、语音、文本这类复杂信息。

神经网络(Neural Network),是一种模仿人脑连接方式的计算模型,也是很多现代 AI 系统的基础。

第二组:模型是怎么学的

监督学习:拿有“标准答案”的数据训练模型,比如房价预测、垃圾分类。

无监督学习:数据没有标签,让模型自己找结构和规律,比如用户分群、异常检测。

强化学习:通过不断试错和奖励机制,找到更优策略,比如游戏 AI、机器人控制。

训练(Training):模型通过数据不断调整自己的过程,相当于“学习”。

推理(Inference):模型学完以后拿来做判断和预测,相当于“考试”或“实际使用”。

第三组:模型为什么学不好

过拟合:模型把训练数据记得太死,换一套题就不会了。

欠拟合:模型能力不够,连基本规律都没有学明白。

这两个问题,本质上就是“学得太死”和“学得太浅”。

第四组:数据相关的核心概念

数据集(Dataset):训练、验证、测试模型所用的数据集合。

特征(Feature):输入给模型的关键信息,比如面积、地段、楼层。

标签(Label):正确答案,比如“垃圾邮件”或“正常邮件”。

语料库(Corpus):训练语言模型使用的大量文本内容,比如百科、新闻、书籍等。

数据增强(Data Augmentation):通过旋转、翻转、改写等方式扩充训练数据,让模型学得更稳。

第五组:AI 是怎么“理解”文字和内容的

向量化(Vectorization):把文字、图片等非数值内容转成数字表示,方便机器计算。

嵌入/词嵌入(Embedding):把高维信息映射到向量空间,让语义相近的内容在数学上也更接近。

Token:模型处理文本时切分出的最小单位。AI 不是按“整段文字”理解,而是按 Token 一步步处理。

模型参数(Model Parameters):模型在训练中学到的权重和偏置,可以理解为模型内部沉淀下来的“知识”。

为什么普通人也要懂这些概念?

因为你只要开始接触 ChatGPT、AI 绘图、智能体、自动化工作流,迟早都会遇到这些词。

你不需要一开始就学得很深,但你至少要知道:

  • AI 是总称,
  • 机器学习是方法,
  • 深度学习是更强的分支,
  • 训练是在学习,
  • 推理是在使用,
  • Token 和 Embedding 决定了模型怎么处理文字。

把这些底层概念理顺,后面学任何 AI 工具都会快很多。


来源:飞书 · AI Spark 知识库 | 原文(最新版):https://lcnniolukk80.feishu.cn/wiki/EWP3wA7rmiLw3vkTHc2chsVPnDw | 归档:2026-06-04