全面解析 20 个基础 AI 概念,涵盖从神经网络、Transformer 到 RAG 和 Agent 的内容,旨在帮助用户与专家之间建立知识桥梁。
每个人都在用 AI。
几乎没人真正懂它怎么工作。
人们张口闭口就是 Transformer、嵌入、RAG、Agent、RLHF……
好像人人都知道似的。
其实大部分人都不知道。
说实话?
一旦你掌握了那些心智模型,AI 其实没那么复杂。
ChatGPT、Claude、Midjourney、Cursor、编程 Agent。
只要理解了下面这 20 个概念,它们全都能看懂。
不需要博士学位。没有术语。只有简单的解释和图示。
收藏这篇。你以后还会翻出来看的。
第一部分:AI 到底怎么工作的(一切的基础)
1. 神经网络
每个 AI 模型的大脑。
神经网络是一层一层的管道。
→ 数据进入输入层 → 经过隐藏层 → 输出预测结果
每个连接都有一个”权重”——一个微小的分数,控制着一个神经元对下一个神经元的影响力大小。
训练 = 调整数十亿个这样的权重,直到输出结果准确。
简单的想法。但规模一放大就变得疯狂。
GPT-4 有大约 1.8 万亿个参数。Claude 3 Opus 有数千亿个。
全都来自同一个基本概念:带可调权重的分层神经元。
2. 分词
AI 在读取你的文本之前,会先把它拆成小块,叫做 token。
不一定是完整的单词。
“playing” → “play” + “ing”
“ChatGPT” → “Chat” + “G” + “PT”
“dog” → “dog”(保持完整)
为什么不直接用完整的单词?
语言是混乱的。有新词、拼写错误、混合语言。固定单词词典会大得不可想象。
Token 是可重复使用的构建块。
即使模型从未见过某个词,它也能通过将这个词拆成熟悉的小块来理解它。
粗略规则:1 个 token ≈ 0.75 个单词。
1000 个 token ≈ 750 个单词。
3. 嵌入
文本被分词后,每个 token 变成一个数字。
这个数字就是嵌入——一个代表含义的向量。
把它想象成单词版的 Google 地图。
→ “医生”和”护士”紧挨在一起
→ “医生”和”披萨”离得很远
→ “国王”减去”男人”加上”女人”≈”女王”
模型并不像你那样理解单词。
它理解的是距离和方向。
这就是以下功能的基础:
→ 语义搜索
→ 推荐系统
→ RAG 系统
所有”理解意图”的东西,底层都在用嵌入。
4. 注意力
“苹果”这个词有不同的意思:
→ “我吃了一个苹果” → 水果
→ “我买了苹果股票” → 公司
光靠嵌入解决不了这个问题。
但注意力可以。
注意力机制让每个单词可以查看句子中的其他所有单词,并判断哪些更重要。
在”她买了苹果的股票”这句话中:
→ “苹果”高度关注”股票”和”买了”
→ 模型得出结论:是公司,不是水果
在注意力机制出现之前,模型只能从左到右阅读。又慢又有限。
注意力机制出现之后,模型可以同时看到整个句子。
就是这一个想法,解锁了现代 AI。
5. Transformer
如今几乎所有 AI 模型背后的架构。
2017 年在《Attention Is All You Need》这篇论文中提出。
突破点:不再一个字一个字地读文本,而是利用注意力并行处理所有内容。
工作方式:
→ 文本 → Token → 嵌入 → 多层堆叠的注意力层 → 输出
每一层都在 refine 理解:
→ 早期层:语法、基本结构
→ 中间层:单词之间的关系
→ 深层:复杂推理
结果:训练速度大幅提升,输出质量远超从前。
GPT、Claude、Gemini、Llama、Mistral。
全是 Transformer。
如果你理解了这一个架构,你就理解了现代 AI。
第二部分:LLM 是如何工作的(你跟 AI 聊天时到底发生了什么)
6. 大语言模型
LLM 是一个在大量文本上训练过的 Transformer。
书籍、网页、代码、维基百科、Reddit。
数万亿个 token。
这个训练任务听起来简单到不像是真的:
→ 预测下一个 token。
就这么简单。
但是当你在数万亿个例子上反复做这件事时,奇妙的事情发生了。
模型学会了语法。然后学会了推理。然后学会了写代码、翻译语言、解数学题。
没有人教它做这些事。
它们是从大规模的下一个 token 预测中涌现出来的。
“大” = 数千亿个参数。训练成本 = 数百万美元。
ChatGPT、Claude、Gemini → 都是 LLM。
7. 上下文窗口
每个 AI 模型都有记忆上限。
它叫做上下文窗口。
也就是模型一次性能”看到”的最大 token 数量——你的消息、它的回复、以及对话历史。
早期 GPT:约 4,000 个 token。
GPT-4:128,000 个 token。
Claude 3.5:200,000 个 token。
Gemini 1.5 Pro:1,000,000 个 token。
窗口越大 = 上下文越多 = 回答越好。
但有个问题。
模型并不是平等地阅读所有内容。
它们更关注上下文的开头和结尾。
中间部分?经常被忽略。
这叫做”中间迷失”问题。
大的上下文窗口 ≠ 完美的记忆。
理解这一点就能明白,为什么 AI 有时会”忘记”你明明提到过的东西。
8. 温度
AI 在生成文本时,并不是每次都只选最可能的下一个词。
它有一个旋钮,叫做温度。
→ 温度 = 0:总是选最安全、最可预测的词
→ 温度 = 1:更有创意地选,更多变化
→ 温度 = 2+:变得狂野,有时语无伦次
低温度 → 用于:代码、事实、摘要
高温度 → 用于:头脑风暴、创意写作、多种变体
大多数工具会自动帮你设置好。
但理解了这一点,就能解释为什么有时 AI 看起来很”无聊”,有时却让你大吃一惊。
9. 幻觉
AI 会自信地撒谎。
不是故意的。它根本控制不了。
原因如下。
LLM 并不搜索真相。
它只预测最可能的下一个 token。
如果一句假话,从训练模式上看像是”应该接下来出现”的东西,它就会生成出来。
没有验证。没有查询。纯粹的模式匹配。
所以它可能会:
→ 引用一篇根本不存在的论文
→ 发明一个从未创建过的 API 函数
→ 用完全自信的语气陈述一个虚假的历史”事实”
这就是幻觉。
解决方法:永远不要不加验证就相信 AI 输出的事实。
用 RAG(概念 16)把它建立在真实数据之上。
10. 提示工程
提问的方式改变一切。
同一个模型。同一个问题。基于你如何组织问题,结果天差地别。
糟糕的提示:
→ “解释 API”
→ 得到:模糊、浅层的回答
好的提示:
→ “解释 REST API 如何处理身份验证。给一个真实的代码例子。假设我是个初级开发者。”
→ 得到:具体、有条理、立即可用
提示工程其实就是清晰的沟通。
真正有效的技巧:
→ 给出背景(”我正在做一个面向 X 的 SaaS”)
→ 分配角色(”扮演一名资深后端工程师”)
→ 展示例子(”我喜欢这样的格式:___”)
→ 明确输出要求(”给我 5 个选项,用编号列表”)
→ 把复杂请求拆成步骤
提示工程不是奇技淫巧。
它是你与模型沟通的主要方式。
第三部分:AI 模型如何改进(原始模型如何变成有用的产品)
11. 迁移学习
从头训练太贵了。
海量的数据。巨大的算力。长达数周的训练。
迁移学习解决了这个问题。
你拿一个已经在庞大通用任务上训练过的模型,针对特定用途进行适配。
你不是从零开始。你是在已有基础上构建。
可以这样理解:
→ 你已经会骑自行车了
→ 学摩托车就会快得多,因为有这个基础
→ 你迁移了已有的知识
如今几乎所有 AI 产品都是这样工作的:
→ OpenAI 训练出庞大的基础模型
→ 公司针对自己的特定用例对其进行微调
→ 节省数百万美元的算力和数月的训练时间
现在没有公司再从零开始训练了。
12. 微调
迁移学习告诉你概念。
微调就是具体怎么做。
你拿一个预训练好的模型,在更小、更聚焦的数据集上继续训练。
模型已经会”说语言”。
现在你要教它你的特定领域。
例子:
→ 在临床笔记上微调的医学模型
→ 在合同上微调的法律模型
→ 在 GitHub 上微调的编程模型
结果:一个能完美应对你特定用例的模型。
代价:你需要更新数十亿个参数。
这需要巨大的算力——多个 GPU、庞大的基础设施。
(这就是为什么下一个概念 LoRA 如此重要。)
13. 人类反馈强化学习
微调让模型变得专业化。
RLHF 则让模型变得有帮助且安全。
没有它:模型只是预测文本。流畅,但不合心意。
有了它:模型学会了人类真正偏好的东西。
工作原理如下:
→ 给模型一个提示
→ 模型生成多个回复
→ 人类对回复排序
→ 模型学会偏好人类更喜欢的回复
重复数千次。
模型建立起”好答案”的标准:
→ 清晰
→ 有帮助
→ 诚实
→ 安全
这就是为什么 ChatGPT 和 Claude 感觉像助手——而不是随机的文本生成器。
没有 RLHF,它们仍然令人印象深刻。但远远没那么有用、没那么可信、也更难控制。
14. 低秩适应
微调很强大,但很贵。
更新数十亿个参数需要多个 GPU 和庞大的基础设施。
LoRA 解决了这个问题。
LoRA 不去改变整个模型,而是:
→ 保持原始模型冻结
→ 在上面添加微小的可训练层
→ 这些层只是完整模型尺寸的一小部分
关键在于:大多数微调的改动都很小。
你不需要重写整个模型。
你只需要微小的针对性调整。
结果:
→ 在单块消费级 GPU 上进行微调:可行
→ 存储一个基础模型 + 切换不同的 LoRA 适配器:实用
→ 多个专用模型而不需要海量存储:实现
LoRA 是开源 AI 爆发的原因。
突然间,任何人都可以在笔记本电脑上微调强大的模型了。
15. 量化
模型越来越大。
运行它们需要巨大的内存和算力。
量化让它们变得更小、更便宜。
方法:降低每个权重的精度。
一个全精度的权重占用 32 位。
量化到 4 位 → 缩小 8 倍。
疯狂的是:质量下降往往小得惊人。
这就是为什么你现在可以:
→ 在 MacBook 上运行 LLaMA
→ 在消费级 GPU 上本地运行 Mistral
→ 在手机上使用强大的模型
没有量化,大型模型将永远被困在数据中心。
有了量化,它们可以在你的机器上运行。
第四部分:真实的 AI 系统是如何构建的(你实际使用的产品背后是什么)
16. 检索增强生成
LLM 之所以产生幻觉,是因为它们凭记忆回答。
RAG 通过让它们先查资料来解决这个问题。
工作原理:
- 用户提问
- 系统在知识库中搜索相关文档
- 将这些文档作为上下文传递给模型
- 模型使用真实信息回答——而不是猜测
可以这样理解:
→ 闭卷考试(没有 RAG):凭记忆回答,经常出错
→ 开卷考试(有 RAG):查阅资料,准确得多
为什么强大:
→ 数据变化时无需重新训练——只需更新文档
→ 模型始终使用当前、准确的信息
→ 大幅减少幻觉
所有正经的 AI 产品都在用 RAG。
客服机器人、法律工具、医疗助手、内部知识库。
17. 向量数据库
RAG 需要快速找到正确的文档。
但如何按照语义——而不是关键词——来搜索数百万个文档?
向量数据库。
工作原理如下:
- 每个文档被转换成嵌入(一个数字向量)
- 这些向量存储在数据库中
- 当用户提问时,问题也被转换成向量
- 数据库找到离问题向量最近的向量
- 返回语义上最相似的文档
为什么这比关键词搜索更好:
→ “心脏病治疗”找到关于”心脏护理方案”的文档
→ 即使具体文字不匹配,但语义匹配
工具:Pinecone、Qdrant、Weaviate、pgvector
向量数据库让 AI 系统”理解”——而不仅仅是匹配字符串。
18. AI Agent
LLM 响应消息。
AI Agent 则真正做事。
区别:
→ LLM:你问,它回答,结束
→ Agent:你给一个目标,它规划、采取行动、检查结果、调整、重复
Agent 循环:
思考 → 行动 → 观察 → 重复
例子:编程 Agent 修复一个 bug
→ 阅读问题
→ 探索代码库
→ 识别问题
→ 编写修复
→ 运行测试
→ 查看失败原因
→ 调整修复
→ 重复直到完成
模型是大脑。工具是双手。
Agent 可以使用哪些工具?
→ 网络搜索
→ 代码执行
→ 文件系统
→ API
→ 邮件/日历
→ 数据库
Agent 把 AI 从聊天机器人变成了同事。
19. 思维链
有时 AI 答错不是因为它笨。
而是因为它跳得太快。
思维链解决了这个问题。
不直接要求给出最终答案:
→ “解答:如果火车以 60 英里/小时的速度行驶 2.5 小时,距离是多少?”
而是提示它一步步思考:
→ “逐步解答:速度 = 60 英里/小时。时间 = 2.5 小时。距离 = 速度 × 时间 = ?”
模型逐步推理:
→ 第一步:确定公式
→ 第二步:代入数字
→ 第三步:计算
对于数学、逻辑、多步问题来说,可靠得多。
关键在于:给模型思考的空间,而不仅仅是让它反应。
这就是为什么像”一步步思考”或”仔细推理”这样的提示真的有效。
20. 扩散模型
到目前为止,所有内容都围绕文本。
扩散模型解释了 AI 如何生成图像。
这个过程违反直觉。
模型并不是学习画画。
它学习的是破坏图像。
训练:
→ 从一张真实图像开始
→ 逐步添加噪声,直到变成纯静态
→ 训练模型逆转这个过程——逐步去除噪声
生成:
→ 从纯噪声开始
→ 模型逐步去除噪声
→ 由你的文本提示引导
→ 图像从随机中涌现
这个名字来自物理学——粒子在介质中随机扩散,就像墨水在水中扩散。
在这里,模型学习逆转这种扩散。
现在已经不只是图像了:
→ 视频(Sora、Runway)
→ 音频
→ 3D 内容
→ 药物分子
扩散模型是 AI 生成任何视觉内容的方式。
以上就是全部 20 个概念。
我们来回顾一下:
AI 如何工作:
→ 1. 神经网络——分层模式学习
→ 2. 分词——把文本拆成小块
→ 3. 嵌入——含义变成数字
→ 4. 注意力——上下文改变含义
→ 5. Transformer——一切背后的架构
LLM 如何工作:
→ 6. 大语言模型——大规模预测下一个 token
→ 7. 上下文窗口——记忆限制和中间问题
→ 8. 温度——创造力旋钮
→ 9. 幻觉——自信且错误
→ 10. 提示工程——你的沟通方式
模型如何改进:
→ 11. 迁移学习——在已有基础上构建
→ 12. 微调——让模型专业化
→ 13. 人类反馈强化学习——教会它变得有用
→ 14. 低秩适应——无需高昂成本的微调
→ 15. 量化——在小机器上运行大模型
真实系统如何构建:
→ 16. 检索增强生成——先查资料,再回答
→ 17. 向量数据库——按语义搜索
→ 18. AI Agent——从回答到行动
→ 19. 思维链——给它思考的空间
→ 20. 扩散模型——从噪声到图像
你现在已经理解 AI 实际上是如何工作的了。
大多数每天使用 AI 的人并不理解。
这个差距就是你的优势。
如果这篇文章对你有用:
→ 转发给更多人
本文来自转载sairahul1 ,观点仅代表作者本人,发现AI平台仅提供信息存储空间服务。
如若转载,请联系原作者;如有侵权,请联系编辑删除。

微信扫一扫

