普通人的AI第一课
文章摘要
2025年是AI的爆发年,许多普通人开始接触大语言模型。然而,有些人觉得AI并没有想象中那么好用。为了帮助人们更好地使用AI,需要了解大语言模型的原理和边界。首先,需要明确AI应用和大语言模型的区别,AI应用是包含大语言模型的工具集合。大语言模型本身没有记忆能力,它通过预测下一个字的概率来工作。使用AI时,需要注意算力消耗的指数级增长,避免无关信息的干扰。通过了解这些原理,人们可以更好地使用AI,避免浪费时间,并发挥AI的最大价值。
2025是AI的爆发年,可能往前两年,普通人接触大语言模型还有一定的门槛,但随着豆包、千问等国内大厂的C端产品发力,许许多多头几年没有了解过AI大语言模型的普通人,在去年或多或少都体验过AI为生活、学习、工作中带来的便利。
然而还有很多人体验过后发觉AI其实也不过如此,反而觉得有时跟着AI乱搞一通,发现啥也没学到,时间白白浪费,完全没有这些大公司所说的那么好用。
所以我接下来打算做一系列视频,用大白话为您讲述大语言模型到底是什么,它的边界在哪儿,我们又如何用它帮助我们生活、学习、工作。
叠个甲 正片开始前,我先叠个甲:本系列视频将会有大量的不恰当的比喻,尤其大语言模型底层关系相关的,以后出去和别人吹牛别说是我教的,当然,事实性的错误是不会有的。
那为什么又要有这些内容呢?
这个视频是面向大众的,是为了教会普通人更好的使用AI,而不是帮助你进入人工智能行业,如果需要更深入的知识、研究,那这里肯定是不适合你的。
了解大语言模型的原理,能更好的帮助你掌握它们能力的边界,所以我觉得这部分内容一定是必要的。
那叠甲完毕,我们正式开始。
一、有关AI(大语言模型)你必须知道的事
你从来都不是直接在和大语言模型对话
我们常用的豆包、千问,是一个AI应用,它不是大语言模型。AI应用对大语言模型的关系是包含关系。大概的比方是:
当你使用AI工具时,你一定要理解AI应用和模型的关系,现在不理解没关系,后面我们会带你逐步理清这个关系。
大语言模型没有记忆能力
大语言模型本身没有记忆能力,它只能收到一串文字,然后发送一段文字,模型本身不会记录我们的对话。
你可能会觉得奇怪:"既然它没记住,为什么我能跟它有来有回地聊几百个回合,它还记得我刚才说了什么?"
这是因为我们平常使用的是AI应用,这个应用会在你发送任意一句话时把你和模型聊过的所有消息都打包给模型,模型会根据这所有的聊天记录做出回答。
算力消耗是指数级增长
你在一个会话下,和模型聊天越多,模型消耗的算力也会越多,这个多是指数级的增长,而不是线性增长。
所以模型都会有一个上下文上限参数,因为你扔给它的上下文越长:
模型每次计算的时间就越长
消耗的电力(算力)呈指数级上升
模型的"智力"也会越低,AI容易被无关信息干扰
使用建议 就像你考试时带了100本参考书,可能反而找不到那个简单的公式。
所以当你使用比如
deepseek、豆包这种应用时,每有一个新的任务,我都建议你新开一个会话,而不是接着以前的继续聊。
二、大语言模型基本原理
大语言模型基本原理其实一个词就能解释,就是概率预测的"成语接龙"。
直觉的形成
如果我问你:"床前明月光,疑是地上____?"
你脑子里会自动跳出"霜"字。这不是因为你实时去翻了书,而是因为这个序列在你脑子里出现了无数次,你形成了直觉。
AI的工作原理
AI的原理一模一样。它在"预训练"阶段读过了几乎整个互联网的文本(图书、代码、论坛、论文)。它在学习过程中只干一件事:
根据前面的字,预测下一个字出现的概率。
举个例子:
为什么它显得聪明?
因为它读得实在太多了(数以万亿计的单词)。
当它读过几千篇微积分教程后,它就能"预测"出解题步骤的下一个公式
当它读过无数代码,它就能"预测"出修复漏洞的那行代码
候选名单机制
AI在预测下一个字时,不是只看第一名,而是看一个"候选名单"。
假设输入是:"今天天气..."
候选 | 内容 | 概率 |
|---|---|---|
1 | 不错 | 60% |
2 | 很好 | 30% |
3 | 阴沉 | 10% |
扩展阅读:Temperature 参数 这会有一个问题,如果模型只取概率最高的那个词,模型的回答一定是非常机械、枯燥的。
所以科学家为模型引入一个参数:Temperature
Temperature决定了AI怎么从这个名单里挑答案:
低温度(如 0.1 - 0.3):AI变得极度保守、死板,它只选那个概率最高的词
中温度(如 0.7 - 1.0):这是最常见的状态,AI会偶尔尝试一下概率第二、第三的词,增加语言的灵活性和自然度
高温度(如 1.2 - 1.5以上):AI变得疯狂、跳脱、甚至胡言乱语,它会开始尝试那些概率极低的词
三、Agent是啥
那既然大语言模型只能输出文本,那为啥现在的AI应用都能点外卖、查天气了?
工具调用机制
在第一个章节我们就提到,我们现在不是直接和大语言模型对话,而是通过AI应用与模型对话。还记得我前面说的吗:
AI应用会把这些工具的使用说明书连同上下文一同打包给大语言模型。
举个例子:你问"今天下午天气怎么样?"
我们可以把这个过程拆解成四个阶段:语义解析、决策判断、工具执行、结果整合。
第一阶段:语义解析
当你发送"今天下午天气怎么样?"时,大语言模型首先会进行注意力分析。
它的直觉:"用户在问天气。但我是一个2024年底就停止训练的模型,我脑子里没有2026年1月17日的实时气象数据。"
它的判断:"我不能瞎编(幻觉),我必须去查一下。"
第二阶段:决定调用工具
大模型没有办法直接去上网,而是像一个指挥官,发现自己解决不了,于是查看AI应用发送给它的工具说明书。
匹配工具:大模型发现工具箱里有一个叫
get_weather的工具,它的描述是"查询指定城市的实时天气"提取参数:大模型从你的话里提取关键信息
地点:它会根据你的IP或上下文判断(比如"北京")
时间:今天下午
第三阶段:发出请求
大模型不会执行代码,它会输出一段特殊的指令,告诉AI应用:
工具就会把北京的天气发送给大模型。
第四阶段:整合回答
现在,工具执行完毕,数据回传给了AI。
AI读到了这些枯燥的数字,它再次发挥"成语接龙"的本领,把数字翻译成人话。
最后你就会收到回答:
"今天下午北京天气晴转多云,气温大约5°C,挺适合出门的,但记得加件外套。"
结语
到这里,今天的内容就告一段落了。我们用大白话聊了三件事:
AI应用和大语言模型不是一回事——AI应用是"壳",大语言模型是"核"
大语言模型的本质是概率预测——就像一个读过整个互联网的"成语接龙"高手
Agent让AI有了手脚——通过工具调用,AI能做的不只是说话,还能真正帮你办事
核心要点 理解这些原理不是让你去开发AI,而是让你更聪明地使用AI。知道它能做什么、不能做什么,你就能:
避免把时间浪费在AI不擅长的事情上
在合适的场景下让AI发挥最大价值
不被那些夸大其词的宣传忽悠
AI不是魔法,它只是一个工具。就像你第一次学会用搜索引擎、第一次学会用智能手机一样,理解它,才能驾驭它。
如果这些内容对你有帮助,欢迎继续关注这个系列。我们下期再见!
相关文章
暂无相关文章
