写在前面
本期内容为AI学习笔记,视频参考为从 LLM 到 Agent Skill,一期视频带你打通底层逻辑!,一位介绍AI非常详细的up主,以下笔记内容也是视频的部分内容。
主要内容包括:LLM, Token, Context, Context Window, Prompt, User Prompt, System Prompt, Tool, MCP, Agent, Agent Skill……
LLM
LLM原名为大语言模型(large language model),市面上的LLM都是基于Transform架构训练出来的。
Transform最早是2017年出现,由google发布。
2022年。openAI发布GPT-3.5,2023年,发布GPT-4,算是夯爆了。
工作流程:
我们向ai提出一个问题,比如,你觉得gmaxh的博客写的怎么样?LLM会先获取并解析这段文字,然后生成一个单词,比如’有待’,之后,LLM会把他收集到原本的问题字符串内,之后带着’有待’,继续生成下一个单词,’提高’。全部生成完毕之后,LLM会在结尾生成一个结束标志,表示我的回答已结束。
token
LLM本身无法理解人类的自然语言,因此,人类输入的文本需要经过转换,变成一个个数字,成为token,参加运算。
Tokenizer:负责编码和解码,编码就是把文字转换为数字,解码则是把数字转为文字。
工作流程:
针对刚刚那个问题,你觉得gmaxh的博客写的怎么样?在编码部分,这里会先拆分成几个单词,使用openAI的拆分工具,结果为’你 觉得 g max h 的 博客 写 的 怎么样 ?’,共11个单词,这一步在编码的部分叫做拆分,每个token也会同时对应一个tokenID,这一步叫做映射。之后送给LLM进行运算,得到的结果再进行解码,进行token映射,转换为文字输出,剩下流程即刚刚LLM部分介绍的内容,直到内容全部回答完毕。
token:本质上就是LLM处理文本的最小单元,它并非一个单词,而是使用了一种算法,名为BPE。
context
token本身是一次问题的切分的小单元,但用户的对话历史,如果想要继续使用,该怎么办呢?
context:名为上下文,即LLM处理问题的信息总和。
context window:即上下文窗口,也就是LLM一次处理问题时,至多的token数量。目前市面上主流的LLM基本为1M,100万tokens大小,这个大小已经很大了,基本可以满足我们日常的提问需求。但如果要架构一个产品时,有一本产品手册,或者要编写一款漫改游戏,有一本漫画文字剧本,可能超过了1M的大小,该怎么办?
RAG,检索增强生成技术,可以从用户输入的大批量信息中,提取与问题相关的答案,之后把这些答案作为tokens输入到LLM中。
prompt
其实prompt(提示词),通俗讲就是context,也就是大模型接受的具体问题或者指令。而独立出来这样一个概念,即在从具体的文字中抽象出来,把这些token看作整体,进行优化。
prompt如果写的好,就会出现准确的回答,写的差就会出现模糊的回答。比如,我要求LLM帮我写一个道歉信。如果只是这么简单的说,LLM可能会给你一份标准格式的道歉信(十分严肃的那种),但同时,也可能是兄弟之间的一个道歉信:错了兄弟,晚上来我宿舍喝酒。也可能是小情侣之间的玩笑式道歉。由此可见,一个差的prompt自然不会得到精确的结果,而如果我们优化prompt,我刚刚和新认识的同学吵了一架,不小心冒犯到了他…(说明具体原因),帮我写一个道歉信。这样的结果会更让人信服。(道歉要诚恳,在此处不鼓励使用LLM😄)
因此就在23年,出现了prompt Engineering,即,把话说清楚。当然,随着LLM的不断发展,有时模糊的prompt,也会有相对准确的答案,甚至LLM会直接给一些选项。
prompt分有user prompt和system prompt,即通过sys prompt来约束LLM的行为,user prompt进行提问时,就会针对sys的约束来回答。
tool
现在有这样的需求:今天是2026年6月4日,帮我查询一下今天成都的天气。如果直接提问(关闭联网搜索),LLM会说他没有这个能力。但如果给他可以连接网络的功能,去调用天气查询工具,这样就可以了。
在一次使用工具的流程中,一共分为4部分,用户 平台 LLM 天气查询工具。
用户输入他的需求,之后平台把需求转给LLM以及当前可使用的工具列表,LLM进行处理时,发现需要工具,而这时如果用户已经给了LLM调用某个工具的权限,LLM则会告诉平台使用这个工具,并且基于工具来完善自己的答案,最后一步步转发给用户。
在其中,LLM只负责选择工具,并且归纳总结,处理文本。平台则会串联LLM和对应天气查询工具之间的内容,完成整个流程。
因此,tool的本质就是用来提供给LLM感知外部环境的能力,而他本质上更像是一个函数,接受要求,调用接口,返回输出。
MCP
MCP:Model Context Protocol,模型上下文协议,即建立一套统一的标准,让工具开发者可以编写一次代码,对全部的平台通用。(每个时代都有自己的秦始皇)
agent
agent在商业角度上是一个成熟的AI产品,它具有自主的规划能力,即从处理文本,调用工具,实现具体效果等各个方面,追求更精准而简单的满足用户需求,市面上常见的agent有claude code,codex,gemini CLI,openclaw等。他们都有各自的构建模式。
skill
skill是针对agent写的一份说明文档,采用md格式。
skill文档包括两个部分,头部说明和具体内容,头部说明会标注好skill的具体介绍,具体内容有用户想要agent输出的内容要求。旨在约束agent的行为,但并非强约束。agent会先读取skill文件(这里的文件名字必须是SKILL.md),之后读取头部说明,如果之后用户的需求和skill的要求相近,agent才会去读取具体内容,查询MCP可调用工具。
在我看来,skill和prompt最大的区别在于:
- 他提供了一套更为体系化,工业化的解决方案,而不是用户每次都需要约束一个system prompt。
- 在后续的其他内容中,不需要考虑多次调用context导致输出内容不清的问题,因为已经约束了agent的部分能力。
- 他提供给agent一个更清晰,更有结构的说明。
总结
现在的发展迅速,跟上时代潮流必不可少,这样一次的概念介绍,着实帮我理解了其中原理,欲知后事如何,且听下回分解~