AI时代扫个盲

写在前面

本期内容为AI学习笔记，视频参考为从 LLM 到 Agent Skill，一期视频带你打通底层逻辑！，一位介绍AI非常详细的up主，以下笔记内容也是视频的部分内容。

主要内容包括：LLM, Token, Context, Context Window, Prompt, User Prompt, System Prompt, Tool, MCP, Agent, Agent Skill……

LLM

LLM原名为大语言模型(large language model)，市面上的LLM都是基于Transform架构训练出来的。

Transform最早是2017年出现，由google发布。

2022年。openAI发布GPT-3.5,2023年，发布GPT-4，算是夯爆了。

工作流程：
我们向ai提出一个问题，比如，你觉得gmaxh的博客写的怎么样？LLM会先获取并解析这段文字，然后生成一个单词，比如’有待’,之后，LLM会把他收集到原本的问题字符串内，之后带着’有待’,继续生成下一个单词，’提高’。全部生成完毕之后，LLM会在结尾生成一个结束标志，表示我的回答已结束。

token

LLM本身无法理解人类的自然语言，因此，人类输入的文本需要经过转换，变成一个个数字，成为token，参加运算。

Tokenizer:负责编码和解码，编码就是把文字转换为数字，解码则是把数字转为文字。

工作流程:
针对刚刚那个问题，你觉得gmaxh的博客写的怎么样？在编码部分，这里会先拆分成几个单词，使用openAI的拆分工具，结果为’你觉得 g max h 的博客写的怎么样 ?’，共11个单词，这一步在编码的部分叫做拆分，每个token也会同时对应一个tokenID，这一步叫做映射。之后送给LLM进行运算，得到的结果再进行解码，进行token映射，转换为文字输出，剩下流程即刚刚LLM部分介绍的内容，直到内容全部回答完毕。

token:本质上就是LLM处理文本的最小单元，它并非一个单词，而是使用了一种算法，名为BPE。

context

token本身是一次问题的切分的小单元，但用户的对话历史，如果想要继续使用，该怎么办呢？

context:名为上下文，即LLM处理问题的信息总和。

context window:即上下文窗口，也就是LLM一次处理问题时，至多的token数量。目前市面上主流的LLM基本为1M,100万tokens大小，这个大小已经很大了，基本可以满足我们日常的提问需求。但如果要架构一个产品时，有一本产品手册，或者要编写一款漫改游戏，有一本漫画文字剧本，可能超过了1M的大小，该怎么办？

RAG，检索增强生成技术，可以从用户输入的大批量信息中，提取与问题相关的答案，之后把这些答案作为tokens输入到LLM中。

prompt

其实prompt(提示词)，通俗讲就是context，也就是大模型接受的具体问题或者指令。而独立出来这样一个概念，即在从具体的文字中抽象出来，把这些token看作整体，进行优化。

prompt如果写的好，就会出现准确的回答，写的差就会出现模糊的回答。比如，我要求LLM帮我写一个道歉信。如果只是这么简单的说，LLM可能会给你一份标准格式的道歉信(十分严肃的那种)，但同时，也可能是兄弟之间的一个道歉信：错了兄弟，晚上来我宿舍喝酒。也可能是小情侣之间的玩笑式道歉。由此可见，一个差的prompt自然不会得到精确的结果，而如果我们优化prompt，我刚刚和新认识的同学吵了一架，不小心冒犯到了他…(说明具体原因)，帮我写一个道歉信。这样的结果会更让人信服。(道歉要诚恳，在此处不鼓励使用LLM😄)

因此就在23年，出现了prompt Engineering，即，把话说清楚。当然，随着LLM的不断发展，有时模糊的prompt，也会有相对准确的答案，甚至LLM会直接给一些选项。

prompt分有user prompt和system prompt，即通过sys prompt来约束LLM的行为，user prompt进行提问时，就会针对sys的约束来回答。

tool

现在有这样的需求：今天是2026年6月4日，帮我查询一下今天成都的天气。如果直接提问(关闭联网搜索)，LLM会说他没有这个能力。但如果给他可以连接网络的功能，去调用天气查询工具，这样就可以了。

在一次使用工具的流程中，一共分为4部分，用户平台 LLM 天气查询工具。

用户输入他的需求，之后平台把需求转给LLM以及当前可使用的工具列表，LLM进行处理时，发现需要工具，而这时如果用户已经给了LLM调用某个工具的权限，LLM则会告诉平台使用这个工具，并且基于工具来完善自己的答案，最后一步步转发给用户。

在其中，LLM只负责选择工具，并且归纳总结，处理文本。平台则会串联LLM和对应天气查询工具之间的内容，完成整个流程。

因此，tool的本质就是用来提供给LLM感知外部环境的能力，而他本质上更像是一个函数，接受要求，调用接口，返回输出。

MCP

MCP:Model Context Protocol，模型上下文协议，即建立一套统一的标准，让工具开发者可以编写一次代码，对全部的平台通用。(每个时代都有自己的秦始皇)

agent

agent在商业角度上是一个成熟的AI产品，它具有自主的规划能力，即从处理文本，调用工具，实现具体效果等各个方面，追求更精准而简单的满足用户需求，市面上常见的agent有claude code,codex,gemini CLI,openclaw等。他们都有各自的构建模式。

skill

skill是针对agent写的一份说明文档，采用md格式。

skill文档包括两个部分，头部说明和具体内容，头部说明会标注好skill的具体介绍，具体内容有用户想要agent输出的内容要求。旨在约束agent的行为，但并非强约束。agent会先读取skill文件(这里的文件名字必须是SKILL.md)，之后读取头部说明，如果之后用户的需求和skill的要求相近，agent才会去读取具体内容，查询MCP可调用工具。

在我看来,skill和prompt最大的区别在于：

他提供了一套更为体系化，工业化的解决方案，而不是用户每次都需要约束一个system prompt。
在后续的其他内容中，不需要考虑多次调用context导致输出内容不清的问题，因为已经约束了agent的部分能力。
他提供给agent一个更清晰，更有结构的说明。

总结

现在的发展迅速，跟上时代潮流必不可少，这样一次的概念介绍，着实帮我理解了其中原理，欲知后事如何，且听下回分解～