2026-06-17 13:05

为什么在AI 时代，最古老的交互形式反而卷土重来？

本文来自微信公众号：少数派，作者：Blueeon，原文标题：《为什么在 AI 时代，最古老的交互形式反而卷土重来？》

2025年到2026年间，顶级AI公司相继发布了一类产品：CLI形态的Agent工具。

Anthropic发布了Claude Code，一个在终端里运行的AI编程助手。OpenAI发布了Codex CLI，Google发布了Gemini CLI。这一波浪潮中，几乎每家值得关注的AI公司都押注了命令行。

这很反直觉。命令行是1970年代的产物，GUI的出现让计算机走入大众，现在移动互联网让触屏操作成为默认。按照通常的逻辑，技术的方向应该是越来越「可视化」、越来越「易用」。为什么在AI时代，最古老的交互形式反而卷土重来？

答案不是情怀，是工程逻辑。

▍GUI对AI并不友好

GUI是为人类视觉导航设计的。按钮、弹窗、拖拽、悬停效果——这些交互范式建立在人类的视觉直觉上。人类看一眼界面，扫描按钮位置，凭直觉判断下一步操作。这套机制对人类来说极其自然，几乎不需要学习成本。

但LLM的工作方式根本不是这样。LLM的输入是token，输出也是token。它的「思考」在语言空间里发生，而不是在像素空间里。

让AI操控GUI，意味着要跨越一道巨大的鸿沟：

理解成本极高。AI需要借助计算机视觉或Accessibility Tree来「看懂」界面——哪个按钮可点、哪个输入框在哪里、当前弹窗是什么意思。这不是AI的强项，反而是额外负担。

状态隐式且不可预测。同一个按钮，今天可点，明天可能因为某个条件变灰。这种隐式状态对人类来说是「上下文」，对AI来说是不确定性——它无法可靠地推理「这个操作在什么条件下可用」。

操作不可组合。没有办法把两个GUI操作用管道连起来。「搜索结果→过滤→导出」在GUI里是三次点击，没有办法作为一个整体传递、复用或自动化。

难以测试和验证。AI执行了一个GUI操作，怎么确认它成功了？要截图、要解析界面状态，整个反馈循环又慢又脆。

相比之下，CLI的每个特性都像是专门为AI设计的。

可组合性

Unix哲学的核心是：「每个程序只做一件事，并把它做好；让程序能够协同工作」。

这个几十年前的设计原则，在AI时代焕发出新的意义。

对AI Agent来说，可组合性意味着可以把多个命令链接成复杂的多步骤工作流，每一步的输出都是结构化的文本，可以被下一步消费。没有GUI的「点击→等待→截图→解析」循环，只有干净的输入输出。

可预测性

这对AI极其重要。AI在推理一个工具时，需要建立一个心智模型：这个工具的输入是什么，输出是什么，有什么副作用。GUI的隐式状态让这个心智模型充满不确定性。CLI的显式参数让这个心智模型可靠而精确。

可审计性

所有CLI操作都是可记录的文本序列。AI执行了什么命令、得到了什么输出，都是人类可读的文本。

这种透明性有两个好处。

对人类：可以做事后审查。你可以查看AI运行了哪些命令、每步的输入输出是什么，整个推理链路一目了然。GUI操作的「点了什么」很难被追溯，CLI操作的日志天然就是审计记录。

Claude Code选择优先发布CLI形态而不是IDE插件，这个决定背后有清晰的工程逻辑：IDE插件受限于宿主环境，CLI工具可以在任何有终端的地方运行，可以被任何Agent调用，可以和任何其他工具组合。

这揭示了一个更根本的规律：AI Agent调用工具的本质，就是在执行命令。工具调用（function call/tool use）从语义上就是CLI——给定名称和参数，返回结果。CLI工具天然就是Agent可以调用的函数，不需要任何转换层。

「Terminal as the new IDE」这个说法早在AI兴起之前就有人提过，但在AI时代它获得了全新的含义。不只是「在终端里写代码」，而是「Agent通过终端与世界交互」。

过去，CLI是技术人员的专属工具。未来，CLI可能会成为Agent的通用语言——人类通过自然语言和Agent对话，Agent通过CLI和系统交互。

GUI的地位不会受到太大影响，它仍然是人类直接操作计算机的最佳界面。但当你的AI工具需要调用另一个工具时，CLI是最自然的桥梁，会有更多的软件为了顺应Agent习惯推出更多的CLI工具。

原文链接：

https://sspai.com/post/107173?utm_source=wechat&utm_medium=social

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP

赞赏

支持一下修改

确定