本文来自微信公众号: 少数派 ,作者:Blueeon,原文标题:《为什么在 AI 时代,最古老的交互形式反而卷土重来?》
2025年到2026年间,顶级AI公司相继发布了一类产品:CLI形态的Agent工具。
Anthropic发布了Claude Code,一个在终端里运行的AI编程助手。OpenAI发布了Codex CLI,Google发布了Gemini CLI。这一波浪潮中,几乎每家值得关注的AI公司都押注了命令行。
这很反直觉。命令行是1970年代的产物,GUI的出现让计算机走入大众,现在移动互联网让触屏操作成为默认。按照通常的逻辑,技术的方向应该是越来越「可视化」、越来越「易用」。为什么在AI时代,最古老的交互形式反而卷土重来?
答案不是情怀,是工程逻辑。
▍GUI对AI并不友好
GUI是为人类视觉导航设计的。按钮、弹窗、拖拽、悬停效果——这些交互范式建立在人类的视觉直觉上。人类看一眼界面,扫描按钮位置,凭直觉判断下一步操作。这套机制对人类来说极其自然,几乎不需要学习成本。
但LLM的工作方式根本不是这样。LLM的输入是token,输出也是token。它的「思考」在语言空间里发生,而不是在像素空间里。
让AI操控GUI,意味着要跨越一道巨大的鸿沟:
理解成本极高。AI需要借助计算机视觉或Accessibility Tree来「看懂」界面——哪个按钮可点、哪个输入框在哪里、当前弹窗是什么意思。这不是AI的强项,反而是额外负担。
状态隐式且不可预测。同一个按钮,今天可点,明天可能因为某个条件变灰。这种隐式状态对人类来说是「上下文」,对AI来说是不确定性——它无法可靠地推理「这个操作在什么条件下可用」。
操作不可组合。没有办法把两个GUI操作用管道连起来。「搜索结果→过滤→导出」在GUI里是三次点击,没有办法作为一个整体传递、复用或自动化。
难以测试和验证。AI执行了一个GUI操作,怎么确认它成功了?要截图、要解析界面状态,整个反馈循环又慢又脆。
相比之下,CLI的每个特性都像是专门为AI设计的。
▍CLI对AI Agent的三大优势
可组合性
Unix哲学的核心是:「每个程序只做一件事,并把它做好;让程序能够协同工作」。
这个几十年前的设计原则,在AI时代焕发出新的意义。
对AI Agent来说,可组合性意味着可以把多个命令链接成复杂的多步骤工作流,每一步的输出都是结构化的文本,可以被下一步消费。没有GUI的「点击→等待→截图→解析」循环,只有干净的输入输出。
可预测性
这对AI极其重要。AI在推理一个工具时,需要建立一个心智模型:这个工具的输入是什么,输出是什么,有什么副作用。GUI的隐式状态让这个心智模型充满不确定性。CLI的显式参数让这个心智模型可靠而精确。
可审计性
所有CLI操作都是可记录的文本序列。AI执行了什么命令、得到了什么输出,都是人类可读的文本。
这种透明性有两个好处。
对人类:可以做事后审查。你可以查看AI运行了哪些命令、每步的输入输出是什么,整个推理链路一目了然。GUI操作的「点了什么」很难被追溯,CLI操作的日志天然就是审计记录。
▍更宏观的趋势
Claude Code选择优先发布CLI形态而不是IDE插件,这个决定背后有清晰的工程逻辑:IDE插件受限于宿主环境,CLI工具可以在任何有终端的地方运行,可以被任何Agent调用,可以和任何其他工具组合。
这揭示了一个更根本的规律:AI Agent调用工具的本质,就是在执行命令。工具调用(function call/tool use)从语义上就是CLI——给定名称和参数,返回结果。CLI工具天然就是Agent可以调用的函数,不需要任何转换层。
「Terminal as the new IDE」这个说法早在AI兴起之前就有人提过,但在AI时代它获得了全新的含义。不只是「在终端里写代码」,而是「Agent通过终端与世界交互」。
过去,CLI是技术人员的专属工具。未来,CLI可能会成为Agent的通用语言——人类通过自然语言和Agent对话,Agent通过CLI和系统交互。
▍小结
GUI的地位不会受到太大影响,它仍然是人类直接操作计算机的最佳界面。但当你的AI工具需要调用另一个工具时,CLI是最自然的桥梁,会有更多的软件为了顺应Agent习惯推出更多的CLI工具。
原文链接:
https://sspai.com/post/107173?utm_source=wechat&utm_medium=social
