近期Claude工程师提出HTML比Markdown更适合作为AI输出引发讨论,本文分析得出Markdown仍将是AI核心工作格式,HTML承担前台呈现角色。 ## 1. Markdown成为AI时代主流格式的核心原因 Markdown诞生于2004年,设计为轻量纯文本格式,语法简单,任何文本编辑器都可处理,随着Github崛起成为程序员通用写作格式。 大语言模型训练数据中存在大量Markdown文本,且Markdown结构信号局部化,Token效率更高,对模型生成负担更轻,因此成为模型输入输出的偏好格式。 RLHF训练中,结构清晰的Markdown回答更易获得标注员高分,进一步强化了模型使用Markdown的偏好。 ## 2. 传统办公格式不适合AI处理的原因 PDF设计目标是打印美观,内部仅存储字符坐标,无逻辑语义,多栏布局、表格解析易乱序,扫描版PDF还需OCR,存在额外错误率。 docx、pptx本质是带大量无用样式标记的XML包,无用信息会占用大量Token稀释有效内容,PPT解析后还容易得到碎片化文本,模型难以重建逻辑。 TXT无结构信号,JSON/XML是为程序解析设计,和大语言模型的模糊处理逻辑错配,都不如轻量带结构信号的Markdown适配AI。 ## 3. HTML替代Markdown观点的核心依据 Claude工程师Thariq提出,HTML信息密度远高于Markdown,可承载CSS样式、SVG、交互组件等丰富内容,超过100行的Markdown可读性远差于组织清晰、支持导航、响应式布局的HTML。 HTML分享更便捷,可直接部署为链接打开,还支持点击、滑块等交互能力;虽然HTML生成速度比Markdown慢2-4倍,但表达力和阅读体验提升足以抵消速度劣势。 ## 4. HTML不会取代Markdown的核心结论 HTML仅在需要交付给人类阅读的复杂场景(如需求文档、研究报告、交互原型)更具优势,并没有挑战Markdown作为AI工作记忆、上下文载体的地位。 Markdown是AI的核心工作语言,HTML只是Markdown渲染后的前台呈现格式,Markdown可嵌入HTML中,未来无论前台格式如何变化,Markdown都会作为底层协议持续存在,不会被取代。
Markdown 已死,HTML 当立?
2026-05-12 14:11

Markdown 已死,HTML 当立?

本文来自微信公众号: APPSO ,作者:发现明日产品的


人类花了半个世纪把文档从打字机搬到Word,又花了二十年搬到云端。结果AI时代真正的通用格式,是一门2004年发明的纯文本语言——Markdown。


最近Claude Code工程师Thariq又提出了新的观点,说自己已经不用Markdown,HTML才是未来,引发了大量讨论。


Claude Code工程师Thariq分享的用HTML替代Markdown文章,当前该内容已在X上获得千万次浏览


文章里,他提出了HTML格式的输出,是比Markdown文本更好的形态。对AI来说,从输出Markdown到输出HTML,转换的过程基本无痛,但对用户来说却是实打实的体验优化。


Karpathy在今天凌晨也转发了这篇文章,分享了他对于HTML的看法。


在他看来,音频是大语言模型最好的输入,视觉是最好的输出;而在HTML之后还有交互动画、神经网络直接生成的视频、以及最终某种人机之间真正的感知融合。


上下滑动查看更多内容


在Vibe Coding和Agent产品成为主流的背景下,HTML和Markdown对大多数AI玩家可能并不陌生。



在DeepSeek内要求它做一个小游戏,会直接给我们一段能运行的html代码文件


想做一个小游戏,告诉ChatGPT,「帮我做一个贪吃蛇的单页HTML网页」。ChatGPT会将代码打包成成一个后缀名为html的文档,双击打开,我们就能在浏览器里看到一个可交互、有动效、图文丰富的成果。


甚至在浏览器里面,任何一个网页下,按下CTRL+S,保存下来的本地文件,都有一个.html的文档。


而Markdown从AI要获取网页上下文的年代,就有大量的工具,直接将各种文件类型的文档转成Markdown格式。


微软自己作为办公三件套之王,有着docx、pptx、xlsx等职场常用的文件,早前也开源了一个将这些办公文档转成Markdown格式的项目,目前在GitHub上已经收获超过12万Stars。



项目地址:https://github.com/microsoft/markitdown


OpenClaw爆火之后,各种AGENT.md、SOUL.md、CLAUDE.md、MEMORY.md……甚至是Skills工程里面,每个Skill也是一个Skill.md的文档。


从记忆的保存、到提示词和Agent的控制,Markdown格式几乎成为了AI获取丰富上下文的不二选择。


OpenClaw智能体会通过多个不同的Markdown文件来搭建最终的工作区|图片由AI生成


我们日常工作中最常使用的PDF、DOC、以及PPT反而在AI时代成了「最不被待见」的格式。


但现在冒出来的HTML的又是怎么一回事,它会有机会取代Markdown成为AI时代的新通用语言吗?


Markdown为什么最适合AI


先说说为什么Markdown成为了AI时代的Word,无论是AI的回答,还是我们丢给AI的上下文,现在大多都是以Markdown为主。


这门语言诞生于2004年,灵感来自2000年代电子邮件的文本排版惯例——竖线分隔、80字符换行、星号表示强调。它的目标是「写起来像纯文本,渲染出来像HTML」。足够简单,足够便携,不需要任何工具,任何文本编辑器都能处理。


Markdown语法速查表|图片由AI生成


这套设计哲学在博客时代是完美的。2008年前后随着Github崛起,Markdown直接成为程序员的标准写作格式。各类技术文档、Stack Overflow回答、Github README、技术博客,Markdown几乎在所有这些场景里都工作得很好。


然后大语言模型来了。


一边是刚好训练数据里有大量Markdown格式的文本,模型学会了用它表达结构。即训练数据上,那些技术博客论坛里「聪明人写的东西」大量是Markdown。模型学到的不只是格式,还有「用Markdown写作=认真、结构化、专业」这个关联。


另一边是Markdown的结构信号非常局部化,一个标题只需要一个#,一个列表只需要一个-,**出现就是加粗。模型也不需要看很远的上下文就能判断当前token的语义角色。



同样一篇文章,HTML意味着繁多的标签、各种区块的分隔,以及样式控制等


对比HTML的标题和列表或者

或要省得多,此外,HTML的
要等到
才闭合,语义跨度长,模型生成时需要「记住」更远的状态。对模型生成来说负担更重,出错概率更高。


所以无论是从大语言模型注意力机制的技术角度,还是Token经济学的角度,「能用Markdown就不用HTML」在长文档、多轮对话、大量API调用的场景里,成了工程师和模型双方的偏好。


总结下来,Token效率高、结构清晰、解析简单的核心价值,让模型天然爱Markdown,它爱Markdown格式的输入,也爱Markdown格式的输出。


这种偏好在大语言模型训练时,也变得更加明显。


模型通过人类反馈强化学习RLHF的时候,标注员给高分的回答大概率是:有清晰标题、有分点列举、结构一目了然的回答。而这种视觉结构,在纯文本环境里就是Markdown。


于是模型学到的奖励信号也是:用Markdown格式化=看起来更认真、更完整、更值得高分。即使问题根本不需要列表,模型也会倾向于加列表。


知名的Markdown编辑器Typora


这大概也是为什么我们随便问ChatGPT一个问题,它都想给三个要点、加粗关键词、再来个小结。以及大多数时候,在AI的对话界面,复制AI的回答,粘贴到其他输入框,都会发现自动多了#、**、---、等Markdown标识。


我们看到的每一条AI回复的文字消息,基本上都是以Markdown的格式在渲染。


为什么不是PDF、Word、PPT


Markdown好用,但是我们日常生活中使用的文档格式,大多还是PDF和Word。老板发来一个文件,我丢给AI去处理,这个文件往往要比我直接复制粘贴,消耗更多的时间。


本质原因还是模型只认识token,不认识文件。


大语言模型的输入,在进入模型之前必须先被转换成token序列。模型看不到「一个PDF」,它看到的是PDF被解析出来的文本内容,然后再切成token。所以哪种格式在解析成纯文本之后,损失的信息最少、引入的噪声最少,这种格式就是更好的格式。


Claude官方的PDF Skill,需要调用专门的工具库才能实现PDF文件读取


PDF设计的目标是「打印出来好看」,不是「机器好读」。在PDF内部存储的是每个字符的坐标位置,而不是文本的逻辑顺序。一个两列布局的PDF,解析出来的文本顺序很可能是左列第一行、右列第一行、左列第二行、右列第二行,直接就完全乱掉。


表格更糟糕。PDF里的表格通常是用绝对坐标定位的文本块,没有任何「这是一行」「这是一列」的语义信息。对AI PDF解析器来说,只能靠猜。


扫描版PDF就更不用说了,直接是图片,要先过OCR文本识别,而OCR的错误率直接进入模型上下文。



.docx和.pptx本质上是ZIP压缩包,里面是一堆XML(可扩展标记语言)文件。解析出来的原始内容里有大量样式标记,字体、颜色、段落间距、主题、修订记录,这些对模型理解内容毫无帮助,但会占用大量token,稀释真正有用的信息。


对PPT来说,信息密度本来就低,一张幻灯片可能只有一句话、几个关键词,解析出来是碎片化的文本,没有上下文连接,模型很难重建完整的逻辑。


有人会说那TXT呢,其实Markdown和Word这类文本,本质上都可以转成TXT文档,它没有额外的噪声,但也没有任何结构信号。


模型很难定位到哪里是标题、哪里是列表、哪里是代码块、哪里是引用。对于长文档,还意味着模型要靠自然语言线索去猜结构,准确率不稳定。


图片由AI生成


类似的语言还有JSON/XML,它们确实对机器更友好,但「机器」指的不是语言模型。


JSON和XML是为程序解析设计的,键值对、层级结构、严格语法。传统软件读JSON很舒服,因为它可以直接json.parse(),得到一个结构化对象。


而语言模型的「理解」是通过token之间的统计关联实现的。对语言模型来说,读JSON和读自然语言的方式是一样的,逐token处理,靠注意力机制建立关联。把这种严格结构化的格式喂给一个为模糊输入设计的系统,本身是一种错配。


Markdown刚好在这两者之间,它是纯文本,但带有轻量结构信号。



部分工具像Jina Reader,在网页URL前添加r.jina.ai前缀,就能将任何网页转换为LLM友好的Markdown


解析Markdown不需要任何特殊工具,直接读文本就行,不会有PDF那种坐标混乱,不会有Word那种XML噪声。同时#**-这些符号给了模型足够的结构线索,让它知道这段是标题、这段是列表、这段是代码。


这些符号本身就在token词表里,模型直接处理,不需要任何预处理步骤。


Markdown也要过时了?


在Claude Code工程的那篇文章里,细数了HTML的几大优点。


图片由AI生成


信息密度更高,HTML能传达的信息远比Markdown丰富。它能做基础的文档结构、标题格式,但它还能表示各种其他信息,像是CSS样式、SVG图片、canvas空间数据、流程图、img标签插入图片等等。


他还提到,Claude能处理越来越复杂的工作,它写的需求文档和计划也越来越长。而超过100行的Markdown文件根本读不下去,更别说让其他人去读。


但HTML文档的阅读体验就更轻松。Claude可以用标签页、插图、链接等方式把结构组织得清晰易导航。它甚至能做到响应式布局,在不同设备上都能舒服地阅读。



在分享这点上,他也认为HTML的传播要比Markdown容易。把HTML文件随便放到某个云平台上,发这个链接给朋友和发一份Markdown文档,一定是点开链接阅读的几率更大。


就像现在做报告,展示几十页的PPT,不然直接打开一个网页。市面上常见的深度研究产品,在生成PPT时,所采用的格式也是从渲染HTML网页开始。



还有HTML的交互性,我们可以点击不同的按钮、使用滑块或旋钮来调节不同的信息展示。


在提到Markdown输出的Token要比HTML少时,以及更耗时间时,他说HTML可能比Markdown慢2-4倍,但觉得值得;而HTML带来的表达力提升、以及真正去读它的概率大幅提高,最终产出反而更好。


我们也尝试把Thariq这篇长文转成HTML的格式,相较于X推文的长截图,HTML呈现的内容会对读者更友好。


将X长文转成HTML|上下滑动查看更多内容


针对HTML更合适给人阅读这点,文章所列的优点听起来确实Markdown很难做到,但直接把HTML描绘成新的AI通用语言,还为时尚早。


难道我们未来的会话,每一次都要等AI输出一个所谓样式精美、交互友好的网页吗?


我想我们和朋友闲聊的时候,不会希望它盛装打扮,更不会想他要化妆一小时,要我们原地等待他。


更不用说,在大多数用户接触到的AI,即那些不针对编程、设计等特定领域的AI,全部都是以对话的形式在交互,我们的会话或许并不需要一份精美的HTML,现有的Markdown就已经足够了。



Claude Code工程师这篇文章里也提到了HTML适用于哪些项目,例如要求AI生成一份详细的需求文档,包括规划项目和探索不同的设计方案、或是可视化代码审查和理解、制作交互原型,比如动画和动作效果、以及研究报告等使用场景。


而这些场景本来就是适合网页呈现的场景,用它来挑战Markdown的地位稍微有点胜之不武。


作者在最后得出的论点是HTML作为AI交付给人类的最终产物更好读。但他并没有主张用HTML作为AI的工作记忆或上下文格式,因为Markdown在这一领域目前就是所有AI的唯一解决方案。



Markdown还是AI时代的Word,那Markdown最终会走向哪里?


Markdown是AI的工作语言,是上下文的载体,是agent之间传递信息的格式,但它可能不需要是用户最终看到的东西。HTML或者未来某种更好的格式,是Markdown被渲染之后的界面。


HTML挑战不用挑战Markdown的地位,它只需要承担补上Markdown从来就不需要承担的那个角色。


Markdown可以是HTML的一部分,我们在网页上和AI聊天,AI给我们的回复使用Markdown,它此时是被嵌入到了HTML里。


未来的Markdown就像一块积木一样,它会被嵌入到HTML、甚至是某种更精美的XTML语言里。


图片由AI生成


格式会一直往前走。HTML是此刻的前台,但也只是此刻的。下一站可能是可交互的3D空间,再下一站可能是直接写进视网膜的信号流。


但无论前台换成什么,后台跑的还是Markdown。它不会被取代,只会被遗忘。而在技术的世界里,被所有人遗忘,恰恰是一种格式最终胜利的方式。


每一代人都在争论下一个界面是什么。但真正活下来的,从来不是界面,是协议。

AI原生产品日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定