本文来自微信公众号: 海外独角兽 ,作者:Haozhen、Siqi,编辑:Siqi,原文标题:《Legora、Mercor 都在用,Reducto 能成为独立的 LLM 数据入口吗?》
当前企业AI落地的主要瓶颈往往不在模型能力,而在数据质量:大量企业数据仍以PDF、Excel、扫描件等非结构化形式存在。而传统OCR只能识别文字,难以理解复杂文档结构;多模态模型在解析长文档时仍容易出现错误。随着OpenClaw等agent开始进入生产流程后,这些解析误差可能在自动化决策链中被进一步放大,高保真数据变得更加关键。
Reducto聚焦“数据准确性”这一客户核心诉求,以文档解析API的形式提供Agentic OCR能力,将复杂文档转化为LLM可稳定理解的结构化输入,本质上构建了一层面向LLM或AI应用的数据摄取infra。去年,Reducto在6个月内连续完成由Benchmark与a16z领投的两轮融资,估值达到6亿美元。
但随着多模态模型能力持续提升,一个关键问题也随之出现:Agentic OCR是否会成为独立的数据摄取层,还是最终被基础模型能力所吞并?
目前在简单文档场景中,基础模型已对Reducto构成竞争威胁。虽然在复杂文档场景,Reducto的护城河仍然稳固,但如果模型未来能够直接稳定理解复杂文档结构,那么Reducto的价值会被进一步压缩。
01.
Thesis
Reducto的亮点
Reducto在去年6个月内接连完成分别由Benchmark与a16z领投的两轮融资,估值翻了3倍,达到6亿美元。我们认为,Reducto切中了AI应用走向生产环境过程中的“精确数据摄取”瓶颈。
1.行业痛点明确,非结构化数据摄取是AI落地瓶颈
随着企业RAG从PoC走向生产环境,OpenClaw这类能自主执行多步任务的agent兴起,业务对数据解析的要求已经从“能用”变为“必须准确”,因为微小解析错误也可能在自动化决策链中被放大。但目前企业AI落地的最大阻碍并非模型不够聪明,而是输入的数据不准确:企业约80%的数据是非结构化的PDF、Excel和扫描件,传统OCR难以理解复杂版式,多模态大模型直接读取长文档又容易产生幻觉,工程师往往需要花大量时间修复解析错误。
Reducto作为连接企业数据与大模型之间的数据摄取层,在数据进入LLM前完成版面理解、逻辑关联和结构化清洗,本质上充当大模型生态的“数据编译器”,可以解决“garbage in,garbage out”的问题。
2.团队聚焦“数据准确性”这一客户核心诉求,凭借Agentic OCR技术成功切入市场。
在文档处理领域,客户最关注的就是数据摄取的准确率。区别于简单的“OCR+大模型”拼接,Reducto战略性地放弃了广度,选择利用团队自身在计算机视觉领域的深厚技术实力,精准抓住了“准确性”这一制胜关键:他们构建了“CV版面解析、VLM语义理解、Agentic OCR多轮自纠错”的三层专有架构,使得Reducto在处理复杂图表、多栏排版等高难度场景时,效果好于传统竞品和直接调用大模型。
目前,Reducto的客户包括垂直领域的AI公司(如Harvey)、AI数据标注公司(如Mercor)以及用Reducto来处理PB级资产的Fortune 10企业。
长期风险
但长期来看,Reducto的终局究竟能否演化为更广义的非结构化数据基础设施,还是继续深耕高精度文档解析这一垂直赛道,仍有待观察。
1.模型多模态能力的提升是Reducto的最大威胁
尤其是在简单文档场景(电子生成的PDF、格式规整的财务报表),随着Gemini等多模态大模型视觉能力的飞速进化,大模型直接处理文档的准确率正迅速逼近甚至反超Reducto,且大模型的使用成本较低,导致Reducto的独立生存空间被严重压缩。未来高精度“文档提取”也存在被底层模型商品化(Commoditization)的风险。
2.较高的定价一定程度上限制了Reducto获取更大市场份额
虽然Reducto相比Unstructured.io,性价比相对较高,但相比云厂商和开源大模型,Reducto定价较贵(处理成本可达传统云厂商AWS Textract的10倍)。企业在面对海量文档时,极高的成本会迫使客户混合使用多个工具,从而可能限制了Reducto获取更大市场份额。
此外,大企业有严格的数据合规要求,作为一个纯托管的API,Reducto虽然可以“开箱即用”,但目前缺乏允许客户自带模型微调(BYOM)的机制,难以满足一些企业极度细分场景的定制化痛点。
02.
传统OCR在AI时代的局限
在企业构建RAG系统、Agent或自动化工作流时,将非结构化文档转化为结构化数据是不可逾越的第一步。这一环节的数据质量,直接决定了下游AI应用的准确率上限。然而,在海量复杂的现实数据面前,传统的数据摄取方式正面临着技术与商业的双重困境。
在技术上,过去的文档处理供应商高度依赖固定的“模板”(如针对特定银行账单的规则),这种系统极其脆弱,部署和维护成本也很高。面对现代企业排版多样的非结构化数据,例如文件中的双栏排版及边缘行号,或医疗记录、法律合同中的图文混排,传统OCR工具和简单的PDF解析库往往会出现严重的失真。


左右滑动查看完整图片
这一阶段的微小错误与结构丢失,不仅会在端到端的自动化流程中不断复合和放大,更会在商业上给企业带来实质性的业务损失。
•客户提交的资料往往是包含图片、传真、合同的“大杂烩”,由于机器无法精准解析,企业只能高度依赖人工梳理。Reducto CEO在访谈中表示,以某大型保险公司为例,由于严重的人力瓶颈,每10份大型理赔申请中仅能人工审核3份,高达70%的申请被直接搁置。
•因为底层传入LLM的数据质量太差,许多AI开发者被迫花了很多精力在文档清洗。例如CEO曾在访谈中以一家AI legal公司为例,这家公司将大量宝贵时间耗费在修复基础的文档解析错误上,影响了核心AI业务的研发。
因此,当前客户在评估数据摄取工具时,最关注准确性,这主要体现在两个维度:
1.面对极其复杂的版面(如嵌套表格、跨页图表、多栏混合排版)时,工具提取结果的结构保真度与业务关键字段的准确性有多好;
2.能否直接输出符合大模型RAG工作流需求的干净结构化数据(如JSON/Markdown),从而最大限度地降低企业内部的工程开发与人工干预成本。
03.
Reducto的产品
Reducto成立于2023年,产品形态最初是一个读取和解析各种类型文档的API,如今已经发展为一个更全面的“数据连接层”,可以整合和处理各种非结构化的人类数据。除了最初的文档解析功能外,Reducto还扩展出了许多新的能力,例如编辑文档、提取结构化信息、对内容进行拆分和分类等。Reducto产品最大的优势就在于文档解析精度非常高。


左右滑动查看完整图片
去年6月,Reducto Studio正式发布,相比直接调用API,Studio提供了更直观的交互界面,客户可以在同一页面中对比原始PDF与解析后的JSON结构,更方便地理解解析效果并进行参数调试。
从产品形态上看,如果公司希望构建一个完整的数据平台,仅依赖API往往只能服务开发者群体,而提供一个统一的界面入口,则能支持更广泛的用户行为,从而降低使用门槛并扩大平台的使用人群。

发展历程
在创立Reducto之前,两位创始人Adit Abraham和Raunak Chowdhuri合作推出了Remembrall这个项目,它的核心功能是为LLM提供长期记忆。尽管Remebrall在社交媒体上迅速走红,但缺乏PMF:个人爱好者只愿意为这个“玩具”支付极低的费用,而真正的企业产品团队并没有迫切的业务刚需。

转型契机来自于用户的反馈:部分用户询问在管理聊天记录时,能否同时处理上传的PDF文件。为了验证这个需求,两人花了一个周末草草拼凑了一个只能进行简单文档版面分割的测试网页,出乎意料的是,AI开发者们认为它的效果甚至优于市面上的老牌成熟产品,并表示非结构化数据解析正是他们构建应用时最大的痛点与瓶颈。因此团队果断转型,将全部精力投入到了Reducto的研发中。
当时市场上已有其他处理非结构化数据的产品,且多数选择支持多种文件格式(部分产品支持的格式已经从原来的35种增至目前的64种)。但Reducto团队在接触客户时发现,企业核心业务中高频使用的文件类型通常只有两三种,这占了总工作量的80-95%。部分竞品由于支持的格式过多,导致在处理核心格式时的准确率受到一定影响。
因此Reducto在初期没有选择横向扩展文件格式,而是集中技术资源提升PDF和图像这两种核心格式的解析准确率。此外,团队搭建了一个公开的测试平台,允许用户直接上传难以处理的复杂PDF进行测试,直观的解析结果帮助他们有效转化了早期客户。在积累了一批对精度要求较高的客户后,Reducto才开始逐步扩展支持的其他文件格式。
值得注意的是,早期Reducto没有开放自动化的自助注册,也没有专职销售团队,而是由创始人逐一进行客户接入。这种方式既便于深入了解客户需求,也有助于在初期控制系统流量,保证infra的稳定性。

04.
为什么客户为Reducto买单?
Reducto采用按页计费的API使用量定价模式(usage-based pricing),定价分为标准解析与高精度解析两档。企业客户通常签订年度合同并享受折扣,中小客户则按月按量付费。

目前Reducto的客户覆盖面非常广,主要可以分成以下三类:
•垂直领域的AI native公司,例如法律科技领域的明星公司Harvey、Legora,以及金融领域的Rogo等,这类客户通常对domain knowledge的要求非常高,对数据解析的准确性、结构化能力以及对复杂文档格式的支持要求都非常严格。
•数据标注或LLM数据infra公司,例如Scale AI、Mercor等。随着模型对训练数据的质量标准的提高,这类客户对数据处理的标准也不断提高。
•全球头部企业巨头,包括FAANG级别的科技巨头、财富前十(Fortune 10)的顶级企业,以及全球规模最大的几家对冲基金。

从处理量来看,CEO在访谈中表示,截至2025年10月,Reducto的累计处理页面量较半年前增长约157%,同时月处理量较2025年6–7月增长5倍。
典型工作流和use case
目前有高达40%的客户会同时使用Reducto的两个或多个API端点构建工作流。典型工作流是:客户首先调用API提取文档,然后将文档的子集转化为“图谱结构化数据”,最后再利用这些结构化数据,通过Reducto的API自动生成/填充一份全新的文档。

Reducto早期在医疗、金融、保险和法律四大领域获得了大量业务,因为这些行业对数据提取有着“零错误容忍”的极高要求,随着业务拓展,Reducto目前已经深入到了各行各业:
•金融投资:全球规模最大的对冲基金之一利用Reducto一次性解析PB级别的历史研报和文档资产,将分析师十几年积累的庞大非结构化数据,转化为可供AI检索与推理的数字金矿。
•供应链与企业运营:物流供应商使用Reducto处理格式极度混乱的提货单和采购清单。这类单据自由度极高,员工甚至常把表格当Word随意排版填词,而Reducto仍能精准提取出结构化信息。
•教育科技:客户利用Reducto读取学生用手机拍下的家庭作业,即使是字迹极其潦草且包含复杂数学方程式的照片,也能被成功解析,为下游AI tutors提供高质量的数据摄入。
•冷门场景:有客户直接使用Reducto解析高度专业且复杂的“土壤分析实验室报告”。这种超乎团队测试预期的偏门用例,在未经专门定制训练的情况下,依然达到了最佳解析效果。
05.
Agentic OCR如何实现极高的识别精度?
为了保证数据提取的极致准确率,Reducto摒弃了传统的“单次提取(Single-shot)”路线与端到端模型,转而构建了一种全新的三层混合架构:
1.基于计算机视觉的版面解析:系统首先从视觉上对输入的PDF、扫描件或电子表格进行分割,模型会精准识别出表格、标题、图表、文本块等不同区域,并提取保留所有视觉区块的空间坐标。
2.VLM的上下文审查:在完成视觉分割后,系统会调用专门的VLM来结合上下文解释每个区块。VLM会赋予区域文本标签、语义含义及层级关系(例如分析表格的合并单元格、提取图表数据或链接表单键值对),并为提取的内容输出初始的置信度评估分数。
3.Agentic OCR多轮自纠错引擎:这是Reducto最核心的技术壁垒。当第二层输出的置信度低于既定阈值时,Agentic OCR会在后台触发自动化的审查与重新处理循环。系统会调整版面假设或切换提取策略,通过递归对齐不断修正错位、幻觉等错误,直到结果通过最终验证。

在这套强大的三层架构支撑下,Reducto攻克了行业内两大极具挑战的技术盲区:
•复杂图表的提取
为了解决精确提取复杂图表信息,比如金融研报中布满拐点的折线图,在Agentic OCR阶段,Reducto在提取数据后,会在后台重新渲染出图表,并与原图进行交叉比对,反复修改错误的数据点,直到专门的验证模型(Verifier model)判定结果合格为止。同时,为避免验证模型在微小误差上陷入循环,Reducto采用组件级多模型协同:训练多个轻量模型分别解析坐标轴、刻度、图例和数据序列,再统一对齐,从而在保证精度的同时提升稳定性。
CEO表示,虽然这种机制模拟了人类审查员的工作流,在一定程度上牺牲了处理速度并增加了系统延迟,但这是目前业内唯一能让机器提取的图表数据真正达到“商业可用”级别的解决方案。



左右滑动查看完整图片
•电子表格的解析
现实中的Excel和CSV往往结构混乱,空列、缺失值或随意排版让计算机难以判断表格边界,因此,传统的硬编码规则(例如“遇到空白就切分”)根本无法应对这种自由度极高的数据结构。Reducto选择通过第一层的版面感知能力与第二层的VLM语义理解结合,能够在没有任何排版规范提示的情况下,依然能够精准地拆分、关联和解析极度混乱的电子表格。
06.
Reducto的竞争优势是否长期存在?
文档解析市场的竞争激烈,目前Reducto的竞争对手可以大致划分为以下四类:

综合来看,虽然Reducto凭借在复杂文档解析上的极致精度成功切入市场,但Reducto的竞争优势是否可持续是一个很难回答的问题,也是公司今天面临的最大挑战。
•在复杂文档场景(扫描件、手写内容、复杂表格、多栏排版、专业符号),Reducto的护城河在近期内仍然稳固。这类文档在医疗、政府、法律、金融等监管行业中大量存在,而这些行业的数字化转型周期漫长,短期内不会消失。
•但在更广阔的简单文档场景(电子生成的PDF、格式规整的财务报表),基础模型的威胁已经是现实。随着多模态LLM能力的持续提升,Reducto在这一细分场景的差异化空间将持续收窄。
模型的多模态能力提升
这是Reducto长期生存的最大变量与直接威胁。随着基础模型多模态能力的飞速迭代,“单独提取文本”这种简单文档场景正面临被模型原生能力彻底商品化的风险。
比如,金融软件公司Ascend发现,直接使用Google Gemini 2.5 Flash处理文档的准确率比Reducto高出约30%,且成本便宜了20倍,在延迟上,两者也相对接近,因此他们正在考虑在未来完全替换掉Reducto。
但Reducto现阶段的生存空间和护城河,其实是建立在复杂文档场景以及企业实际应用大模型时的“工程泥潭”之上。Ascend产品负责人也提到,虽然直接调用大模型API成本低,但这意味企业需要自行构建庞大的预处理和后处理管线。例如,面对一份100页的长文档,企业需要自己编写代码进行分块并发处理;同时还要处理大模型的幻觉问题,针对低置信度的数据或错误的输出格式进行手动清洗。
对于敏捷的初创团队,搭建这套管线可能需要2到3周的开发时间,但对于有着严格合规和安全审查的大型企业而言,自行拼凑、测试并持续维护这套管线往往需要数月的时间,并且每次底层模型版本更新都需要重新适配。因此,相比之下,Reducto的价值在于它作为一个“开箱即用”的黑盒编排层,可以将这些繁琐的脏活累活全部封装,方便企业使用。
比如医疗初创Docsum的CEO就提到,如果不使用Reducto,他们需要耗费至少0.5个全职工程师去搭建日志、排查解析错误和维护内部工具,这相当于每年至少$75000美元的隐性人力成本,因此虽然Reducto的API调用费昂贵,但总体拥有成本(TCO)还是有性价比的。
云厂商基础设施
传统云厂商是Reducto最常被拿来对比的玩家,也是绝大多数企业在引入Reducto之前使用过的工具。在客户访谈中,几乎每一位受访客户都曾评估或使用过AWS Textract或Google Document AI。
面对这类玩家,Reducto的核心劣势在于极其高昂的定价。Scale AI的团队成员在访谈中提到,Reducto的处理成本大约是Textract的10倍(Textract需要花费约1美元处理1000页,而Reducto需要花费约1美元处理100页)。对于只需处理海量简单标准化文档的基础业务,Reducto高昂的溢价往往被企业视为缺乏性价比。
然而,云厂商工具在面对复杂排版时往往表现不佳。当文档中包含嵌套表格、合并单元格、缺乏网格线的财务报表或多栏学术论文时,Textract等传统OCR极易丢失数据的空间层级和结构逻辑,输出毫无关联的纯文本乱码。数字医疗公司eHealth4everyone的研究员指出,Reducto在结构化JSON输出的质量上远超AWS Textract和Nanonets,极大地简化了下游的语义检索工作。
AI数据处理平台
在这一领域,Unstructured.io是Reducto最强劲的对手。
但两者的竞争并非完全的零和博弈,而是有“广度”与“精度”的路线区别:Unstructured.io覆盖了极其广泛的数据类型,包括音频、视频、HTML甚至是IoT传感器数据。而Reducto则战略性地放弃了广度,将技术资源全部倾注于文本、复杂PDF和表格解析的极致精度上。
在大型企业的实际部署中,这种差异直接促成了“混合管线”的架构。
•Scale AI将开源版本的Unstructured.io作为首轮路由处理器(First-pass processor),用于广泛的基础数据处理,将包含复杂表格、脚注和图像的困难多模态文档(如PDF、PPT)专门分流给Reducto,以获取最高保真度的结构化提取结果,随后再存入向量数据库。
•全球最大啤酒酿造商AB InBev的全球分析总监认为Reducto是“福特”,高效、性价比高,而Unstructured.io是“法拉利”,技术更全面,能处理文本、图像、音频、视频、IoT传感器数据等50-100种格式,但相比之下,价格更贵。他们的策略是用Reducto覆盖70-80%的纯文本场景,用Unstructured.io处理剩余的多模态复杂场景,并计划在12个月内将Reducto扩展至所有文本工作流,到那时Reducto的预算占比将从15%翻倍至25%。
传统及初创IDP工具
与Docparser、Indico Data等文档处理工具相比,Reducto在开发者友好度和灵活性上更具优势。Indico Data往往需要用户提供大量带标签文档进行模型微调,冷启动较慢;而Reducto可通过prompt直接定义字段与格式,在无需专门训练的情况下提取复杂版面信息。医疗软件公司Medallion的测试显示,在低质量扫描件和复杂文档场景下,Reducto的解析准确率比Docparser高约20%。
此外,Reducto团队提供了“白手套”级客户支持,在竞争中赢得了极高的企业信任度,比如Reducto会直接在企业客户的Slack频道中进行分钟级技术响应。
07.
团队与融资
Reducto由Adit Abraham和Raunak Chowdhuri于2023年联合创立。团队非常精简,截⾄2025年4⽉,公司ARR已突破百万,但当时全职员⼯仅有4⼈。B轮融资后,团队规模仍维持在12⼈左右。团队绝⼤多数成员为⼯程师和研究员,很⻓⼀段时间内,Adit Abraham都是唯⼀的销售⼈员。
•Adit Abraham(Co-Founder&CEO)
Adit Abraham 2022年本科毕业于MIT,主攻机器学习。他曾在Google担任产品经理,负责搜索与广告业务,再之前在MIT Media Lab以及初创公司BlinkAI担任机器学习研究员。此外,他还曾创立了Sidewalk。作为CEO,他不仅把控公司愿景,还展现出极强的企业级销售落地能力,在公司极早期就凭借“白手套”服务成功拿下了Fortune 10级别的头部客户。
Sidewalk是由Adit Abraham在MIT时创立的一家公司,主要做电商合作与交叉销售平台,帮助面向相似客群的品牌建立合作关系,在结账或购买流程中推荐彼此的产品,从而增加订单价值和获客渠道。
•Raunak Chowdhuri(Co-Founder&CTO)
Raunak Chowdhuri 2024年本科毕业于MIT,专业方向为AI与机器人技术。他在计算机视觉领域发表过学术论文,获得了过百次的学术引用。在创立Reducto之前,他曾担任计算化学初创公司Oloren AI的CTO,并在MIT无人驾驶感知团队担任ML研究员,以及在MIT林肯实验室担任ML顾问。

目前Reducto共完成了四轮融资,累计融资金额达1.084亿美元。Y Combinator、Benchmark、BoxGroup和First Round Capital等老股东都参与了多轮融资,CEO表示公司两年内实际消耗资金其实不到800万美元,B轮时银行账户仍有超过1亿美元现金。

