半年ARR 增10倍达数千万美金,非结构化数据结构化的需求正在爆发
2025-12-26 13:53

半年ARR 增10倍达数千万美金,非结构化数据结构化的需求正在爆发

本文来自微信公众号: 投资实习所 ,作者:StartupBoy,原文标题:《半年 ARR 增 10 倍达数千万美金,非结构化数据结构化的需求正在爆发》


由于海外的创业者很多都是面向B端企业级,因此他们对B端市场具有更深刻的洞察。去年的时候,Box创始人Aaron Levie分享过一个我非常认同的观点,他认为AI最大的价值点,是对非结构化数据的处理。


特别是在企业内部,非结构化数据可能占据了90%的信息,在之前要么不能处理要么处理效率非常低,而AI正在彻底改变这种状态。


Aaron Levied说,自从创办Box以来,我们从未见过像今天这样在处理企业信息方法发生更大的转变。之前,在企业中使用我们的结构化数据相对简单,我们可以查询、计算、合成、总结和分析任何可以在数据库中构建的东西,也就是我们的ERP、CRM和HR系统中的数据。


但实际上,这只是公司信息的一小部分,企业里结构化数据只占到了10%左右,而非结构化数据占据了90%,比方说文档、合同、产品规格、财务记录、营销资产和视频等。


之前,这些信息往往没有得到很好的利用,虽然可以存储、发送、共享和搜索它,但无法深入理解这些信息中的内容。



而生成式AI是有史以来第一次让我们可以与非结构化数据进行对话,多模态模型特别允许我们使用计算机处理这些内容,而且是以无限的规模和速度执行人类可以执行的任何任务。


因此,当我们在企业中处理这些信息时,就完全改变了游戏规则。瞬间,我们的内容就从偶尔被触摸的数字工件变成了企业中任何人都可以随时利用的数字内存。


突然之间,你拥有的信息越多,不再是信息更难找到和理解,而是相反。我们进入了一个世界,你的数字信息将成为你最宝贵的资源之一。


当你能够了解内容(如合同、发票或数字资产)的内部内容并提取其结构化数据时,你几乎可以自动化任何工作流程。


AI笔记(会议)类转录产品本质上我觉得也是对非结构化数据(语音)的处理,正如Otter的创始人所说,会议是知识工作者最大的实践黑洞,而语音是尚未被充分利用的数据金矿,《Otter成首个超1亿美金ARR的AI笔记,10人团队做了个1000万美金ARR的AI健身》。


后续Otter的延伸路径也差不多如Levied所说,打通更多维度数据,通过Agent提供更多企业级自动化解决方案。


Glean的快速增长我觉得也体现了这一趋势,只不过它更加强调与公司内部环境的结合《Glean ARR突破2亿美金,一个超简单的AI绘本产品一年卖了600万美金》,企业的CEO和高管们都在寻找一个安全、可靠、更适合员工的ChatGPT版本。而Glean做的事情差不多就是将ChatGPT为消费者带来的能力带给企业用户,并融入他们的公司环境:


客户在使用人工智能时面临的最大挑战是,人工智能技术实际上并非为他们的公司打造,大多数人工智能技术都是基于互联网上的公共数据。所以当你把那些模型带到你公司内部,并且试图让他们在内部工作时,最大的问题是他们其实并不了解你们的业务运作方式和背景。


之前a16z投了一个面向金融领域处理非结构化的产品,而最近一个做通用化,只针对将非结构化数据结构化这个需求做的Infra产品,可能更能代表这个趋势,它先是在半年左右从0做到了超百万美金的ARR,之后半年多时间ARR继续呈10倍级增长超过了1000万美金,有传言甚至称其ARR可能已经……

AI创投日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP