本文来自微信公众号: AING硬迹 ,作者:一只杨
近日,Midjourney创始人David Holz在社交媒体上宣布:“开始发出第一批Midjourney硬件产品发布邀请,还有少量名额。”

这距离该公司首次公开宣布进军硬件领域已近两年,而早在2024年8月,Midjourney就在社交平台官宣“We’re officially getting into hardware”,同时开放了旧金山硬件团队的招聘通道。

值得注意的是,这是一家从未拿过一分钱风险投资、团队不到100人、仅靠订阅模式便做到年营收5亿美元的AI图像生成巨头,现在他们即将交出硬件答卷。
从Leap Motion到Vision Pro的硬件基因
复盘Midjourney硬件部门的组建脉络,创始人David Holz的个人经历是第一块基石。Holz曾于2010年联合创办手势追踪公司Leap Motion并担任首席技术官,2019年该公司被UltraLeap收购。
2024年初,Midjourney成功挖来前苹果Vision Pro硬件工程经理Ahmad Abbas,由其执掌硬件部门。Abbas曾在马斯克的脑机接口公司Neuralink负责硬件设计,随后在苹果的5年深度参与了Vision Pro头显的工程研发。而且,Abbas早年曾在Leap Motion担任硬件工程师。
Holz此前在公开对话中表示,Midjourney会造一个“Orb”。此后,团队持续将硬件研发重心置于3D数据捕捉方向。
Holz将Midjourney的图像模型描述为“非常缓慢的游戏引擎”,并承诺未来将能以每秒60帧的速度生成体积感十足的3D世界。这种对未来交互形态的前瞻性判断,也是驱动硬件战略最核心的内在逻辑。
软件巨头为何执意要做硬件
2021年,Midjourney在旧金山成立,而后仅凭订阅收入便实现了惊人的增长:2023年营收约2亿美元,2024年攀升至3亿美元,2025年达到5亿美元,估值高达100亿美元。而它的团队规模长期维持在数十人量级,早期核心团队仅11人,人均产出远超500万美元。
而这家“轻盈”的公司,为何执意选择踏入最“笨重”的硬件赛道?
当前,生成式AI正从“云端重算力”迈向“端侧轻推理”,2026年也被行业视为端侧AI市场的关键爆发节点,AI手机、AI PC等形态加速落地。另外,生成静态图像的天花板已在眼前。
2024年底Midjourney发布的Patchwork平台已经展现出多人协作世界构建的能力,支持最多100名用户在无限画布上实时共创,并明确提及未来路径包括“完全沉浸式的3D虚拟现实场景”。

而问题是具备能力生成惊艳的3D世界,用户该用什么设备进入这个世界?现有的VR头显生态支离破碎,而Midjourney想让自己的3D视频内容被真正消费,自建硬件入口就成了最激进的解法。
值得注意的是,Midjourney在硬件选择上吃过亏。2023年,公司曾采用Google Cloud TPU训练第四代模型,但后续reportedly对这一决策感到后悔,认为如果更早全面拥抱Nvidia GPU生态,或许能加速研究进度。
另外,Midjourney的核心壁垒是其美学品位与社区生态。正如iPhone让触控交互成为标准,Midjourney或许想定义AI原生内容的消费范式。
那么,那枚“Orb”是什么?
在Midjourney硬件入局的长达近两年的筹备期中,外界对于具体产品形态的猜测从未停止。结合已披露的所有信息,可以梳理出:
形态上,“Orb”这一项目名称暗示产品可能采用球形或圆形设计,且可能是一种沉浸式空间显示装置,而非简单的头戴设备。
功能上,它极可能是一款AI原生的空间计算设备,聚焦于创意消费与沉浸体验,让用户“走进”自己用提示词生成的世界,或用自然手势与AI共创3D内容。
定位上,Midjourney官方曾在推文中明确回应,其硬件“不会是一个吊坠式设备”。结合Midjourney的订阅用户以专业设计师、艺术家和创意工作者为主,这款硬件很可能首先面向创意产业和极客发烧友等。
另外,David Holz曾表示公司正在同时推进3-4个硬件项目,表示其硬件产品线不止一种。
AI硬件的重构期
近些年,谷歌、Meta等大厂均在推进各自的AI终端战略,谷歌甚至在多模态图像模型领域直接与Midjourney展开正面交锋。
而部分AI硬件创业公司在过去两年中已用血的教训证明:做一款成功的消费级AI硬件,难度比想象中要大得多。从供应链管理、品控到渠道建设和售后服务,硬件生态的每个环节都是对“轻模式”公司基因的重大考验。
但也有不少AI硬件品牌初步证明AI硬件的成功在于找到AI能力与传统硬件形态的最佳耦合点,也有百万级的突破机会。
在Holz看来,Midjourney的核心使命是“放大人类精神”(amplify the human spirit)。图像生成模型完成了从“文字到视觉”的第一步,V7模型在2025年的发布和Draft Mode的上线提升了生成效率,而硬件,则可能成为从“视觉到空间”的第二步。
