本文来自微信公众号: 每日天使 ,作者:每日天使
如果你觉得AI音乐就是"AI版Spotify"——能帮你找歌、推歌,甚至自动生成背景音乐——那你大概率误解了Suno在做的事。
Mikey Shulman是哈佛量子物理博士出身,他做的事情听起来更像游戏公司:让创作本身成为娱乐。他用一个数字颠覆了所有人的预设:Suno任意一天,90%的活跃用户是在创作,不是在听。这在任何内容平台上几乎不可能发生。
这篇红杉访谈谈到了他们如何在"所有人都说别做音乐"的时候坚持下来,如何选择"完整歌曲"而非"高音质片段"的技术路线,以及与华纳的和解到底意味着什么。
导语
Mikey Shulman是个物理学家,不是音乐人。他从哈佛量子计算博士转型,创立了全球最大的AI音乐公司Suno,年收入运营规模已达3亿美元。
接受红杉资本播客采访时,他谈到的第一件事不是技术,是一个反直觉的现象:在Suno平台上,每天有90%的用户是在创作音乐,而不是听音乐。这个比例在任何内容平台都几乎无法想象。
这期访谈涵盖:Suno的技术底层逻辑、"创意娱乐"这个新品类的定义、与华纳音乐的合作细节、以及未来的产品方向——社交创作和互动音乐会。
QA正文
一、起点:量子物理博士怎么做成了全球最大AI音乐公司?
红杉(主持人):你的背景非常出人意料。从哈佛物理博士——研究量子计算和固态自旋——到创立全球最大AI音乐公司,是什么连接了这两件事?
Mikey Shulman(Suno创始人&CEO):从纸面上看,我确实没有资格做一家消费娱乐公司。但很多人从物理跨入AI,就像30年前很多人从物理跨入量化交易一样。说实话,我只是个还算过得去的物理学家,我的联创之一比我强多了。
我从物理里学到最重要的东西是:在两件通常不会碰到一起的事物交汇处,总有巨大机会。可以是音乐与技术,可以是量子力学与低温微波工程,也可以是任何你想去的地方。
主持人:你们当初是怎么凑在一起的?是一开始就打算做音乐公司吗?
Mikey:最初我们觉得这件事太难了。那还是ChatGPT时刻之前。我们做了背面计算,知道自己热爱音频,但数字告诉我们:要生成高质量音乐,需要的计算量和模型规模,还有好几个数量级的差距。
音频尤其棘手——它不像文本那样是离散的,是连续的浮点数,每秒采样4.8万次。所以我们一开始做的是"听懂音频",而不是"生成音频"。
然后很幸运,相当早的时候,我们取得了正确的技术突破,发现:"哦,我们其实能做音乐了。"
主持人:你数学那么好,当时哪里算错了?
Mikey:(笑)数学没算错,是我们找到了一些突破,让计算量的需求大幅下降。核心是把音频压缩得极其高效。比预期好太多了——被证明是错的,是件很好的事。不是所有被证明是错的时刻都这么愉快。
而且说实话,一开始音乐质量很糟糕,但我们还是熬夜在做。这是个很重要的信号。
二、技术路线:为什么选"完整歌曲"而不是"高音质片段"
主持人:Suno早期的策略是什么?
Mikey:我们在2023年底很快就从Discord迁移出来,上线了一个功能很薄的网页应用。结果花了5天时间,90%的流量就转移到网页端了——说明我之前对Discord的判断是错的。
做得最反直觉的一个决定是:我们选择做完整的歌曲,有歌词、有人声,而不是做背景音乐。
当时大多数竞争对手都选择先优化音质——他们的输出更干净、更清晰。Suno的音频质量很差,随便一个人听一秒就能说"哦,那是Suno的歌,声音很差"。
但我们坚持认为:一首歌是一个故事,人声打动人,故事打动人,这比清晰的音质更重要。技术层面,我们选择了"自回归"而非"扩散模型",就是因为自回归更适合生成有叙事结构的完整内容。
事实证明这个判断是对的。
主持人:你们最早是怎么验证用户需求的?
Mikey:参考了Midjourney——他们做Discord机器人很容易,能快速看到用户是不是真的喜欢。我们发布出来,很多很多人喜欢它。这是一个非常强烈的确认信号。
大量人告诉我们不要做音乐公司:市场不好做,律师会来找你,商业案例不清晰。但当你熬夜在玩自己做的东西,不想睡觉的时候,你就知道这件事值得做。
三、"创意娱乐":Suno发明的新品类
主持人:任意一天,90%的用户是在创作——这个数字太惊人了。你怎么解读这件事?
Mikey:在Suno之前,音乐平台默认你是一个听众。地球上80亿人里,能做音乐的人极少,其他人就是消费者。
Suno打破了这件事。我们90%的日活用户会去创作东西。
更难理解的是:他们创作,不是为了把内容带到其他地方去用。他们创作,是因为创作本身就是娱乐。创作给你的满足感,是刷手机一个小时根本给不了的。
这是一个品类的转变——我叫它"创意娱乐"。创作的过程本身就是享受,不只是结果。
主持人:那AI创作的内容算"垃圾"吗?很多人用这个词批评AI生成内容。
Mikey:我昨天和我五岁的孩子一起用Suno做了两首歌。那算垃圾吗?地球上99.999%的人没兴趣听,但对我意义非凡。
"垃圾"这个词被乱用了。这件事以前也发生过:当人们能在笔记本电脑上做音乐,很多人说市面上会充斥烂歌。快进到今天,那明显是好事——更多音乐意味着更多好音乐,也意味着新类型、新明星的出现。
AI音乐也一样。
四、天花板在升高:排行榜、唱片合约、以及还没公开的影响
主持人:Suno的天花板能到多高?有没有具体例子?
Mikey:我们已经有用户凭借Suno制作的歌登上了排行榜,有人拿到了唱片合约。
我最喜欢的例子是Iamona,是一位诗人的艺名,她把多年写的诗用Suno做成音乐,找到了全新的声音和全新的受众。这很美,这是人与人之间的连接。
最好的音乐永远需要人的引导。音乐没有标准答案——你喜欢一首歌,是因为它的声音,也因为传递它的那个人。我们会找到新的声音,找到新的传递者。
还有一个更隐形的影响:排行榜上有很多歌里有Suno的片段,但没有标注。专业人士也在用Suno作为工作流的一部分,不是全部。大多数音乐未来都会有AI成分——就像今天大多数音乐都用了自动调音或数字制作。
五、与华纳的和解:AI音乐和现有音乐产业怎么共存?
主持人:你们和华纳音乐达成了一个里程碑式的和解合作。能讲讲吗?
Mikey:首先纠正一个误解:我们不讨厌唱片公司,也不认为他们"完蛋了"。他们是世界上最重要的文化机构之一,他们懂音乐,懂音乐文化,培养出影响数十亿人的明星。
我不希望音乐世界分裂成"AI音乐"和"非AI音乐"两个圈子。这对用户没有意义,而且本来也说不通,因为大多数音乐会兼而有之。
和华纳的合作,我最兴奋的是:共同建造以前根本不存在的东西——让粉丝通过音乐和喜爱的艺术家产生更深连接的产品。
对艺术家好,对粉丝好,对版权方好,而且这些事在一年前根本不可能实现。
主持人:数字音乐体验基本25年没变过。
Mikey:对,我们流了25年的音乐。音乐到了需要新格式、新创新的时候了。这就是我们在做的事。
六、产品战略:不做科技公司,做音乐公司
主持人:你怎么看Suno的应用层产品策略?
Mikey:消费者市场其实现在还没有足够的创新,但消费者不能容忍粗糙的体验——你是在为乐趣付钱,不是为工作。
还有一点说实话:仅靠模型侧的护城河,其实并不清晰。Google已经在做音乐模型,虽然我们今天好得多,但他们是Google,他们能在模型侧赶上我们。
所以我们公司有一个价值观:我们只是一家音乐公司。不是科技公司。我们做技术,是为了让人开心,不是为了技术本身。
这体现在很多产品细节上:我们把产品体验和UI/UX的投入,放在和模型同等重要的位置。
主持人:3亿美元年收入了,接下来呢?
Mikey:还差得很远。大多数人还不知道我们,产品还非常粗糙,还有很大的发展空间。
接下来会做两件事:
第一,更社交化。音乐本来就是社交的。你未来可能不是把一首歌发给朋友,而是发一个"歌曲模板",让朋友在上面即兴创作,发回来——这是异步共创。或者和你喜欢的艺术家一起,用他们从没公开过的素材共创。
第二,让用户更多地把自己融入音乐。最新上线的功能是用自己的声音来唱。当你在歌里听到自己的声音,你对这首歌的感情完全不一样了。当你把这首歌发给朋友,他们能听到你在里面——那首歌对他们来说更有共鸣。人耳对声音极其敏感,这是进化的结果。
主持人:我还期待看到Suno的音乐视频。
Mikey:我也是!我在MTV那一代长大的,有音乐视频和只有背景音乐,完全是两种体验。我们想让人们沉浸在音乐里,而不是把音乐永远当背景。现在Suno里已经有视频功能的beta版,用户非常喜欢。
我还希望在未来12个月里,看到第一场真正意义上的互动演唱会——观众参与、和艺术家一起当场创作音乐。我在给几百上千人做Suno演示的时候,一起做歌的那种感觉,几乎像宗教仪式一样——人群共鸣是种很古老的东西,不应该只存在于宗教场合,为什么不能在Coachella?
七、为什么AI时代缺少消费端创业者?
主持人:你怎么看现在AI创业者普遍往企业服务方向走,消费端几乎没人做?
Mikey:(笑)问我这个,我当然高兴竞争少一些。
我的理论:AI怎么自动化企业流程,很好想象。但AI怎么融入我们玩耍、创造的方式,需要真正的想象力。大多数人想到AI音乐,想到的是"AI版Spotify"——听起来就很糟糕。
主持人:同意。我觉得你做的是让以前不可能的事情变成可能,而不是把已经存在的东西加速一遍。
Mikey:对,那更有意思。而且还有一个实际问题:当机器人把所有工作都做完了,我们用多余的时间做什么?不会是刷手机,一定是创造什么、感受什么。
视频链接:https://www.youtube.com/watch?v=Jq3BIGz4vXQ
