本文来自微信公众号: 峰瑞资本 ,作者:李罡
我们正处于一个AI热点多到窒息的时代。
从Open AI开启大语言模型时代开始,到足以以假乱真的AI生成视频,Sora的余温尚在,Seedance2.0就给业界带来新的冲击,更不用说最近红透的小龙虾Open Claw。AI技术几乎在以周为单位迭代,我们害怕错过任何一个热点,更害怕一旦错过热点就会被时代抛下。
然而,剥开所有这些炫酷技术的内核,你会发现它们最终指向的都是同一场战争——人类注意力的争夺战。
作为承载信息最核心的终端,屏幕的形态演进是这场战争的直观缩影。从工业时代追求横向扩张,到智能手机初期为了握持感而不断变窄、变长,演化出各种“遥控器”或“带鱼屏”;而现在,它们正不约而同地收缩到一个稳固的形态——方。
比如苹果或将问世的首款折叠屏iPhone,为了解决传统折叠屏“内屏过窄”的痛点,选择了“阔折叠”方案。其展开后的7.8英寸内屏不再是细长的长方形,而是一块长宽比约为1.4:1的宽大屏幕。
除了手机之外,其他领域也是如此,比如IMAX银幕的比例是1.43:1,Apple Vision Pro 2的单眼显示比例保持在约1.21:1。
这种向正方形回归的趋势并非某种文艺复兴,而是视听工业经历了一百年“横向扩张”后,面对信息过载做出的技术必然选择。
其实正方形或许比任何宽屏都更适配人类的生理本能。

高德曼视野图谱。中间的白色部分对应“双眼能一起看到的视野”,带纹理部分对应“一只眼睛能看到但另一只看不到的周边区域”。
图源:1964 NASA report,Bioastronautics Data Book。
如图所示,人类双眼能一起看到的视野,本就倾向于更接近圆形的方块,而在AIGC让内容生成的成本无限趋近于零,内容供给指数级增长的当下,相比宽屏,正方形屏幕更能抓住用户日渐萎缩的注意力,因为后者能以更高的采集效率,将信息精准地投射在人眼的焦点区域。
在这份行研报告《技术驱动感官革命》中,我们将从人类的生理局限与视听工业的演进史说起,拆解为什么正方形可能是屏幕进化的终点,而基于这个观点,未来的技术演变与创业方向又会如何改变?
我们将在本文回答如下问题:
在注意力门槛萎缩至秒级的今天,如何对抗信息过载?
16:9比例的普及,是需求还是妥协?
为什么说《甄嬛传》与《EVA》底层逻辑相同?
AIGC如何利用“救猫咪节拍”将内容生产成本降至零?
为什么说短剧时代下,宽屏反而成为了阻碍?
从IMAX到三折叠屏,为什么屏幕向“方形”回归?
我们持续关注AI在视听领域的发展,如果你是相关创业者或者从业者,欢迎联系本文作者李罡(lig@freesvc.com)。
你觉得视听的载体会变成怎样的?欢迎你在评论区和我们聊聊你的看法。截止至2026年13月19日17:00,留言最走心的1位读者将获得《世界电影史》一书。
过往行研目录:
展望2026,AI行业有哪些创新机会?|峰瑞报告
“人造太阳”有多难?揭秘可控核聚变的核心技术和创业机会|峰瑞报告
接棒手机,智能可穿戴正在成为消费电子赛道新引擎|峰瑞研究所
/01/
人类的“Token留存”机制
在探讨视听载体百年以来的演进逻辑之前,必须首先直面一个生理事实:虽然显示技术以摩尔定律的速度狂奔,但人类负责接收信息的眼睛,却在万年进化中都并未发生实质性的升级。
一、视觉是人类接收外界信息最重要的渠道,没有之一。
从解剖学数据来看,人类视神经包含约120万根神经纤维,而负责听觉的耳蜗神经仅包含约3万根。
如果将人类感官信息的接收总量设为100%,视觉通道占据了约70%的权重,听觉约占20%,剩下的10%则由嗅觉、味觉、触觉以及肢体平衡感等瓜分。
这意味着,我们对世界的认知,绝大部分是建立在视觉信号的输入之上的。
二、大脑面对刺激需要防过载。
虽然视觉带宽极其宽广,但这并不等同于人脑的处理能力是无限的。人类对新鲜感和探索欲的追求建立在对神经系统的持续刺激之上,这种刺激存在生理阈值。如果外部信息无节制地输入,大脑极易进入过劳状态。
为了自我保护,我们形成了一套高度精简的信息过滤与留存机制:面对海量的视听输入,我们最终保留下来的往往并不是某个具体的、像素级的画面,而是一种核心“感受”。
比如你上学时某次考试取得了满分,多年后,你可能早已记不清试卷上的具体考题,甚至记不清那是哪一门课,但却能清晰地回想起那一刻的成就感。借用大模型时代的概念,这本就是“将海量的冗余信息提纯成少量的Token”。
我们如此擅长将庞杂的信息简化处理,却一头撞进了一个信息供给侧极度膨胀的时代。这意味着,如果内容无法在短时间内抓住注意力,就会被大脑直接判定为“垃圾信息”。
/02/
一场关于注意力的百年“战争”
视听历史的演进,本质上也是创作者对人类感官通道的不断争取。而若追溯到技术尚未爆发的早期,你会发现所有的载体都是“方”且“聚焦”的。
一、从静止到动态:壁画——话剧。
最早的图像记录可以追溯到远古壁画,无论是画笔还是勾勒,人类总在寻找记录美的借口。
而当壁画“动”起来后,就变成了话剧。话剧的视觉焦点其实也是固定的,在方正的中心舞台上。在这个阶段,没有镜头推拉,没有蒙太奇,创作者通过演员在画框中心的走位来牵引观众的视线。
二、无声到有声:动作与氛围的接管。
19世纪末,电影诞生,此时的电影大师们本质上是在做“话剧的录影“,我们可以回看早期的电影作品,比如1936年的《摩登时代》,在无声黑白的4:3框架内,由于缺乏色彩和声音,创作者被迫通过极度夸张的动作调度和表情来维持观众的注意力。在这种极致的方构图里,每一个细微的动作都被放大了。
而随着音轨的增加,创作者开始挖掘声音对氛围的营造能力。
1966年的《黄金三镖客》展示了声音是如何在视觉失效时接管的。在这个电影片段中,镜头推演极其缓慢,几乎没有实质性的叙事推进。如果只看画面,现代观众的视觉在最初的7秒钟后便会因为“信息密度过低”而试图逃离。
然而,恩尼奥·莫里康内的标志性配乐及时接管。剑拔弩张的环境音、悠远又带有杀气的旋律,在视觉无聊时,通过听觉通道在脑海中建立了极强的沉浸感。多年后,你可能记不清那些角色的脸,但那段配乐会瞬间带你回到这西部地带。
三、黑白到彩色、实拍到动画:想象力的控制权
1968年,黑白画面变成了彩色。
在《2001太空漫游》中,库布里克利用色彩极大扩展了人类的想象边际。彩色影像不仅是视觉的升级,更是信息输入效率的极大提升。不同的色彩组合代表了不同的情感倾向和环境信息,使信息输入更加高密度。
此后,动画开始出现,相比于实拍电影中不可控的自然环境,动画代表了人类对视听主权的深度接管,每个帧、光影与构图都是确定的。
比如《浪浪山的小妖怪》,尽管它没有昂贵的特效,却十分动人,这是因为它的色彩和精妙的叙事节奏锁定了大众的情感。
这种从“记录现实”向“人工生成”的转变,实质上为AIGC时代的内容创作预留了逻辑伏笔。
/03/
如果“方”是答案,为什么百年来屏幕变得越来越宽?
既然“方”是生理的最优解,为什么屏幕在过去五十年里会越变越窄长?这背后是一场行业利益与物理现实的拉扯。
19世纪末,托马斯·爱迪生实验室在开发35mm胶片时,确立了4:3(即1.33:1)的画面比例。这个比例并非随意拍板,它最接近人类眼球在自然状态下、不做大幅度扫视时能覆盖的焦点范围。
到了20世纪50年代。随着电视机走入千家万户,电影院遭遇了生存危机。为了将观众从客厅的小电视机前拉回银幕,电影工业做出的一个改变是——既然电视沿用了电影的4:3比例,那么电影就必须变得更宽。
1953年,二十世纪福克斯推出了CinemaScope技术,将画面比例拉伸至2.35:1。其核心逻辑是:既然视觉中心已经饱和,那就通过极宽的画幅去填充观众的“余光”,模拟一种身临其境的假象。
20世纪80年代,16:9逐渐成为高清电视的标准比例。但在实际演进中,这一比例的普及更多源于物理空间的制约:在现代建筑中,由于层高限制,厂商很难通过增加屏幕高度来提升面积,而向两侧水平扩张(做宽)则成本更低且更易实现。16:9以及随后出现的21:9比例,其实是对视觉习惯的强制重塑。
这就导致了一个颇为尴尬的情况:人类的生理视野倾向于椭圆甚至更接近圆形的方块,但我们却被安置在了一个极其窄长的视觉环境中,在16:9的宽屏上,我们的眼球不得不进行更高频的横向运动(扫视)来捕捉边缘信息,而内容生产的节奏还在不断加快。
/04/
为什么说《甄嬛传》=《EVA》=《哈姆雷特》?
在屏幕比例不断横向扩张的同时,视听载体所承载的内容结构,其实早已完成了一套高度标准化的演进。
在影视与内容行业,存在一套名为“救猫咪(Save the Cat)”的精密叙事模版。
这是一套精准的叙事公式:主角何时登场、何时陷入危机、何时获得救赎,都有着极为明确的时间节点。如果剥离掉表层的艺术包装,甚至可以说无论是《甄嬛传》、《新世纪福音战士》还是《哈姆雷特》,其底层的故事节拍都是一致的。
对于内容工业而言,这套“节拍器”就是生产效率的保证。它证明了大多数成功的叙事并不是随机的创作,而是对人类心理刺激点的精准踩点。
但正因为这种“节拍器”,AIGC的出现才能让内容创作的速度产生指数级增长。
从Sora的惊艳问世开始,到后续可灵、Runway等视频模型的跟进,再到今年开年Seedance2.0横空出世,如何用AI生成视频成为几乎所有专业内容创作者的必修课。
好莱坞导演Charles Curran在实测后公开表示,仅用20分钟、花费数十美元便完成电影级预告片制作,Seedance 2.0具备颠覆传统影视工业的潜力,或将重构好莱坞创作流程与成本结构。
随着AI视频模型技术的不断进步,执行“节拍器”的门槛只会越来越低,把这种节拍器运用到极致的就是短剧。
在短剧中,传统的分钟级节拍被进一步压缩到了秒级。为了在极短的注意力时间中留住观众,创作者被迫在极小的视觉空间内堆砌最高强度的刺激——每一集只有一两分钟,每一个转折都要精准地卡在节点上。
这样高度浓缩、高频反转的内容形态,正在让“宽大的视觉背景”失去原本的存在理由。
在16:9甚至更宽的屏幕比例中,画面的两侧通常被用来放置环境细节、建筑构图或远景氛围,这些信息在传统的慢节奏叙事中负责营造“氛围感”。然而,当叙事变成了“短剧式节拍”时,观众的视觉焦点会极其稳固地锁定在画面中心的冲突点上。
对于接收端而言,那些为了填充余光而存在的宽大背景就会显得冗余,如《黄金三镖客》一般依赖“氛围铺陈”的旧模式,正被更直接、更节能的视觉焦点所取代。
这也预示着,视听载体即将完成一次跨越百年的轮回——从宽大的物理占领,重新回归到那个最适配焦点视野的“方”中。
/05/
重塑感官体验的四种途径
视听逻辑向“方”的回归不仅是比例的变化,更是全感官接管趋势的序幕。基于此,我们大可以畅想一下未来:技术路线和消费硬件的形态会如何发展?更重要的是,其中的创业、投资机会在哪里?
一、要建立情感的“直接信赖”
沉浸感的终点不在于单纯的平面像素堆砌,而在于建立生理层面的“直接信赖”。视觉虽然占据70%的带宽,但其虚假性极易被大脑识别;相比之下,空间音频带来的“在场感”会让用户体验得到跃升。
以最新几代iPhone普及的空间音频功能为例,它允许用户在后期编辑时自由选择声音是跟随镜头、环境还是画外。这种功能模拟了真实的物理声场。包括新一代耳机也加入了立体声。
正如办公室门口突然响起的一声猫叫,即便刺激强度极低,但它的空间位置感会直接建立感官上的“直接信赖”。这种沉浸感是单纯的平面像素堆砌无法提供的。
二、先全量采集,后按需定义
先采集尽可能全面的数据、后在AI的辅助下按需定义,可能是产出内容的高效途径。
首先是传感器发生的变化,过去我们追求传感器的极高利用率,但现在半导体已经足够便宜,允许一部分挥霍。比如iPhone 17前置摄像头和大疆都使用了定制方形传感器,insta360则是使用了圆形的成像圈。这些都能兼容横竖屏需求,让用户彻底摆脱拍摄方向的束缚,实现全量采集。
零零科技则是在采集方式上做出创新。这是一款能够实现自主飞行的相机,只要按一下,就能自行飞出去录制视频,再飞回来,飞行相机有不同的模式,比如自动跟随、骑行、滑雪等等。
这种类型的硬件就不再强求拍摄者去对准某个比例,而是全量记录空间,由AI在后期自动提纯出最适配焦点视野的内容。
三、体感反馈
在视觉(70%)和听觉(20%)被卷到极限后,只要脑机接口还未到来,剩下10%的“体感带宽”就仍有机会。
专业影院的高端功能(如3D影像、全景声)都在逐步下放到家庭,如Lazy Boy加装震动电机、风感反馈等物理装置等等。
四、重构“内容叙事”的能力
当硬件完成了“全量采集”,AI的核心任务便转变为对信息的“提纯”与“升维”。这种转变不仅是为了提高生产效率,更是作为人类感知的延伸,带我们进入此前受限于物理生理、无法触达的视觉维度。
时间维度:人类视网膜存在天然的生理限制,极高速的运动往往只是模糊的残影。而清智元视(Pixboom)通过AI计算成像与光学编码技术,拓宽人类对“瞬间”的感知维度,比如子弹穿过物体,或者水滴溅落的样子。
空间维度:传统影像是在记录世界的“截面”。但越来越多的公司在试图给用户“全维度采集”的能力。比如大疆与Insta360分别是从高度与全向角度拓宽了记录边界。
零零科技则通过自主飞行的相机,做到跟随拍摄。竹马创新进一步利用3D高斯泼溅(3DGS)技术,将这些记录从2D平面拉入3D空间。这意味着看照片的角度不再受限于拍摄瞬间,而是“进入世界”。
星空维度:天文摄影是个较为小众的领域,拍摄难度高,周期长,但也有创业公司瞄准这个领域。指数星空是一款智能星空摄影装备,通过基于芯片层的硬件创新,结合AI技术对拍摄体验进行升级,简化繁琐的寻星、导星、拍摄及修图的流程。
结语:
视听工业的一百年,是一个从“方的起点”出发,经历“横向扩张”的膨胀,最终在信息过载时代重新回归“方正”的轮回。
“方”不是一种复古,而是感官采集效率与硬件利用率达成共识后的形态。从最新的三折叠屏到Vision Pro,硬件的终点是彻底摆脱物理边框的束缚,回归到人眼最舒适的焦点区域。技术演进到最后,其目的不再是霸占物理空间,而是为了更精准地拨动那根名为“共鸣”的神经。
