AI技术快速发展引发人类注意力争夺战，屏幕形态正回归方形以适配人类生理本能，这是视听工业应对信息过载的必然选择。 ## 1. 人类视觉的生理局限与信息过滤机制 - 视觉占人类感官信息接收量的70%，但大脑会主动过滤冗余信息，仅保留核心"感受"（如情绪记忆）。 - 信息爆炸时代，内容需在秒级内抓住注意力，否则会被判定为垃圾信息。关键数据：视神经纤维120万根，听觉仅3万根（1964 NASA报告）。 ## 2. 屏幕形态百年演进：从方到宽再回归方 - 早期4:3比例（1.33:1）最接近人眼自然焦点范围，1950年代电影为对抗电视改用2.35:1宽屏。 - 现代屏幕向方形回归（如折叠屏iPhone展开后1.4:1，Vision Pro单眼1.21:1），因方形更匹配人类双眼视野的椭圆焦点区域。 ## 3. 内容生产标准化与AI颠覆效应 - "救猫咪节拍"公式使《甄嬛传》《EVA》等作品底层叙事结构趋同，AI视频工具（如Seedance2.0）可20分钟生成电影预告片。 - 短剧时代压缩叙事节奏至秒级，宽屏的"氛围背景"变得冗余，强化了方形屏幕的适配优势。 ## 4. 未来感官体验的四大方向 - **空间音频**：iPhone空间音频模拟物理声场，建立"直接信赖"感。 - **全量采集技术**：Insta360圆形传感器、零零科技飞行相机实现无方向束缚拍摄。 - **体感反馈**：震动电机、风感装置开发剩余10%感官带宽。 - **AI提纯能力**：如清智元视拓宽瞬间感知，3D高斯泼溅技术突破2D平面限制。关键结论：方形屏幕是采集效率与生理本能的平衡点，技术终将回归对人眼焦点区域的精准适配。

2026-03-12 21:28

AI时代，人类很慌，屏幕很方

峰小瑞

本文来自微信公众号：峰瑞资本，作者：李罡

我们正处于一个AI热点多到窒息的时代。

从Open AI开启大语言模型时代开始，到足以以假乱真的AI生成视频，Sora的余温尚在，Seedance2.0就给业界带来新的冲击，更不用说最近红透的小龙虾Open Claw。AI技术几乎在以周为单位迭代，我们害怕错过任何一个热点，更害怕一旦错过热点就会被时代抛下。

然而，剥开所有这些炫酷技术的内核，你会发现它们最终指向的都是同一场战争——人类注意力的争夺战。

作为承载信息最核心的终端，屏幕的形态演进是这场战争的直观缩影。从工业时代追求横向扩张，到智能手机初期为了握持感而不断变窄、变长，演化出各种“遥控器”或“带鱼屏”；而现在，它们正不约而同地收缩到一个稳固的形态——方。

比如苹果或将问世的首款折叠屏iPhone，为了解决传统折叠屏“内屏过窄”的痛点，选择了“阔折叠”方案。其展开后的7.8英寸内屏不再是细长的长方形，而是一块长宽比约为1.4:1的宽大屏幕。

除了手机之外，其他领域也是如此，比如IMAX银幕的比例是1.43：1，Apple Vision Pro 2的单眼显示比例保持在约1.21:1。

这种向正方形回归的趋势并非某种文艺复兴，而是视听工业经历了一百年“横向扩张”后，面对信息过载做出的技术必然选择。

其实正方形或许比任何宽屏都更适配人类的生理本能。

高德曼视野图谱。中间的白色部分对应“双眼能一起看到的视野”，带纹理部分对应“一只眼睛能看到但另一只看不到的周边区域”。

图源：1964 NASA report,Bioastronautics Data Book。

如图所示，人类双眼能一起看到的视野，本就倾向于更接近圆形的方块，而在AIGC让内容生成的成本无限趋近于零，内容供给指数级增长的当下，相比宽屏，正方形屏幕更能抓住用户日渐萎缩的注意力，因为后者能以更高的采集效率，将信息精准地投射在人眼的焦点区域。

在这份行研报告《技术驱动感官革命》中，我们将从人类的生理局限与视听工业的演进史说起，拆解为什么正方形可能是屏幕进化的终点，而基于这个观点，未来的技术演变与创业方向又会如何改变？

我们将在本文回答如下问题：

在注意力门槛萎缩至秒级的今天，如何对抗信息过载？
16:9比例的普及，是需求还是妥协？
为什么说《甄嬛传》与《EVA》底层逻辑相同？
AIGC如何利用“救猫咪节拍”将内容生产成本降至零？
为什么说短剧时代下，宽屏反而成为了阻碍？
从IMAX到三折叠屏，为什么屏幕向“方形”回归？

我们持续关注AI在视听领域的发展，如果你是相关创业者或者从业者，欢迎联系本文作者李罡（lig@freesvc.com）。

你觉得视听的载体会变成怎样的？欢迎你在评论区和我们聊聊你的看法。截止至2026年13月19日17:00，留言最走心的1位读者将获得《世界电影史》一书。

过往行研目录：

展望2026，AI行业有哪些创新机会？|峰瑞报告

“人造太阳”有多难？揭秘可控核聚变的核心技术和创业机会|峰瑞报告

接棒手机，智能可穿戴正在成为消费电子赛道新引擎|峰瑞研究所

/01/

人类的“Token留存”机制

在探讨视听载体百年以来的演进逻辑之前，必须首先直面一个生理事实：虽然显示技术以摩尔定律的速度狂奔，但人类负责接收信息的眼睛，却在万年进化中都并未发生实质性的升级。

一、视觉是人类接收外界信息最重要的渠道，没有之一。

从解剖学数据来看，人类视神经包含约120万根神经纤维，而负责听觉的耳蜗神经仅包含约3万根。

如果将人类感官信息的接收总量设为100%，视觉通道占据了约70%的权重，听觉约占20%，剩下的10%则由嗅觉、味觉、触觉以及肢体平衡感等瓜分。

这意味着，我们对世界的认知，绝大部分是建立在视觉信号的输入之上的。

二、大脑面对刺激需要防过载。

虽然视觉带宽极其宽广，但这并不等同于人脑的处理能力是无限的。人类对新鲜感和探索欲的追求建立在对神经系统的持续刺激之上，这种刺激存在生理阈值。如果外部信息无节制地输入，大脑极易进入过劳状态。

为了自我保护，我们形成了一套高度精简的信息过滤与留存机制：面对海量的视听输入，我们最终保留下来的往往并不是某个具体的、像素级的画面，而是一种核心“感受”。

比如你上学时某次考试取得了满分，多年后，你可能早已记不清试卷上的具体考题，甚至记不清那是哪一门课，但却能清晰地回想起那一刻的成就感。借用大模型时代的概念，这本就是“将海量的冗余信息提纯成少量的Token”。

我们如此擅长将庞杂的信息简化处理，却一头撞进了一个信息供给侧极度膨胀的时代。这意味着，如果内容无法在短时间内抓住注意力，就会被大脑直接判定为“垃圾信息”。

/02/

一场关于注意力的百年“战争”

视听历史的演进，本质上也是创作者对人类感官通道的不断争取。而若追溯到技术尚未爆发的早期，你会发现所有的载体都是“方”且“聚焦”的。

一、从静止到动态：壁画——话剧。

最早的图像记录可以追溯到远古壁画，无论是画笔还是勾勒，人类总在寻找记录美的借口。

而当壁画“动”起来后，就变成了话剧。话剧的视觉焦点其实也是固定的，在方正的中心舞台上。在这个阶段，没有镜头推拉，没有蒙太奇，创作者通过演员在画框中心的走位来牵引观众的视线。

二、无声到有声：动作与氛围的接管。

19世纪末，电影诞生，此时的电影大师们本质上是在做“话剧的录影“，我们可以回看早期的电影作品，比如1936年的《摩登时代》，在无声黑白的4:3框架内，由于缺乏色彩和声音，创作者被迫通过极度夸张的动作调度和表情来维持观众的注意力。在这种极致的方构图里，每一个细微的动作都被放大了。

而随着音轨的增加，创作者开始挖掘声音对氛围的营造能力。

1966年的《黄金三镖客》展示了声音是如何在视觉失效时接管的。在这个电影片段中，镜头推演极其缓慢，几乎没有实质性的叙事推进。如果只看画面，现代观众的视觉在最初的7秒钟后便会因为“信息密度过低”而试图逃离。

然而，恩尼奥·莫里康内的标志性配乐及时接管。剑拔弩张的环境音、悠远又带有杀气的旋律，在视觉无聊时，通过听觉通道在脑海中建立了极强的沉浸感。多年后，你可能记不清那些角色的脸，但那段配乐会瞬间带你回到这西部地带。

三、黑白到彩色、实拍到动画：想象力的控制权

1968年，黑白画面变成了彩色。

在《2001太空漫游》中，库布里克利用色彩极大扩展了人类的想象边际。彩色影像不仅是视觉的升级，更是信息输入效率的极大提升。不同的色彩组合代表了不同的情感倾向和环境信息，使信息输入更加高密度。

此后，动画开始出现，相比于实拍电影中不可控的自然环境，动画代表了人类对视听主权的深度接管，每个帧、光影与构图都是确定的。

比如《浪浪山的小妖怪》，尽管它没有昂贵的特效，却十分动人，这是因为它的色彩和精妙的叙事节奏锁定了大众的情感。

这种从“记录现实”向“人工生成”的转变，实质上为AIGC时代的内容创作预留了逻辑伏笔。

/03/

如果“方”是答案，为什么百年来屏幕变得越来越宽？

既然“方”是生理的最优解，为什么屏幕在过去五十年里会越变越窄长？这背后是一场行业利益与物理现实的拉扯。

19世纪末，托马斯·爱迪生实验室在开发35mm胶片时，确立了4:3（即1.33:1）的画面比例。这个比例并非随意拍板，它最接近人类眼球在自然状态下、不做大幅度扫视时能覆盖的焦点范围。

到了20世纪50年代。随着电视机走入千家万户，电影院遭遇了生存危机。为了将观众从客厅的小电视机前拉回银幕，电影工业做出的一个改变是——既然电视沿用了电影的4:3比例，那么电影就必须变得更宽。

1953年，二十世纪福克斯推出了CinemaScope技术，将画面比例拉伸至2.35:1。其核心逻辑是：既然视觉中心已经饱和，那就通过极宽的画幅去填充观众的“余光”，模拟一种身临其境的假象。

20世纪80年代，16:9逐渐成为高清电视的标准比例。但在实际演进中，这一比例的普及更多源于物理空间的制约：在现代建筑中，由于层高限制，厂商很难通过增加屏幕高度来提升面积，而向两侧水平扩张（做宽）则成本更低且更易实现。16:9以及随后出现的21:9比例，其实是对视觉习惯的强制重塑。

这就导致了一个颇为尴尬的情况：人类的生理视野倾向于椭圆甚至更接近圆形的方块，但我们却被安置在了一个极其窄长的视觉环境中，在16:9的宽屏上，我们的眼球不得不进行更高频的横向运动（扫视）来捕捉边缘信息，而内容生产的节奏还在不断加快。

/04/

为什么说《甄嬛传》=《EVA》=《哈姆雷特》？

在屏幕比例不断横向扩张的同时，视听载体所承载的内容结构，其实早已完成了一套高度标准化的演进。

在影视与内容行业，存在一套名为“救猫咪（Save the Cat）”的精密叙事模版。

这是一套精准的叙事公式：主角何时登场、何时陷入危机、何时获得救赎，都有着极为明确的时间节点。如果剥离掉表层的艺术包装，甚至可以说无论是《甄嬛传》、《新世纪福音战士》还是《哈姆雷特》，其底层的故事节拍都是一致的。

对于内容工业而言，这套“节拍器”就是生产效率的保证。它证明了大多数成功的叙事并不是随机的创作，而是对人类心理刺激点的精准踩点。

但正因为这种“节拍器”，AIGC的出现才能让内容创作的速度产生指数级增长。

从Sora的惊艳问世开始，到后续可灵、Runway等视频模型的跟进，再到今年开年Seedance2.0横空出世，如何用AI生成视频成为几乎所有专业内容创作者的必修课。

好莱坞导演Charles Curran在实测后公开表示，仅用20分钟、花费数十美元便完成电影级预告片制作，Seedance 2.0具备颠覆传统影视工业的潜力，或将重构好莱坞创作流程与成本结构。

随着AI视频模型技术的不断进步，执行“节拍器”的门槛只会越来越低，把这种节拍器运用到极致的就是短剧。

在短剧中，传统的分钟级节拍被进一步压缩到了秒级。为了在极短的注意力时间中留住观众，创作者被迫在极小的视觉空间内堆砌最高强度的刺激——每一集只有一两分钟，每一个转折都要精准地卡在节点上。

这样高度浓缩、高频反转的内容形态，正在让“宽大的视觉背景”失去原本的存在理由。

在16:9甚至更宽的屏幕比例中，画面的两侧通常被用来放置环境细节、建筑构图或远景氛围，这些信息在传统的慢节奏叙事中负责营造“氛围感”。然而，当叙事变成了“短剧式节拍”时，观众的视觉焦点会极其稳固地锁定在画面中心的冲突点上。

对于接收端而言，那些为了填充余光而存在的宽大背景就会显得冗余，如《黄金三镖客》一般依赖“氛围铺陈”的旧模式，正被更直接、更节能的视觉焦点所取代。

这也预示着，视听载体即将完成一次跨越百年的轮回——从宽大的物理占领，重新回归到那个最适配焦点视野的“方”中。

/05/

重塑感官体验的四种途径

视听逻辑向“方”的回归不仅是比例的变化，更是全感官接管趋势的序幕。基于此，我们大可以畅想一下未来：技术路线和消费硬件的形态会如何发展？更重要的是，其中的创业、投资机会在哪里？

一、要建立情感的“直接信赖”

沉浸感的终点不在于单纯的平面像素堆砌，而在于建立生理层面的“直接信赖”。视觉虽然占据70%的带宽，但其虚假性极易被大脑识别；相比之下，空间音频带来的“在场感”会让用户体验得到跃升。

以最新几代iPhone普及的空间音频功能为例，它允许用户在后期编辑时自由选择声音是跟随镜头、环境还是画外。这种功能模拟了真实的物理声场。包括新一代耳机也加入了立体声。

正如办公室门口突然响起的一声猫叫，即便刺激强度极低，但它的空间位置感会直接建立感官上的“直接信赖”。这种沉浸感是单纯的平面像素堆砌无法提供的。

二、先全量采集，后按需定义

先采集尽可能全面的数据、后在AI的辅助下按需定义，可能是产出内容的高效途径。

首先是传感器发生的变化，过去我们追求传感器的极高利用率，但现在半导体已经足够便宜，允许一部分挥霍。比如iPhone 17前置摄像头和大疆都使用了定制方形传感器，insta360则是使用了圆形的成像圈。这些都能兼容横竖屏需求，让用户彻底摆脱拍摄方向的束缚，实现全量采集。

零零科技则是在采集方式上做出创新。这是一款能够实现自主飞行的相机，只要按一下，就能自行飞出去录制视频，再飞回来，飞行相机有不同的模式，比如自动跟随、骑行、滑雪等等。

这种类型的硬件就不再强求拍摄者去对准某个比例，而是全量记录空间，由AI在后期自动提纯出最适配焦点视野的内容。

三、体感反馈

在视觉（70%）和听觉（20%）被卷到极限后，只要脑机接口还未到来，剩下10%的“体感带宽”就仍有机会。

专业影院的高端功能（如3D影像、全景声）都在逐步下放到家庭，如Lazy Boy加装震动电机、风感反馈等物理装置等等。

四、重构“内容叙事”的能力

当硬件完成了“全量采集”，AI的核心任务便转变为对信息的“提纯”与“升维”。这种转变不仅是为了提高生产效率，更是作为人类感知的延伸，带我们进入此前受限于物理生理、无法触达的视觉维度。

时间维度：人类视网膜存在天然的生理限制，极高速的运动往往只是模糊的残影。而清智元视(Pixboom)通过AI计算成像与光学编码技术，拓宽人类对“瞬间”的感知维度，比如子弹穿过物体，或者水滴溅落的样子。

空间维度：传统影像是在记录世界的“截面”。但越来越多的公司在试图给用户“全维度采集”的能力。比如大疆与Insta360分别是从高度与全向角度拓宽了记录边界。

零零科技则通过自主飞行的相机，做到跟随拍摄。竹马创新进一步利用3D高斯泼溅（3DGS）技术，将这些记录从2D平面拉入3D空间。这意味着看照片的角度不再受限于拍摄瞬间，而是“进入世界”。

星空维度：天文摄影是个较为小众的领域，拍摄难度高，周期长，但也有创业公司瞄准这个领域。指数星空是一款智能星空摄影装备，通过基于芯片层的硬件创新，结合AI技术对拍摄体验进行升级，简化繁琐的寻星、导星、拍摄及修图的流程。

结语：

视听工业的一百年，是一个从“方的起点”出发，经历“横向扩张”的膨胀，最终在信息过载时代重新回归“方正”的轮回。

“方”不是一种复古，而是感官采集效率与硬件利用率达成共识后的形态。从最新的三折叠屏到Vision Pro，硬件的终点是彻底摆脱物理边框的束缚，回归到人眼最舒适的焦点区域。技术演进到最后，其目的不再是霸占物理空间，而是为了更精准地拨动那根名为“共鸣”的神经。

AI原生产品日报频道: 前沿科技

峰小瑞

做正确而非容易的事

认证作者

已在虎嗅发表 106 篇文章

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP

赞赏

支持一下修改

确定