无法保存的数据,正在消失的历史
2019-12-26 19:54

无法保存的数据,正在消失的历史

本文来自微信公众号:放大灯(ID:guokr233),作者:普通酱,题图来自:视觉中国


“洛阳纸贵”。自2016年起,纸类产品,包括全新的纸浆与纸产品,以及废纸的回收价格都走出了过山车一样的折线图。


在“纸”这个传统知识载体上,折射出的全是新经济作用于社会所产生的一系列后果:电商等业务催生的包装需求、现代经济社会对环境提出的更高要求,清退落后产能与限制废弃纸张进口,都在无形中推升纸价。


废纸是可再生资源,而现代的知识与信息载体——例如硬盘——就没有这么好的待遇了。一方面,数据很脆弱,就在本文发布的12月26日下午,微信公众号后台崩溃,公众号们曾发布的信息,暂时与读者断开连接。


另一方面,数据还有点贵。数据的存储与使用都有看得见成本,有务实的公司打起了清空历史数据的主意。


今年10月,老牌互联网公司雅虎曾有一则新闻,标题已经很好地总结了新闻内容,大概是这个画风[1]


《雅虎宣布逐渐关闭“雅虎群组”网站,12月14日后删除所有上传内容》


新闻一出就惹了众怒。雅虎群组是雅虎公司在2001年推出的一个线上讨论社区,也是世界上最大的网络社区之一。(其运营者雅虎公司于2017年被美国电信行业巨头Verizon收购。)


根据NPR(美国公共广播电台)的报道[2],一些互联网历史研究者对删除数据的行为表示激烈反对,他们认为,雅虎群组保留了包括关于9·11事件在内的诸多历史讨论,是研究互联网早期历史的绝佳窗口。


在NPR的讨论者中,有一位致力于保存雅虎群组数据的非盈利组织的工作人员。无独有偶,在著名论坛Reddit上,也有用户开始为了保存雅虎群组数据开发各类工具[3]。但雅虎并不允许这样的事情发生——雅虎宣布封禁了上百个试图存档雅虎群组数据的账号,想保存数据?没门。


Verizon封禁了试图备份雅虎群组的账号 | 图:ZDNet     


这个事件的最新消息是,雅虎为个人数据延长了一个多月的“保质期”,让个人用户可以导出数据。想从更高维度审视这些自发形成、群力搭建的网络遗迹?不好意思,此路依然不通。


数据遗迹,谁来保护?


在人类的历史上,通常是大大小小的图书馆、博物馆承担“保存信息”这个重大任务,它们完成了知识的传承与文明的记录。而在过去的信息时代几十年里,人类创造了前所未有的信息财富,这些记录的载体,正是保存着数据的硬盘(当然,还有其它数据载体)


但,人类真的在好好记录这个时代吗?


BBC在今年4月发表的一篇评论曾提出这个问题[4]早期互联网历史存档内容为何如此之少?


他们找到了更多数据丢失的案例:同属电信巨头Verizon旗下的互联网门户“美国在线”(AOL),曾在2013年关闭旗下所有音乐网站,数百位撰稿人及数十位编辑的多年工作成果几乎全部消失。最后,作者悲观地认为,即使用户将照片发送到Facebook这样如日中天的平台上,也早晚有一天会像已被关闭的Google+一样失去所有内容。


早期互联网历史存档为何如此之少?| 图:BBC


史学研究者推崇王国维提出的“二重考据法”,追求“纸上之材料”与“地下之材料”的相互参证。在互联网时代,数据就是这“纸上之材料”。尊重数据的公司也是有的,它们正在致力于建设数据的图书馆。


成立于1996年的互联网档案馆(Internet Archives)致力于存档各个网站的网页,但即使已经成立三十多年,互联网档案馆依然缺席了互联网刚刚诞生的那五年,并且也不可能存档下整个互联网——更何况随着移动互联网诞生,如今的信息更多散落在封闭体系内,而不是可以公开访问、记录的网站页面了。


数据无法获取,存储也是难题。有一些公司正在试图把更多的数据更长久地保存下去。


在上个月,代码托管平台Github宣布[5],计划将包括Linux、Android在内的6000多个流行开源项目的源代码,以胶片形式存储并封存在北极地下250米的仓库里,预计这些数据可以保留上千年。另一方面,针对长期、低成本保存数据的需求,也有公司在积极开发相应的技术。例如微软最近宣布了一项在石英玻璃上用激光刻蚀存储数据的技术[6],声称可以在一片杯垫大小的玻璃上刻入一部电影母带的容量,可以保存数千年。


百年之后,历史数据属于谁?


保存数据,除了需要用情怀去覆盖成本以外,还有一个务虚的问题:用户产生的数据,在更长远的历史视角上,数据的所有权将归于谁?


对于仍然健在的公司来说,复杂的用户协议中往往对用户产生的数据做出了诸多免责规定,甚至将用户内容的所有权(著作权等)归于平台,并且不对数据的保存期限做出保证。而对于已经消失的公司,曾经的用户协议也已经和历史数据一样成了“故纸堆”。


在2015年的《纽约时报》的一则报道[7]调查了 99 个有英文服务条款或者隐私政策的网站,其中有 85 个网站称,它们可能会在合并、兼并、破产、资产出售或者其他交易发生时转移用户的信息。


我们可能已经对数据的产生与消失变得麻木——各类网盘、博客平台的关停屡见不鲜。而除了关停,还有更多的数据被雪藏,如百度贴吧,这个与雅虎群组类似的产品,同样记录着很多关于某些时刻的舆论史料,这些记录至今已无法追溯。


另外一个问题是,即使这些信息都可以追溯并保存上千年,但这些由用户贡献、显著带有个人特色及隐私的内容,能否进入公共领域,成为每个研究者都可以引述的对象?


在没有互联网的时代,传统的出版业部分解决了这个问题。我们至今还能看到大量的名人日记出版,有些名人,像清末的李慈铭和民国时代的胡适,甚至在生前就开始出版日记。这些内容也得益于公开出版而免于散佚。


但“名人日记”总归不同于平民百姓的朋友圈日常吐槽,在日益强调“隐私”和“权益”的今天,你在网上的发言,在几年、几十年甚至上百年后,被一记“洛阳铲”挖出来作为史料研究,还需要你来批准、同意与署名吗?


新一轮“文献灾难”的罪魁


中外历史上曾发生过无数次“文献灾难”。


亚历山大图书馆,这座可能是世界上最早的图书馆,其馆藏的无数古代典籍,数次毁于兵火;十字军东征期间,开罗、叙利亚图书馆的旧藏也遭统治者变卖充军饷;而在中国,古人将文献灭失事件称为“书厄”,意为“书籍遭遇的劫难”。从隋代的“五厄”到明代的“十厄”,再到近现代的“十五厄”,文献毁灭事件从未停止。


总结起来,人类历史上文献消失可分为如下几类因素:


一来是政治劫难,历代禁书活动也因内外交困不得不卖书求生的事件,从未停止;


二来是战争因素,每当内外战争或改朝换代,因为战争导致的图书被烧毁和劫掠事件不断。如鸦片战争期间,中国最早的私家藏书楼天一阁遭抢;清圆明园藏书楼文源阁,因英法联军入侵而遭毁;


三来是自然因素,一些条件良好的藏书楼,因为天火、水灾等自然因素而遭毁,如粤雅堂藏书在“十三行大火”中被毁;俄罗斯科学院社会科学信息研究所起火,导致所内图书馆被烧。


但互联网却显得更特殊:市场经济条件下,倘若无人愿花钱保存这些文献,我们也无法横加指责;有人以隐私之名拒绝公开资源,历史研究者们也只能望洋兴叹。


时代在进步,互联网向我们展示了技术是如何轻易打破信息不对称,但最终,技术也暴露出其难以克服的缺陷:它不能为我们保存更多历史,甚至给消灭历史带来更多便利。


下一轮“文献灾难”,可能离我们并不远。


相关报道:


[1] 雅虎宣布逐渐关闭群组网站,12月14日后删除所有上传内容,澎湃新闻,https://www.thepaper.cn/newsDetail_forward_4697895

[2] Internet Historians Mourn Loss Of Cultural Record As Yahoo Prepares To Delete Groups, NPR, https://www.npr.org/2019/12/09/786469397/internet-historians-mourn-loss-of-cultural-record-as-yahoo-deletes-group-archive

[3] Verizon kills email accounts of archivists trying to save Yahoo Groups history, ZDNet, https://www.zdnet.com/article/verizon-kills-email-accounts-of-archivists-trying-to-save-yahoo-groups-history/

[4] why there's so little left of the early internet, BBC, https://www.bbc.com/future/article/20190401-why-theres-so-little-left-of-the-early-internet

[5] GitHub 要把全球开源代码埋在北极,保存 1000 年,爱范儿,https://www.ifanr.com/1282927

[6] 微软将数据保存在玻璃中 可以安全地存储数千年,cnBeta,https://www.cnbeta.com/articles/tech/906909.htm

[7] When a Company Is Put Up for Sale, in Many Cases,Your Personal Data Is, Too, The New York Times, https://www.nytimes.com/2015/06/29/technology/when-a-company-goes-up-for-sale-in-many-cases-so-does-your-personal-data.html


本文来自微信公众号:放大灯(ID:guokr233),作者:普通酱

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定