大数据的荣耀

大数据的荣耀

今年 TED 大会第一天快结束时,低调的策展人克里斯·安德森 (Chris Anderson) 登台发表讲话。“我们看到的一些东西的计算能力确实令人吃惊,”他说。“我觉得事情突然以一种意想不到的方式上升到了一个水平。我们已经习惯了摩尔定律。我们习惯了事情变得越来越好。然后几年后,突然感觉好像——哇!——出现了阶跃变化。”

TED 是科技、娱乐、设计的缩写,当时它只是极客天才和风险投资家的专属会议。如今,网上有超过 1,000 场 TED 演讲可供免费观看,观看次数已达 3 亿次,这三个首字母的意义已不如会议口号“值得传播的思想”所表达的精神。无论如何,TED 从未将演讲者聚集在一起来支持某种预先定义的“趋势”。

预计 2011 年可用数据量将继续呈指数增长趋势,达到 1.8 ZB。(1 ZB 等于 1 万亿 GB;即 1 后面跟着 21 个零。)我想这也是 Chris 对自己的说法感到如此惊讶和高兴的原因。我们刚刚听取了 Mattias Astrom 的介绍,他的公司以极其忠实的三维渲染图形式对世界城市及其每座建筑进行数字地图绘制。此后,数字艺术家 Aaron Koblin 介绍了他如何将海量数据集可视化(例如,追踪北美的每一次航班,然后按时间、飞机类型、高度等细分数据,并将其全部呈现在可连续播放的渲染图中,既具有启发性又美观)。Koblin 专门从事众包项目,例如由数千名陌生人逐帧绘制的 Johnny Cash 音乐视频。其细节水平令人叹为观止;一位粉丝在一副画上挥洒了 31,000 笔。由于这是数字空间,每一幅画的创作都在网上记录和编目,因此您可以看到每一笔,就像每个艺术家画的一样。

但直到第二天早上,我们才真正明白克里斯的意思。就在那时,麻省理工学院媒体实验室认知机器小组负责人德布·罗伊 (Deb Roy) 登台向我们介绍了一部终极家庭电影,这是一部 240,000 小时的视频和音频,涵盖了从新生儿从医院回家的那一刻起,他儿子与罗伊家中任何人的几乎所有互动。这提供了一幅完整的 1:1 比例地图,展示了这个男孩如何学习,尤其是他如何学会说话——如何在抽象、语言和数据的世界里导航。使用超过 200 TB 的原始数据集(是 2000 年国会图书馆完整印刷品收藏的 20 多倍),罗伊可以准确地追踪他儿子最终说出的每一个词的体验,并且他得出了一些关于语言习得的有趣见解。

罗伊还表明,他开发的用于存储和分析儿童言语课程的方法可以得到更广泛的应用,而且他已经开始这样做了。特别是,他将其广泛的计算眼光转向了社交媒体领域,例如,实时观察总统声明及其所有不断增加的影响、推文、转发、缩写、扭曲和反驳,并在此过程中绘制出大型社交网络及其演变的详细地图。

我们可用的数据量越来越大。2010 年,我们在 1.2 ZB 的数据中玩耍、游泳、打滚和溺毙,而 2011 年,数据量预计将继续呈指数增长,达到 1.8 ZB。(1 ZB 等于 1 万亿 GB;即 1 后面跟 21 个零。)我从 IDC Digital Universe 研究中摘取了这些数字,该研究指出,如果你想将所有数据存储在 32 GB 的 iPad 硬盘上,那么需要 575 亿台设备——足以竖起一堵 61 英尺高、4,005 英里长的墙,从迈阿密一直延伸到安克雷奇。

在这堵巨大的墙的一小部分,谷歌正在努力对 1500 年以来出版的词汇进行尽可能全面的普查。谷歌已经收集了足够的数据——来自 500 多万本书的约 5000 亿个单词——足以令人信服地宣称一门新科学——文化组学已经诞生。最终,每个单词和短语的创造、演变和衰落都可以追溯到几个世纪以前。使用谷歌方便的 Ngram Viewer,我们已经可以观察到 1960 年后“sex”一词的爆炸式增长。或者看看伦勃朗的引用量逐渐增长,在 1940 年超过了塞尚,而不到十年后,毕加索就超过了他们两个。这些不是从几本名著中煞费苦心地得出的学术样本和推论;而是对单词或短语的拼写和使用如何逐年变化的严格检查。

这就是范式转变,我在 TED 的演讲中一次又一次见证了它的成果:从数据采样和推断的世界转变为可以收集和分析给定领域内所有数据的世界。这就是大数据。

随着我们进入数字数据与生物融合的时代,大数据将变得越来越大。这种代码合成将抽象的数字世界带回到物理世界。我们当然对生命如何表达了解颇多——在四个 DNA 字母中、在 20 多个氨基酸中、在数千种蛋白质中。我们可以通过克隆复制生命。现在我们开始能够改写生命,不只是基因一个基因地改写,而是一次改写整个基因组。这就是在托尔斯泰的小说中插入一个单词或段落(生物技术所做的)和从头写整本书(合成生物学所做的)之间的区别。如果你写整本书,那么从根本上改变小说、种子、动物或人类器官的意义和结果要容易得多。

不管你如何创造或编程计算机,你都不会在第二天早上下楼发现一千台新计算机。生命密码则不同。我们走了很长一段路,很快就到达了这一点。十年前,仅仅读取一个生物体的整个生命密码就是处理大量数据的突破性成就。1999 年,基因测序仪一次只能读取几百个 DNA 碱基对,因此 Craig Venter 的人类基因组计划依赖于散弹枪测序:一遍又一遍地复制基因组的一部分。将它们分成随机片段。将它们输入基因测序仪。读取输出,然后使用计算机将每个序列与其他序列进行比较,寻找重叠。当你发现重叠时,开始构建整个基因组,就像建造一堵砖墙一样,一块砖一块砖地叠加。这是一个巧妙的技巧,但在此之前大多数人认为这是不可能的,因为它涉及惊人的计算。然而,文特尔和他的团队建造了世界上最强大的私人计算机之一(并成为马里兰州最大的电力用户之一),解决了这个问题。他们的方法现在已成为读取基​​因组的标准方法。

但与如今正在尝试的蛋白质-蛋白质相互作用建模相比,基因组测序是一项微不足道的计算工作。首先,你必须比较 20 种氨基酸,而不是 4 个 DNA 碱基对。而且由于蛋白质可以呈现比 DNA 链更多的形状,因此绘制它们每种组合的形状要复杂得多。今天的计算机几乎无法处理其中的一些变量。尽管摩尔定律取得了成就,但生命科学数据超出了所有当前计算机功能和存储的范围和能力。

换句话说,在这个从数字代码向数字+生命代码过渡的新时代,生成数据的能力超过了我们存储和处理数据的能力。事实上,生命代码的积累速度比摩尔定律快 50%;它至少每 12 个月翻一番。如果没有数据存储、传输和分析方面的非凡进步,在未来五年内我们可能根本无法跟上。

话又说回来,我们有充分的理由期待我们能实现必要的技术突破。因为大数据世界正在发生另一个绝对根本性的变化。当你将生命代码和数字代码结合在一起时,新兴的应用与单纯的数字代码有一个革命性的区别:这种软件可以构建自己的硬件。无论你如何创建或编程计算机,第二天早上你都不会下楼发现一千台新计算机。生命代码则不同。2008 年,三位科学家——文特尔、汉密尔顿·史密斯和约翰·格拉斯——和他们的同事从计算机中提取了一个基本基因序列,编程机器人从罐子中挑选出构成 DNA 的四种化学物质,并组装出世界上最大的有机分子。然后他们开发出将这种新分子插入细胞的技术。总之,他们编程了一个细胞,使之变成了一个不同的物种。有人称之为世界上第一个合成生命形式。它实际上是第一个完全可编程的生命形式。而且它可以繁殖。

可编程细胞平台就像计算机芯片。如果你能找到自己想要制造的东西的正确代码,它们最终可以被设计用来帮助创造或做任何事情。我是 Venter 衍生公司 Synthetic Genomics 的联合创始人和投资者,该公司正试图对藻类进行编程,使其生产汽油(与埃克森美孚合作)、从煤中提取天然气(与英国石油合作)、快速
疫苗原型(与诺华合作),以及培育生长更快的植物(与 Plenus 合作)。生命编程也可能解决如何存储庞大数据集的问题。所有数字数据都可以编码成生命形式,所有生命形式都可以编码成数字数据。理论上,这意味着你最终可以将每期《纽约时报》的所有文字和图像存储并复制到少数细菌的基因代码中。

2011 年 TED 大会上的大数据展示让我大吃一惊。但数字生命代码的新时代必将使当今最辉煌的数据成就相形见绌。

<<:  档案馆:电话

>>:  全球最神奇的十大数据库

推荐阅读

一艘汽车大小的宇宙飞船刚刚向太阳发射

艺术家对帕克太阳探测器接近太阳的印象图。NASA/约翰霍普金斯 APL/Steve Gribben ...

最好的打击式按摩器目前在亚马逊上享受五折优惠

天气正在变暖,这意味着是时候穿上跑鞋,开始跑步了。如果冬天打乱了你的训练计划,那么前几次跑步可能会让...

仅供参考:科莫多巨蜥真的会用充满细菌的咬伤杀死人吗?

根据生物学家沃尔特·奥芬伯格于 1981 年发表的一项 20 世纪 70 年代的观察性研究,我们长期...

“小狗”:彻底解析《大家的歌》中感人的故事!

《恋犬》:NHK 的经典动画及其魅力《小狗》是1967年在NHK教育电视台(现NHK E-Tele...

内华达山脉抗议活动导致 SpaceX 和波音太空出租车停产

内华达山脉公司 (SNC) 不会轻易倒下,而且看起来他们正在拖垮竞争对手。SpaceX 和波音公司都...

人工智能如何帮助新空军飞行员避免代价高昂的错误

3 月 2 日,美国海军将一架 F-35C 从海中拖出。这架价值 9,440 万美元的战机于 1 月...

神经科学家绘制了 10 种致幻药物对人类大脑的影响

大脑是人体最复杂的部分。为了让我们的大脑保持平稳运转,超过 100 种神经递质必须在白质和灰质的多个...

月亮正在颤抖(并且像葡萄干一样收缩)

月球看上去可能像一片干燥、死寂的荒原,但这块 45 亿年前的灰色岩石上发生的活动远比我们认为的要多。...

患有食物过敏的儿童更难感染新冠肺炎

新冠病毒大流行爆发两年半后,越来越多的证据表明,过敏症(曾被怀疑会使患者面临严重的 COVID-19...

中国下水两艘大型055型军舰

7 月 3 日,中国下水了两艘巨型“仁海”号 055 型导弹驱逐舰。加上一艘 25,000 吨的 ...

向摄像机捕捉到的最深栖息的鱼问好

一支来自澳大利亚和日本的科学家团队不需要超长的鱼竿就能捕获有史以来最深的鱼。只需要一台相机、一些鱼饵...

评价《小春日和》:轻松有趣的日常动漫

小春日和 - 小春日和 - 详细评论和推荐■ 公共媒体卵子■ 原创媒体漫画■ 发布日期2008年2月...

在国际空间站上,任何东西都不会被浪费,包括汗水和尿液

国际空间站上的宇航员刚刚在水循环利用方面取得了一个里程碑,这可能对扩大人类在太阳系的存在至关重要——...

世界秘密地依靠河马粪便运转

任何曾经在 Instagram 上搜索过著名河马菲奥娜 (Fiona) 动态的人都知道,有无数个理由...

全面回顾三丽鸥角色动画系列《鸭子佩克克》的游泳比赛和寻宝活动!

全面评论并推荐三丽鸥角色动画系列《鸭子佩克克的游泳比赛大闹天宫/鸭子佩克克的寻宝游戏!》 ■作品概要...