今年 TED 大会第一天快结束时,低调的策展人克里斯·安德森 (Chris Anderson) 登台发表讲话。“我们看到的一些东西的计算能力确实令人吃惊,”他说。“我觉得事情突然以一种意想不到的方式上升到了一个水平。我们已经习惯了摩尔定律。我们习惯了事情变得越来越好。然后几年后,突然感觉好像——哇!——出现了阶跃变化。” TED 是科技、娱乐、设计的缩写,当时它只是极客天才和风险投资家的专属会议。如今,网上有超过 1,000 场 TED 演讲可供免费观看,观看次数已达 3 亿次,这三个首字母的意义已不如会议口号“值得传播的思想”所表达的精神。无论如何,TED 从未将演讲者聚集在一起来支持某种预先定义的“趋势”。 预计 2011 年可用数据量将继续呈指数增长趋势,达到 1.8 ZB。(1 ZB 等于 1 万亿 GB;即 1 后面跟着 21 个零。)我想这也是 Chris 对自己的说法感到如此惊讶和高兴的原因。我们刚刚听取了 Mattias Astrom 的介绍,他的公司以极其忠实的三维渲染图形式对世界城市及其每座建筑进行数字地图绘制。此后,数字艺术家 Aaron Koblin 介绍了他如何将海量数据集可视化(例如,追踪北美的每一次航班,然后按时间、飞机类型、高度等细分数据,并将其全部呈现在可连续播放的渲染图中,既具有启发性又美观)。Koblin 专门从事众包项目,例如由数千名陌生人逐帧绘制的 Johnny Cash 音乐视频。其细节水平令人叹为观止;一位粉丝在一副画上挥洒了 31,000 笔。由于这是数字空间,每一幅画的创作都在网上记录和编目,因此您可以看到每一笔,就像每个艺术家画的一样。 但直到第二天早上,我们才真正明白克里斯的意思。就在那时,麻省理工学院媒体实验室认知机器小组负责人德布·罗伊 (Deb Roy) 登台向我们介绍了一部终极家庭电影,这是一部 240,000 小时的视频和音频,涵盖了从新生儿从医院回家的那一刻起,他儿子与罗伊家中任何人的几乎所有互动。这提供了一幅完整的 1:1 比例地图,展示了这个男孩如何学习,尤其是他如何学会说话——如何在抽象、语言和数据的世界里导航。使用超过 200 TB 的原始数据集(是 2000 年国会图书馆完整印刷品收藏的 20 多倍),罗伊可以准确地追踪他儿子最终说出的每一个词的体验,并且他得出了一些关于语言习得的有趣见解。 罗伊还表明,他开发的用于存储和分析儿童言语课程的方法可以得到更广泛的应用,而且他已经开始这样做了。特别是,他将其广泛的计算眼光转向了社交媒体领域,例如,实时观察总统声明及其所有不断增加的影响、推文、转发、缩写、扭曲和反驳,并在此过程中绘制出大型社交网络及其演变的详细地图。 我们可用的数据量越来越大。2010 年,我们在 1.2 ZB 的数据中玩耍、游泳、打滚和溺毙,而 2011 年,数据量预计将继续呈指数增长,达到 1.8 ZB。(1 ZB 等于 1 万亿 GB;即 1 后面跟 21 个零。)我从 IDC Digital Universe 研究中摘取了这些数字,该研究指出,如果你想将所有数据存储在 32 GB 的 iPad 硬盘上,那么需要 575 亿台设备——足以竖起一堵 61 英尺高、4,005 英里长的墙,从迈阿密一直延伸到安克雷奇。 在这堵巨大的墙的一小部分,谷歌正在努力对 1500 年以来出版的词汇进行尽可能全面的普查。谷歌已经收集了足够的数据——来自 500 多万本书的约 5000 亿个单词——足以令人信服地宣称一门新科学——文化组学已经诞生。最终,每个单词和短语的创造、演变和衰落都可以追溯到几个世纪以前。使用谷歌方便的 Ngram Viewer,我们已经可以观察到 1960 年后“sex”一词的爆炸式增长。或者看看伦勃朗的引用量逐渐增长,在 1940 年超过了塞尚,而不到十年后,毕加索就超过了他们两个。这些不是从几本名著中煞费苦心地得出的学术样本和推论;而是对单词或短语的拼写和使用如何逐年变化的严格检查。 这就是范式转变,我在 TED 的演讲中一次又一次见证了它的成果:从数据采样和推断的世界转变为可以收集和分析给定领域内所有数据的世界。这就是大数据。 随着我们进入数字数据与生物融合的时代,大数据将变得越来越大。这种代码合成将抽象的数字世界带回到物理世界。我们当然对生命如何表达了解颇多——在四个 DNA 字母中、在 20 多个氨基酸中、在数千种蛋白质中。我们可以通过克隆复制生命。现在我们开始能够改写生命,不只是基因一个基因地改写,而是一次改写整个基因组。这就是在托尔斯泰的小说中插入一个单词或段落(生物技术所做的)和从头写整本书(合成生物学所做的)之间的区别。如果你写整本书,那么从根本上改变小说、种子、动物或人类器官的意义和结果要容易得多。 不管你如何创造或编程计算机,你都不会在第二天早上下楼发现一千台新计算机。生命密码则不同。我们走了很长一段路,很快就到达了这一点。十年前,仅仅读取一个生物体的整个生命密码就是处理大量数据的突破性成就。1999 年,基因测序仪一次只能读取几百个 DNA 碱基对,因此 Craig Venter 的人类基因组计划依赖于散弹枪测序:一遍又一遍地复制基因组的一部分。将它们分成随机片段。将它们输入基因测序仪。读取输出,然后使用计算机将每个序列与其他序列进行比较,寻找重叠。当你发现重叠时,开始构建整个基因组,就像建造一堵砖墙一样,一块砖一块砖地叠加。这是一个巧妙的技巧,但在此之前大多数人认为这是不可能的,因为它涉及惊人的计算。然而,文特尔和他的团队建造了世界上最强大的私人计算机之一(并成为马里兰州最大的电力用户之一),解决了这个问题。他们的方法现在已成为读取基因组的标准方法。 但与如今正在尝试的蛋白质-蛋白质相互作用建模相比,基因组测序是一项微不足道的计算工作。首先,你必须比较 20 种氨基酸,而不是 4 个 DNA 碱基对。而且由于蛋白质可以呈现比 DNA 链更多的形状,因此绘制它们每种组合的形状要复杂得多。今天的计算机几乎无法处理其中的一些变量。尽管摩尔定律取得了成就,但生命科学数据超出了所有当前计算机功能和存储的范围和能力。 换句话说,在这个从数字代码向数字+生命代码过渡的新时代,生成数据的能力超过了我们存储和处理数据的能力。事实上,生命代码的积累速度比摩尔定律快 50%;它至少每 12 个月翻一番。如果没有数据存储、传输和分析方面的非凡进步,在未来五年内我们可能根本无法跟上。 话又说回来,我们有充分的理由期待我们能实现必要的技术突破。因为大数据世界正在发生另一个绝对根本性的变化。当你将生命代码和数字代码结合在一起时,新兴的应用与单纯的数字代码有一个革命性的区别:这种软件可以构建自己的硬件。无论你如何创建或编程计算机,第二天早上你都不会下楼发现一千台新计算机。生命代码则不同。2008 年,三位科学家——文特尔、汉密尔顿·史密斯和约翰·格拉斯——和他们的同事从计算机中提取了一个基本基因序列,编程机器人从罐子中挑选出构成 DNA 的四种化学物质,并组装出世界上最大的有机分子。然后他们开发出将这种新分子插入细胞的技术。总之,他们编程了一个细胞,使之变成了一个不同的物种。有人称之为世界上第一个合成生命形式。它实际上是第一个完全可编程的生命形式。而且它可以繁殖。 可编程细胞平台就像计算机芯片。如果你能找到自己想要制造的东西的正确代码,它们最终可以被设计用来帮助创造或做任何事情。我是 Venter 衍生公司 Synthetic Genomics 的联合创始人和投资者,该公司正试图对藻类进行编程,使其生产汽油(与埃克森美孚合作)、从煤中提取天然气(与英国石油合作)、快速 2011 年 TED 大会上的大数据展示让我大吃一惊。但数字生命代码的新时代必将使当今最辉煌的数据成就相形见绌。 |
适应寒冷的气温是北极海豹生存的关键。这些适应性不仅体现在厚厚的鲸脂层上,还体现在鳍足类动物的鼻子上。...
到目前为止,您几乎肯定已经见过 Dall-E mini(又名 Craiyon)的超现实九面板艺术作品...
如果你想融入人群或避免不受欢迎的目光,穿上最闪亮的新年服装并在街上大摇大摆地走可能不太明智。但对于某...
这个故事是 PopularScience.com 有关能源未来的特别系列文章的一部分。维珍银河自豪地...
过去几年,已有数十个州决定将娱乐性大麻合法化。大麻(包括医用大麻和娱乐性大麻)在更多州是合法的,而非...
每年,由洛杉矶车展策划并为其举办的设计挑战赛都会要求汽车行业最先进的设计实验室推测汽车持续发展的未来...
谈到解决美国的阿片类药物危机,没有单一的解决方案。公共卫生官员已采取措施,通过减少阿片类药物处方数量...
《Zukkoke Trio:楠木宅邸的古鲁古鲁大人》——一场引人入胜的单集冒险1995年11月11日...
每年,大约有 3 万头非洲象因象牙被非法猎杀。2010 年至 2012 年间,有 10 万头大象被猎...
美国核管理委员会最近宣布批准了首款小型模块化反应堆 (SMR) 的设计。这可能预示着美国下一代发电厂...
如果地壳有一首主题曲,那很可能就是 Chumbawamba 90 年代的经典歌曲“Tubthumpi...
海洋是发生紧急情况的危险场所。当一艘船倾覆或一架飞机坠入大海时,人们只能依靠手头上的任何漂浮设备。然...
去年11月,美国宇航局果断实施了为期两年半的替换老化航天飞机的计划。它使该项目的核心被瓦解了。美国宇...
世界上最强大的粒子加速器大型强子对撞机 (LHC) 于 2012 年发现了人们长期寻找的希格斯玻色子...
野火的蔓延速度决定了其破坏力。每年美国荒野地区可能会发生多达 10 万起火灾,但其中只有一小部分会成...