136书屋 > 其他 > 大数据:正在到来的数据革命全文阅读 > 第10章 数据帝国的兴起(3)

第10章 数据帝国的兴起(3)


  这种微小的计算设备,就是传感器。近年来流行的物联网概念就是普适计算的最佳例子。

  对于传感器及其网络的最早研究,始于美国国防部一个军事项目的研究,后来技术日臻成熟,传感器的应用逐渐从军事领域扩大到民用领域。

  这可以追溯到 20世纪 60年代。

  1962年,一场代号为“圣灰星期三”(Ash Wednesday) 的风暴席卷了美国东海岸 600多英里的海岸线,这场风暴持续了 3天,影响了全美 6个州,最后造成了 40人死亡、 1000多人受伤,导致了几亿美元的经济损失,被后人评为 20世纪美国最严重的十大风暴之一。

  由于损失惨重,美国国会对救灾防灾工作召开了专门的听证会,最后促成了军民联手的“海浪监测计划”:美国陆军工程部和美国国家海洋与大气管理局( NOAA)共同建设一个传感器监测系统,对兴风作浪的海洋进行监测。

  这项计划的实施结果,是在全美海岸线和五大湖区建立了一个定点的、连续的、实时的传感器网络,对海浪的大小进行监控。受限于当时的技术,最早的传感器只能监测海浪的能量。从 2005年起,美国国家海洋与大气管理局在浮标上装备了更高端的传感器,开始监测海浪的方向。

  2009年,系统再次升级。该局开始着手建立一个覆盖全美海岸线、从浅水到深水的、精确的海浪监测网络。这个网络总共在近海、外大陆架、内大陆架和沿海设置了 296个传感器。新的传感器不仅能监测海浪的能量和方向,还能计算它的传播速度、偏度和峰度。18

  这些传感器以分秒为单位,将数据源源不断地实时传回到国家海洋数据中心(DODC)。

  对海浪的监测,不仅能提高沿海地区对海啸、风暴等自然灾害的应急能力,还能极大地改善海上的交通安全。根据美国疾病防控中心( CDC)的统计,捕鱼业是美国最危险的职业之一,全美所有行业的平均致死率为 0.004%,而捕鱼业的平均致死率高达 0.155%,其中 79%的死亡是天气变化的原因导致的。19

  除了安全,海浪的监测还能为利用大海能量进行发电提供关键的分析型数据。

  海浪监测只是联邦政府利用传感器网络自动采集数据、迈向普适计算的一个例子。事实上,由于无线传感器的快速发展,普适计算已经在美国的农业、运输、能源和建筑等领域逐步铺开。

  2011年 10月,联邦政府商务部下属的国家气象局( NWS)宣布,该局已经在全国 2000辆客运大巴上装备了传感器,随着巴士的移动,这些传感器可以收集沿途所有地点的温度、湿度、露水、光照度等数据,并立刻传回国家气象局的数据中心。数据采集是每 10秒钟一次,每天传感器要采集 10万次以上的数据。这些数据是实时的、高精度的,这意味着,天气预报将不再仅仅是“预”报,将逐渐走向“实”报、“精”报。

  此外,联邦政府国家邮政局( USPS)也宣布,他们正规划在全部邮车上安装传感器,在邮车投递邮件的同时,实时采集社区的空气质量、污染指数和噪声等数据指标。

  有评论家感叹道:谁也没想到,汽车,这个工业时代的标志和先锋,如今又成为信息时代普适计算的“排头兵”。

  近年来,传感器的发展可谓突飞猛进。一种新的无线传感器:射频识别标签( Radio Frequency Identification,RFID),正异军突起,也在美国联邦政府得到了大规模的应用。

  RFID精巧轻便,既可以薄如纸张,也可以小如豆粒,却能无线存储、发送、读写数据,目前的应用主要集中在身份标识领域。以农牧业为例, 1990年以来,全球各地陆续爆发动物疫情, 2003年 12月,美国发现了第一宗疯牛病病例。2004年起,联邦政府农业部启动了“全国动物身份识别系统”(National Animal Identification System)的项目,为全国的新生牲畜建档立户、配置射频识别耳标。通过这个移动传感器,对牲畜进行连续跟踪,一旦家畜疫情爆发,就能通过数据库追踪溯源,快速确定传染源和传播范围。美国现在已经装备射频识别耳标的家畜总数,无从得知,但可以肯定,这个数据库,也是海量级的。

  从 2005年起,美国食品与药品管理局( FDA)开始在药品上推行配备 RFID的做法,以打击假药。美国国务院也开始颁发带有 RFID标识的护照,以打击假护照,方便出入境的管理。

  美国联邦政府通过传感器自动采集数据的例子,正在大幅增加。如果仅仅从数据量上来看,通过传感器自动采集的数据,已经取代了人工收集的业务数据,成为其最大的数据来源。还可以肯定的是,随着人类向普适计算不断迈进,通过传感器自动采集的数据将持续“爆炸”。

  “大数据”战略:争夺全世界的下一个前沿

  联邦政府的每一个机构和部门,都需要制定一个应对“大数据”的战略。20 ——《规划数字化的未来:美国总统科学技术顾问委员会给总统和国会的报告》2010年业务工作的管理数据,民意社情的调查数据,以及对大自然、动植物的特点和变化进行监控而产生的环境数据,是联邦政府的三大数据来源。这三种数据,其发展各有先后,收集方式各不相同,数据量也大小不一。它们之间,存在着一些交叉和重叠,有一些民意调查的数据,是业务数据,而一些因环境监控产生的数据,也可以是业务工作的数据。由于无线传感器的快速普及,环境数据增长得最快,成为联邦政府数据量最大的来源。虽然环境数据增长得最快,但这三种数据,其实都在爆炸。这种爆炸,并不仅仅是数量一个维度的。2001年,著名的高德纳咨询公司(Gartner)在一份研究报告21中指出,数据的爆炸是“三维的”、是立体的,这三个维度,主要表现在以下三个方面:一是同一类型的数据量在快速增大;二是数据增长的速度在加快;三是数据的多样性,即新的数据来源和新的数据种类在不断增加。数据的爆炸性增长,也不仅仅限于联邦政府。如前文所述,2011年麦肯锡公司在其研究报告《大数据:下一个创新、竞争和生产率的前沿》中指出,在美国,仅仅制造行业就拥有比美国政府还多一倍的数据,此外,新闻业、银行业、医疗业、投资业、零售业都拥有可以和美国政府相提并论的海量数据。哈尔·范里安(Hal Varian)是谷歌的首席经济学家,也是美国研究信息经济学的著名学者。 2000年,他对数据和信息产生的速度进行了研究,他认为,人类社会每年产生的信息量,实在太大了,已经没办法用准确的方法来计算现有的数字信息总量,只能估算。他估计 2000年新产生的数据量为 1000拍到 2000拍。但到 2010年,仅仅全球企业一年新存储的数据量就超过了 7000拍,而全球消费者新存储的数据量约为 6000拍。

  这种数据量的增长,已经大大超出了人类的预期和想象。时至今日,数据已经像“洪流”一样,在全球的政治、经济生活当中奔腾。而且,随着信息技术的普及和进步,新的支流还在不断产生,各个支流流动、交汇和整合的速度,还在继续加快。

  作为美国社会的信息枢纽,联邦政府当然要正面迎对这个挑战。

  2010年 12月,总统行政办公室下属的科学技术顾问委员会( PCAST)、信息技术顾问委员会( PITAC)向奥巴马和国会提交了《规划数字化未来》的专门报告,该报告把数据收集和使用的工作,提到了战略的高度。

  这个报告列举了 5个贯穿各个科技领域的共同挑战,报告指出“每一个挑战都至关重要”,而第一个挑战就是“数据”问题。报告说:

  “如何收集、保存、维护、管理、分析、共享正在呈指数级增长的数据是我们必须面对的一个重要挑战。从网络摄像头、博客、天文望远镜到超级计算机的仿真,来自于不同渠道的数据以不同的形式如潮水一般向我们涌来。这些数据以不同的格式存储在不同的环境中,有的在计算机的硬盘里,有的在数据仓库之内。

  如何保证这些数据现在、将来的完整性和可用性,我们面临着很多的问题和挑战。如何使用这些数据,则是另外一个挑战……应对好这些挑战,将引导我们在科研、医疗、商业和国家安全方面开创新的成功。”

  在报告中,两个委员会还例举了美国癌症研究所以及中央情报局如何通过收集海量数据、建立数据仓库、实施以数据挖掘为核心的自动分析技术,获得了出人意料的创新和成功。

  委员会一致认为,如何有效地利用数据将贯穿所有科技领域的挑战。最后,两个委员会向奥巴马建议:联邦政府的每一个机构和部门,都需要制定一个“大数据”的战略。

  大数据(Big Data)

  大数据是指那些大小已经超出了传统意义上的尺度,一般的软件工具难以捕捉、存储、管理和分析的数据。

  但是,具体多大的数据才能称为“大”,并没有普遍适用的定义。一般认为,大数据的数量级应该是“太字节”(240)的。麦肯锡全球研究所认为,我们并不需要给“什么是大”定出一个具体的“尺寸”,因为随着技术的进步,这个尺寸本身还在不断地增大。此外,对于各个不同的领域,“大”的定义也是不同的,无需统一。

  其实,“大数据”这个名词并不新鲜,早在 1980年代,美国就有人提出了“大数据”的概念。 20多年来,各个领域的数据量都在迅猛增长,美国的企业界、学术界也不断地对这个现象及其意义进行探讨,“大数据”这个名词变得越来越流行、越来越重要,最后成为了国家和政府层面的发展战略。