136书屋 > 其他 > 大数据:正在到来的数据革命全文阅读 > 第8章 数据帝国的兴起(1)

第8章 数据帝国的兴起(1)


  数据正在呈指数级增长。之所以增长速度如此之快,背后有许多原因。现在几乎所有数据的产生形式,都是数字化的。各种传感器的剧增,高清晰度的图像和视频,都是数据爆炸的原因。如何收集、管理和分析数据正在日渐成为我们网络信息技术研究的重中之重。以机器学习 01、数据挖掘为基础的高级数据分析技术,将促进从数据到知识的转化、从知识到行动的跨越。联邦政府的每一个机构和部门,都需要制定一个应对“大数据”(Big Data)的战略。02

  ——《规划数字化的未来:美国总统科学技术顾问委员会给总统和国会的报告》

  2010年

  如果说《信息自由法》在法律的层面上规定了政府机关的文件可以公开,其后的《阳光政府法》规定政府机关的会议必须公开,《电子信息自由法》又规定了计算机内的数据也不能例外,那么奥巴马继续开拓的空间似乎已经不大了。

  他所谓的“要建设一个前所未有的开放政府”,究竟指的是什么呢?奥巴马是哈佛大学法学院的高才生,他在就读期间,就担任了久负盛名的

  《哈佛法律评论》的主编;博士毕业之后,曾在律师行从业多年,还长期在哥伦比亚大学讲授《宪法学》。严谨的科班训练加上律师实务生涯,他的逻辑思维是非常严密的。

  他用“前所未有”(unprecedented)来形容他将要开创的事业,是因为,他清楚地知道:透明无止尽。对政府而言,只有更透明,没有最透明。虽然联邦政府的文件、会议甚至数据都规定了可以公开,但近年来信息技术突飞猛进的发展,特别是互联网的兴起,不仅给信息公开的内容、也给公开的方式带来了新的机遇和挑战。

  这是个技术奔腾、信息爆炸的时代。奥巴马领导的联邦政府,正是美国社会的信息中枢。他的雄心,有广袤的用武空间。

  摩尔定律:全世界半个世纪的发展规律

  摩尔定律已经成为工业界一切呈指数型增长事物的代名词。……下一个十年,摩尔定律可能还将有效……可以肯定的是,创新无止境。03

  ——戈登·摩尔,英特尔公司创始人,2003年

  联邦政府是美国最大的雇主,共雇用了约 200万名工作人员。 04

  联邦政府主要由三大块组成:一是总统行政办公室( The Executive Office of the President),二是 15个内阁部门( Cabinet Department),三是 70多个独立的联邦机构(Independent Agency)。

  数据和信息的区别

  很多情况下,“数据” 和“信息”两个词经常替换使用。但严格地说,数据和信息这两个概念有很大的区别:

  数据是对信息数字化的记录,其本身并无意义;信息是指把数据放置到一定的背景下,对数字进行解释、赋予意义。

  例如:“1.85”是个数据,“奥巴马身高1.85米”则是一则信息。

  但进入信息时代之后,人们趋向把所有存储在计算机上的信息,无论是数字还是音乐、视频,都统称为数据。

  总统行政办公室是直接为总统服务的中枢部门。

  其下辖白宫办公厅 (The White House Office)、行政管理预算局 (OMB)、经济顾问委员会 (Council of Economic Advisers)、科学技术顾问委员会 (PCAST)等机构。其中,最重要、最大的机构当属白宫办公厅和行政管理预算局,它们控制了信息、掌握了财权,是 15个内阁部门和 70多个独立机构的管理和协调单位,可谓中枢中的中枢。鉴于这两个机构的重要性,本书将会多次提及。

  作为全美最庞大的组织和机构,联邦政府也一直号称他们是美国最大的信息生产、收集、使用和发布的单位。05

  如果要考察信息的多少,就必须以物理存储器上保存的数据量作为度量。因为所有的信息,都是以数据的形式保存在物理存储器上的。由于人类的数据量不断增多,近几十年来,科学家也相应定义了一些新的名词,来表示新的存储单位,以方便对客观世界的描述。

  美国联邦政府到底收集了多少数据,其总量无从得知,但我们可以从现有的一些研究资料中窥见一斑。

  2011年 5月,麦肯锡公司下属的全球研究所( McKinsey Global Institute)出版了一份专门的研究报告《大数据:下一个创新、竞争和生产率的前沿》。06该报告对美国政府目前拥有的数据量进行了估算,在制造业、新闻业、银行业、零售业等 17个行业当中,美国政府共拥有 848拍字节(Petabyte)的数据总量,仅次于离散式制造业 07的 966拍,居第二位;居第三位的是新闻传媒业,共有 715拍字节。

  这是美国政府作为一个行业的总体情况,下面我们来考察联邦政府中具体的单个组织。以商务部下属的美国普查局( USCB)为例,它目前拥有 2560太字节(Terabyte)的数据。“太”,代表 2的 40次方,它的大小,已经大大超出了人类的直接感知能力,只能通过形象的比喻来描述:如果把这些数据全部打印出来,用 4个门的文件柜来装,需要 5000万个才能装得下。沃尔玛是世界上最大的零售王国,它每小时要处理 100多万笔电子交易记录,可谓每分每秒都在源源不断地生产数据; 2010年,其数据库大小为 2500太字节左右,还没有赶上美国普查局。

  除了美国普查局,国家安全局( NSA)和中央情报局( CIA)都拥有超级巨大的数据库。 2011年 5月,历经十年,美国人终于在巴基斯坦将本 ·拉登击毙,报了“ 9·11”的一箭之仇。帕拉契尼( John Parachini)是兰德( Rand)公司情报政策研究中心的主任,他在接受《巴尔的摩太阳报》的采访时介绍说,国家安全局是从电话监控的记录当中发现了本 ·拉登的蛛丝马迹。 08该局对全美的电话进行监控,所收集的数据量是惊人的,它每 6小时产生的数据量就相当于美国国会图书馆所有印刷体藏书的信息总量。而美国国会图书馆,是世界上馆藏量最大的图书馆。

  再说中情局,其本职工作就是收集情报信息。业内专家普遍认为,其数据库比普查局、国安局的还要大,很可能拥有全世界最大的数据库。

  普查局、国安局、中情局只是联邦政府数百个机构当中的几个例子,还有财政部、卫生部、劳工部,这些都是数据密集型的行政管理部门。即以财政部为例,根据行政管理预算局的信息收集年度报告, 2009年,财政部因为收集信息产生的社会负担为 76亿小时,占全部联邦政府收集信息社会负担总数的 78%, 09之所以如此,是因为收税和退税的过程极为繁琐,但 76亿小时收集工作会产生多少数据量,其大小也难以想象。

  再换一个角度,我们来看看这个联邦政府的硬件资产。

  1998年,联邦政府共拥有 432所数据中心,专门负责各类数据的存储和维护工作。2010年,数据中心的总数跃升到 2094所,翻了几倍。

  庞大的数据资产,是需要经费来支持的。 1996年,联邦政府的年度 IT预算是 180亿美元,十多年来不断地上升, 2010年,已经高达 784亿美元;由于连年巨额的投资,联邦政府已经声称,他们是全世界范围之内最大的信息技术消费者。而据报道,这些投资中的一半以上,都用在了购买存储数据的硬件设备上。

  这是一个不折不扣的数据帝国。帝国形成的原因,已经有很好的解释,这就是摩尔定律(Moore"s Law)。 1965年,英特尔( Intel)的创始人之一戈登 ·摩尔( Gordon Moore)考察

  了计算机硬件的发展规律,提出了著名的摩尔定律。该定律认为,同一个面积集成电路上可容纳的晶体管数目,一到两年将增加一倍, 10也就是说,其性能将提升一倍。换句话说,计算机硬件的处理速度和存储能力,一到两年将提升一倍。

  1971年至 2011年不同中央处理器上的晶体管数量和摩尔定律

  说明:纵坐标为晶体管数量,横坐标为年份。图中圆点表示不同品牌的中央处理器。该曲线表明,从1971年至 2011年,大概每两年同一面积大小中央处理器集成电路上的晶体管就增加了一倍。(图表来源:维基百科)

  回顾这近半个世纪的历史,硬件技术的发展,基本符合摩尔定律。摩尔定律的一个重要结果,是推动了全世界对物理存储器的消费;其消费量增加的速度,有学者认为,甚至比摩尔总结的硬件发展速度还要快,从 1990年代起,全世界的物理存储器,每 9个月就增加一倍。 11

  其中的原因,是因为物理存储器的性能不断提高,同时价格还不断下降。 1955年,IBM推出了第一款商用硬盘存储器,每兆字节的存储量需要 6000多美元。此后,硬盘存储器的价格以越来越大的加速度下降。1993年,购买 1兆字节的存储量只需大概 1美元; 2010年,这个价格下降到不足 1美分。多数专家都相信,计算机硬件的技术将持续发展,价格还将下跌,直到 2020年,摩尔定律还将仍然有效。

  计算机硬件这种令人“瞠目结舌”的发展速度,使全世界的数据处理和存储不仅越来越快、越来越方便,还越来越便宜,海量数据的积累最终成为可能。

  但像盛水的杯子一样,存储器毕竟只是容器。关键的问题在于,帝国的数据从何而来?海量数据的源头在哪里?

  美国联邦政府的数据来源,当然首先缘于它各个部门的业务工作,也就是业务数据。

  作为社会管理和公共服务的提供部门,收集数据、使用数据,是自古以来全世界的政府都在普遍采用的做法。但政府开始大规模、系统地收集数据,其历史并不久远。在美国联邦政府的发展历史上,业务数据的收集,有一个重要的里程碑,这就是“最小数据集”。

  戈登·摩尔

  出生于 1929年,至今健在,他于 1956获得加州理工学院的博士,1968年成为英特尔的创始人之一,也是摩尔定律的首创人。(图片来源:英特尔公司网页)

  最小数据集:上升到立法高度的开路先锋

  一个好的数据结构和一个糟糕的代码,比一个糟糕的数据结构和好的代码要强多了。12 ——埃里克·雷蒙美国软件开源运动的领导者,1999年

  最小数据集的概念起源于美国的医疗领域。

  1973 年,在国家生命健康统计委员会( NCVHS)的主导下,为了规范出院病人的信息收集工作,美国第一次制定了统一的出院病人最小数据集,既然是出院,核心的环节就是付钱,所以这些数据不久后又被用于创建统一的医疗账单(Uniform Bill,UB)。

  1975年,美国医院协会( AHA)成立了国家统一账单委员会。经过了几年的讨论, 1982年,该委员会出台了 UB-82的数据格式,统一了全国的医疗账单格式。 1992年,UB-82又被修改升级到 UB-92,并被扩大应用到了医疗保险和索赔的领域。

  由于其实用性,最小数据集的概念在医疗领域被迅速推广。近几十年以来,几乎每年都有新的最小数据集被定义、开发和推广。目前,已经被应用到眼科、牙科、皮肤科、妇科以及体检、护理、急救、住院等医疗服务的方方面面,衍生出各种各样的、特定的最小数据集。

  随着时间的推移,“最小数据集”在美国已经演变成了一个一般性的概念,它指代国家的管理层面针对某个业务管理领域强制收集的数据指标。不少领域的“最小数据集”甚至被上升到立法的高度。例如,对于养老院的管理,美国国会就规定,每个养老院都必须提交一系列关于老人健康指标的最小数据集给州政府的医疗管理部门,该部门汇总之后,再提交联邦政府的管理部门。

  当然,何为“最小”,政府的管理者、决策者和公共服务的提供方、接受方都有不同的需求和看法,很难达成一致。某一特定的数据指标是否应该纳入,不同的立场、视角、环境和管理水平都会导致不同的意见。而且,各个最小数据集本身可能是完整的、有效的,但当各行各业的最小数据集越来越多之后,从全局出发,它却不一定是合理的,因为可能存在更好的划分方法,使各个最小数据集之间具有更明确的边界和更少的重叠。

  因此,每一个“最小数据集”的出台,都意味着多年的纷争和详尽的论证。

  最小数据集的出现,最早是因为不同组织之间信息交换的需要,例如,两个医院之间,医院和政府医疗管理部门,医院和保险公司之间以及一些社会福利部门之间,都有交换信息的需要。随着最小数据集的推广,越来越多的社会组织、地方政府和联邦政府的业务部门之间都建立了标准的“数据接口”,从此彼此“数据”相连。

  但到了 1980年代,一场新的技术浪潮又把最小数据集的应用推上了新的高点。

  这就是信息管理系统的兴起。

  1975年,比尔 ·盖茨创办了微软。次年,史蒂夫 ·乔布斯成立了苹果电脑公司。之后,个人电脑、商业软件开始得到大面积普及,开发新的信息管理系统开始成为各行各业迈向信息化的主要措施。

  所谓的“信息管理系统”,也就是实现某一特定业务管理功能的软件。

  软件的构成,主要有两部分,一是程序(也可称为代码),二是数据(或称为数据库)。程序和数据的关系,就好像发动机和燃料,所有的程序,都是靠数据驱动的;数据之于程序,又好比血液之于人体,一旦血液停止流动,人就失去了生命,代码也将停止运行。

  最小数据集(Minimum Data Set, MDS)

  最小数据集是指通过收集最少的数据,最好地掌握一个研究对象所具有的特点或一件事情、一份工作所处的状态,其核心是针对被观察的对象建立一套精简实用的数据指标。

  数据的生命力,甚至比程序更持久。程序可以不停地升级、换代甚至退出使用,但保存数据的数据库却会继续存在,其价值很可能与日俱增、历久弥新。世界万维网之父蒂姆 ·伯纳斯-李,曾经在 2006年这样论述说:

  “数据是宝贵的,它的生命力,比收集它的软件系统还要持久。”13对于软件开发而言,数据库的设计甚至比程序的设计还要重要。埃里克 ·雷蒙,是美国软件开源运动的领袖,他在谈到代码和数据时曾表示:“一个好的数据结构和一个糟糕的代码,比一个糟糕的数据结构和好的代码要强多了。”

  最小数据集,其实就是一个业务管理过程当中最重要的数据指标。它在各个公共领域的定义和推广,成了这些部门在开发设计信息管理系统时最重要的一个参考,因为一旦核心的数据收集指标被确定,数据库的结构设计就成为一个水到渠成的过程。有些最小数据集,甚至直接就被引用,成为信息管理系统的数据结构。