之所以要称之为战略,是因为“大数据”之“大”,并不仅仅在于其“容量之大”。当然,由于数据容量的爆炸,数据的收集、保存、维护以及共享等等任务,都成为具有研究意义的现象和挑战。但“大数据”之“大”,更多的意义在于:人类可以“分析和使用”的数据在大量增加,通过这些数据的交换、整合和分析,人类可以发现新的知识,创造新的价值,带来“大知识”、“大科技”、“大利润”和“大发展”。
如前文所述,数据,是记录信息的载体,是知识的来源。数据的激增,意味着人类的记录范围、测量范围和分析范围在不断扩大,知识的边界在不断延伸。
2007年,雅虎的首席科学家沃茨博士在《自然》上发表了一篇文章《 21世纪的科学》22,他发现,得益于计算机技术和海量数据库的发展,个人在真实世界的活动得到了前所未有的记录,这种记录的粒度 23很高,频度在不断增加,为社会科学的定量分析提供了极为丰富的数据。由于能测得更准、计算得更加精确,他认为,社会科学将脱下“准科学”的外衣,在 21世纪全面迈进科学的殿堂。例如,新闻的跟帖、网站的下载记录、社交平台的互动记录等等都为政治行为的研究提供了大量的数据,政治学这门古老的学科,将登堂入室,成为地道的“科学”。
麻省理工学院的教授布伦乔尔森( Erik Brynjolfsson)则比喻说,大数据的影响,就像 4个世纪之前人类发明的显微镜一样。显微镜把人类对自然界的观察和测量水平推进到了“细胞”的级别,给人类社会带来了历史性的进步和革命。 24而大数据,将成为我们下一个观察人类自身社会行为的“显微镜”和监测大自然的“仪表盘”。
这个新的显微镜,将再一次扩大人类科学的范围,推动人类知识的增长,引领新的经济繁荣。麦肯锡全球研究所在其 2011年的报告中最后概括说:大数据,将成为全世界下一个创新、竞争和生产率提高的前沿。
抢占这个前沿,无异于抢占下一个时代的“石油”和“金矿”。 2012年 3月 29日,奥巴马政府又进一步推进了其
“大数据”战略。奥巴马的高级顾问、总统科学技术顾问委员会( PCAST)的主席霍尔德伦( John Holdren)代表国防部、能源部等 6个联邦政府部门宣布,将投入 2亿多美元立即启动“大数据发展研究计划”(Big Data Research and Development Initiative),以推动大数据的提取、存储、分析、共享和可视化。霍尔德伦也是哈佛大学肯尼迪政府学院的知名教授,他在讲话中表示:像美国历史上对超级计算和互联网的投资一样,这个大数据发展研究计划将对美国的创新、科研、教育和国防产生深远的影响。
奥巴马则强调联邦政府必须和公司、大学结盟,全民动员( All Hands on Deck),来应对“大数据”时代的挑战。
人类知识的三大种类与科学的关系
人类所有的知识,可以划分为三个大类:自然科学、社会科学和人文艺术。
自然科学的研究对象是物理世界,讲的是“精确”,丝毫不能含糊,卫星上天、潜艇下海,差之毫厘,就会谬以千里。
社会科学研究的是社会现象,探讨的是人和社会的关系,如经济学、政治学、社会学,它也追求精确,但因为关系到多变善变的人,导致了“测不准”,所以社会科学又被称为“准科学”。
人文艺术则主要包括文学、艺术、哲学,它探讨的是人的信仰、情感和价值,并不强调精确,有时候甚至模糊就是美,所以位于科学的最外围。
在科学的谱系里,社会科学正好介于自然科学和人文艺术之间。
注释
01 机器学习( Machine Learning),是人工智能的一个分支,通过在大量数据上运行分析程序,达到让计算机自动学习、积累智能的目的。
02 Designing a Digital Future, Page. xvii, The President"s Council of Advisors on Science and Technology, Dec 2010.
03 英语原文为: “Moore’s Law has been the name given to everything that changes exponentially in the industry. Another decade is probably straightforward...ere is certainly no end to creativity. ”—Gordon Moore, February 2003
04 数据来源于美国劳工部对于联邦政府的介绍网页: With about 2.0 million civilian employees, the Federal Government, excluding the Postal Service, is the Nation"s largest employer. http://www.bls.gov/oco/cg/cgs041. htm
05 从 1996年起,美国联邦政府就认为自己是美国最大的单个信息生产、收集、使用和发布方,见 OMB Circular A-130。
06 Big data: The next frontier for innovation, competition and productivity, McKinsey Global Institute, May 2011.
07 离散式制造业( Discrete Manufacturing)是指将不同的现成元部件装配加工成较大型系统的行业,例如汽车行业。流程式制造业( Process Manufacturing)是指通过一条生产线将原材料制成可以出售的成品的行业,比如制药。
08 Md.-based intelligence agencies helped track Bin Laden, 05-7- 2011, Scott Calvert, The Baltimore Sun.
09 本书第五章第一节将会具体解释这个负担小时的计算方法。数据来源为: Information Collection Budget Of The United States Government,Office of Management and Budget,2010。
10 摩尔 1965年发表该定律时,认为这个周期是 1年,1975年,他修订为 2年;也有人认为,这个周期是 18个月。
11 “The capacity of digital data storage worldwide has doubled every nine months for at least a decade, at twice the rate predicted by Moore’s Law for the growth of computing power during the same period.” Fayyad, U. and Uthurusamy R., Evolving data mining into solutions for insights, Communications of the ACM, Vol. 45, No. 8, 2002, pp. 28-31.
12 英语原文为: “Smart data structures and dumb code works a lot better than the other way around. ”—e Cathedral and the Bazaar, Eric Steven Raymond, 1999
13 英语原文为: “Data is a precious thing and will last longer than the systems themselves.”— Tim Berners-Lee, www2006 conference BCS interview, 2006
14 Uncle Sam"s first CIO, Fortune Magazine, Interview by Geoff Colvin, July 13, 2011.
15 英语原文为: “What I want to get done is what the people desire to have done, and the question for me is how to find that out exactly.”— Abraham Lincoln
16 Election Polls—Accuracy Record in Presidential Elections, Gallup, http://www.gallup.com/poll/9442/electionpolls-accuracy-record-presidential-elections.aspx.
17 英语原文为: “The most profound technologies are those that disappear. They weave themselves into the fabric of everyday life until they are indistinguishable from it. ”—The Computer for the 21st Century, Mark Weiser, 1991.
18 A National Operational Wave Observation Plan, NOAA and USACE, March 2009.
19 Commercial Fishing Fatalities — California, Oregon, and Washington, 2000-2006, Centers for Disease Control and Prevention, April 2008.
20 原文为: “Every federal agency needs to have a ‘Big Data’ strategy. ”—Designing a Digital Future, Page. xvii, The President"s Council of Advisors on Science and Technology, Dec 2010.
21 3D Data Management: Controlling Data Volume, Velocity and Variety, Laney, Douglas. Feb 2001.
22 A twenty-first century science, Nature 445, 489; 1 February 2007, Duncan Watts.
23 数据粒度是指数据的细化程度。细化程度越高,粒度就越小;相反,细化程度越低,粒度级就越大。
24 The Age of Big Data, New York Times, Steve Lohr, February 11, 2012.
