仅仅几年以前,这种被称为“商务智能”的技术,还是大公司的专利。但随着计算机处理器、存储器的价格不断下降和软件质量的不断上升,这种技术成了商业界的主流。大大小小的公司,都收集了前所未有的大量数据。过去,这些数据存储在不同的系统当中,如财务系统、人力资源系统和客户管理系统,老死不相往来。现在,这些系统彼此相连,通过“数据挖掘”的技术,可以获得一幅关于企业运营的完整图景,这被称为:一致的真相 (A single version of the truth)。商务智能提高了商业运营的效率,帮助了企业总结发展过程中的模式,并改善了企业预测未来的能力。信息技术产业把商务智能视为对 20世纪上半叶企业会计服务、下半叶计算机服务的一个自然承接,正在争相涌入这个领域。爱森哲、普华永道、IBM、SAP都在这个领域投入巨资。技术平台的提供商甲骨文、Informatica、TIBCO、SAS、EMC也从中赢利。IBM更是相信:随着传感器在城市交通、医疗健康中的应用,商务智能将成为其业务增长的顶梁柱。
——《经济学人》,2010年 2月 25日特别报道
联邦政府这个数据帝国,虽然拥有的数据比任何公司、企业都多,但和私营领域相比,在信息技术的应用上,还是明显落后一步、慢了几拍。
2009年 3月,奥巴马就任后的第二个月,就在联邦政府之内设立了一个全新的职位:首席信息官( Chief Information Officer),并任命来自印度的移民昆德拉( Vivek Kundra)为第一任联邦政府首席信息官。昆德拉在公共和私营两个领域都有广泛的经历,他走马上任之后,曾发表过第一感受:联邦政府信息技术的装备和应用,和一流的商业公司相比,就好像手摇电话摆在了线条圆润、光彩照人的苹果手机旁边,不可同日而语。
当然,这并不奇怪。现代政治学的基本常识告诉我们:由于无法引入有效的竞争机制,政府注定难逃低效的命运。美国联邦政府也不例外。
收集数据、分析数据、发布数据,这一系列和数据有关的信息技术,在商业界其实有个更时尚、更响亮的名字:商务智能。
在商务智能的技术大潮当中,美国联邦政府的做法,只是几朵小小的浪花,公司、大学才是这个领域真正的弄潮儿和领航人。
这股技术浪潮,也在美国起源。
起源:从数据到知识的挑战和跨越
信息消费了什么是很明显的:它消费的是信息接受者的注意力。信息越丰富,就会导致注意力越匮乏……信息并不匮乏,匮乏的是我们处理信息的能力。我们有限的注意力是组织活动的主要瓶颈。
——赫伯特·西蒙
美国经济学家、政治学家、人工智能的创始人之一,1973年
1946年,人类历史上第一台电子计算机在美国费城问世。 来自匈牙利的移民冯 ·诺伊曼是这台计算机的主要设计者,他被后世称为“计算机之父”。
赫伯特·西蒙(1916-2001)
20世纪全世界最具影响力的科学家之一,他横跨多个学科和领域,曾获得 1975年的图灵奖、1978年的诺贝尔经济学奖、1993年的美国心理协会终身成就奖。
仅一年之后,卡内基梅隆大学的赫伯特 ·西蒙(Herbert Simon)教授出版了《行政组织的决策过程》一书。在这本被后世视为经典的著作里,他指出,人类的理性是有限的,因此所有的决策都是基于有限理性(Bounded Rationality)的结果。这位天才科学家继而提出,如果能利用存储在计算机里的信息来辅助决策,人类理性的范围将会扩大,决策的质量就能提高。
他进而预测:在后工业时代,也就是信息时代,人类社会面临的中心问题将从如何提高生产率转变为如何更好地利用信息来辅助决策。
西蒙教授毕业于芝加哥大学, 1943年获得政治学博士学位,此后半个多世纪,他长期在卡内基梅隆大学任教。
卡内基梅隆大学,是美国信息技术研究的“火车头”,它以计算机科学和“交叉性研究”闻名于世。西蒙的整个学术生涯都浸润着卡内基梅隆的色彩,他从政治、经济出发,把毕生的精力都集中在对决策和信息的研究上,将不同学科之间的“交叉性”应用得炉火纯青,也硕果累累。 1975年,由于对人工智能的贡献,他获得了计算机学界的最高奖项:图灵奖;1978年,他又因为对“商务决策过程”的出色研究戴上了诺贝尔经济学奖的桂冠。
追本溯源,学界普遍认为,西蒙对决策支持系统的研究,是现代商务智能概念最早的源头和起点。 04但西蒙可能没有想到,他播下的“决策支持”的种子,在半个世纪以后,却结出了“商务智能”的果实,并成为信息时代的一朵奇葩。
从决策支持系统到商务智能,名字变了,但新瓶装的还是旧酒。现代商务智能技术回答的还是决策支持系统面对的老问题:如何将数据、信息转化为知识,扩大人类的理性,辅助决策?从数据到知识,这个跨越,人类用了半个多世纪。在半个多世纪的漫长过程中,决策支持系统曾经一度因为缺乏有效的数据组织方式而徘徊不前。直到上世纪 90年代,由于若干新技术的出现,打破了瓶颈,“商务智能”的概念才横空出世。随后,其发展取得了前所未有的加速度,在本世纪第一个十年蓬勃向上。今天,回头考察这些新技术的一一出现,可以清楚地看到商务智能的产业链条不断向前延伸的轨迹。
这个轨迹的起点当然就是计算机。计算机,是硬件和软件相结合的产物。它的发明,是诸多不同领域的科学家共同努力的结果。冯 ·诺伊曼其实是一名数学家,他之所以被称为“计算机之父”,其最大的贡献之一,在于他明确了计算机内部的数据组织形式:二进制。
二进制的引进,解决了在没有“情感、智能和生命”的物理机器中表达、计算、传送数据的最大难题,有了二进制,软件的运行才有了支点。
如前文所述,软件是由程序和数据组成的。二进制的确定,解决了数据在计算机内部传送“理解”和“流动”的问题,但当数据在计算机内部累积得越来越多的时候,如何快速地组织、存储和读取数据又成为新的挑战。
计算机科学家一直在研究数据在软件内部的最佳组织方式。 1970年,IBM的研究员埃德加 ·科德( Edgar Codd)发明了关系型数据库,成为软件发展历史上一个跨越性的里程碑。
此前,数据库的组织结构以网状、层级制为主,复杂多变,程序和数据之间你中有我、我中有你,彼此有很强的依赖性。科德提出的关系型数据库具有结构化高、冗余度低、独立性强等优点,彻底把软件中的程序和数据分立开来。从此,软件的发展成了“两条腿”走路,程序和数据在各自的轨道上自由奔跑。
科德后来又总结出构建关系型数据库的“黄金十二定律”,把理论扎扎实实地推向了实践,关系型数据库开始得到大范围地推广,引发了一场软件领域的革命。科德也因此获得 1981年的图灵奖。
此后,大型软件,即大型信息管理系统的应用一日千里、遍地开花。
这些信息系统的建立和运行,使人类从繁杂的重复性劳动当中解放出来,大大提高了商业效率。但这些信息系统,都是针对特定的业务过程、处理离散事务的“运营式”信息系统。
所谓“运营式系统”,是指为提高日常工作的效率而设计的系统,数据在其中的作用,是一个个商务流程的记录,数据在这些系统内不断累积的结果,仅仅用于查询,而不是分析。
上个世纪 90年代,面对信息管理系统的普及、各行各业数据记录的激增,管理大师彼得 ·德鲁克 (Peter Drucker)曾发出慨叹:迄今为止,我们的系统产生的还仅仅是数据,而不是信息,更不是知识! 05
怎样从各个独立的信息系统中提取、整合有价值的数据,从而实现从数据到信息、从信息到知识、从知识到利润的转化?这个要求,随着信息管理系统的普及,变得越来越迫切。企业的规模越来越庞大、组织越来越复杂,市场更加多变、竞争更加激烈,信息是否及时准确、决策是否正确合理,对组织的兴衰存亡影响越来越大,一步走错,可能全盘皆输。
由于实业界这些迫切的需要,决策支持系统的旧问题又重新占据了顶尖科学家的大脑。
商务智能的“幽灵”开始徘徊……
结蛹:数据仓库之厚积薄发
岳不群叹了口气,缓缓地道:“三十多年前,咱们气宗是少数,剑宗中的师伯、师叔占了大多数。再者,剑宗功夫易于速成,见效极快。大家都练十年,定是剑宗占上风;各练二十年,那便是各擅胜场,难分上下;要到二十年之后,练气宗功夫的才渐渐地越来越强;到得三十年时,练剑宗功夫的便再也不能望气宗之项背了。然而要到二十余年之后,才真正分出高下,这二十余年中双方争斗之烈,可想而知。”
——金庸,《笑傲江湖》第九章,1967年
决策支持系统面临的“瓶颈式”难题,是如何有机地聚集、整合多个不同运营信息系统产生的数据。对这个问题的关注起源于美国计算机科学研究的另一所重镇:麻省理工学院。和卡内基梅隆大学一起,这两所大学先后为现代商务智能的发展奠定了主要的基石。
20世纪 70年代,麻省理工学院的研究人员第一次提出,决策支持系统和运营信息系统截然不同,必须分开,这意味着要为前者设计独立的数据存储结构。但受限于当时的数据存储能力,该研究在确立了这一论点后便停滞不前。
但这个研究如灯塔般为实业界指明了方向。 1979年,一家以决策支持系统为己任、致力于构建独立数据存储结构的公司 Teradata诞生了。 Tera,是太字节,其大小为 240,Teradata的命名表明了公司处理海量数据的决心。1983年,该公司利用并行处理技术为美国富国银行( Wells Fargo Bank)建立了第一个决策支持系统。这种先发优势令 Teradata至今一直雄踞在数据行业的龙头榜首。
另一家信息技术的巨头 ——国际商业机器公司( IBM)也在为集成企业内不同的运营系统大伤脑筋。越来越多的 IBM客户要面对多个分立系统的数据整合问题,这些处理不同事务的系统,由于不同的编码方式和数据结构,像一个个信息孤岛,处于老死不相往来的状态。 1988年,为解决企业的数据集成问题, IBM公司的两名研究员( Barry Devlin和 Paul Murphy)创造性地提出了一个新的术语:数据仓库( Data Warehouse)。
一声惊雷,似乎宣告了数据仓库的诞生。可惜 IBM在首创这个概念之后,也停步不前,只把它当做一个花哨的新名词用于市场宣传,而没有乘胜追击、进一步提出实际的架构和设计。IBM很快在这个领域丧失其领先地位;2008年, IBM甚至通过兼并 Cognos才使自己在商务智能的市场上重占一席之地,这是后话。
但这之后,更多的信息技术企业垂涎于数据仓库的“第一桶金”,纷纷开始尝试搭建实验性的数据仓库。
又是几年过去,1992年,尘埃终于落定。比尔·恩门( Bill Inmon)出版了《数据仓库之构建》(Building the Data Warehouse)一书,第一次给出了数据仓库的清晰定义和操作性很强的实战法则,真正拉开了数据仓库走向大规模应用的序幕。恩门不仅是长期活跃在这个领域的理论领军人物,还是一名企业家。此后,他的“江湖地位”也得以确定,被誉为“数据仓库之父”。
恩门所提出的定义至今仍被广泛地接受:“数据仓库是一个面向主题的( Subject Oriented)、集成的( Integrated)、相对稳定的( Non-Volatile)、反映历史变化( Time Variant)的数据集合,用于支持管理中的决策制定。”
数据仓库和数据库的最大差别在于,前者是以数据分析、决策支持为目的来组织存储数据,而数据库的主要目的则是为运营性系统保存、查询数据。
江山代有才人出。恩门一统江湖没多久,风头又被拉尔夫 ·金博尔
(Ralph Kimball)抢了去。金博尔是斯坦福大学毕业的博士,长期在决策支持系统的软件公司工作。 1996年,他也出版了一本书:《数据仓库的工具》(The Data Warehouse Toolkit),金博尔在书里认同了比尔 ·恩门对于数据仓库的定义,但却在具体的构建方法上和他分庭抗礼。
恩门强调数据的一致性,主张由顶至底的构建方法,一上来,就要先创建企业级的数据仓库。金博尔却说:不!务实的数据仓库应该从下往上,从部门到企业,并把部门级的数据仓库叫做“数据集市” (Data Mart)。两人针锋相对,各自的追随者也唇舌相向,很快形成了明显对立的两派。
两派的异同,就好比华山剑法的气宗和剑宗。主张练“气”的着眼全面和长远,耗资大,见效慢;主张练“剑”的强调短、平、快,效果可能立竿见影。
如金庸在《笑傲江湖》中描写的剑气之争一样,两派华山论剑的结果不难猜测,金博尔“从易到难”的架构迎合了人类的普遍心理,大受欢迎,商务界随即掀起了一股创建数据集市的狂潮。“吃螃蟹”的结果,有大面积的企业碰壁撞墙,也有不少企业尝到了甜头,赚了个盆满钵盈。
比尔·恩门:数据仓库之父
2007年曾被《计算机世界》评为近 40年计算机产业最具影响力的十大人物之一,目前还活跃在数据仓库领域,他的最新成果是将“非结构化的文本数据”通过特定的工具装入数据仓库。
拉尔夫·金博尔
他的数据仓库构建方法目前在市场上占据了主流。和普适计算的创始人马克·韦泽一样,他也曾经在施乐公司的帕罗奥多研究中心(PARC)长期工作过。(图片来源: datamgmt.com网站)
潮起潮落中,两派又有新的融合和纷争。油灯越拨越亮,道理越辩越明,数据仓库的理论和技术,在争论中不断地得以丰富,到 2000年,其理念和架构,已经完全成熟,并被业界所接受。
