136书屋 > 其他 > 大数据:正在到来的数据革命全文阅读 > 第13章 数据治国(2)

第13章 数据治国(2)


  2010年,全美共有 30多万个政府合同商,由于上述这项规定,每年所产生的数据量,也不容小觑。基于原始数据的分析,当然也更加准确、公正、可靠。政府合同商向联邦政府提交的这些数据和信息,当然也属于联邦政府收集的业务信息。那么,除了劳工部把它们用于分析监督“平权措施计划”的实施情况之外,是否可以公开呢?换句话说,如果有第三方按照《信息自由法》对联邦政府提出要求,要查阅某政府合同商为“平权措施计划”提交的信息和资料时,联邦政府是否可以公开这些资料呢?

  这个问题曾经在美国历史上“纠结”过,引起过很多宗法律纠纷。其中最著名的是“克莱斯勒诉布朗案”。 08

  1970年代,克莱斯勒公司( Chrysler Corp.)获得了国防部的一项合同。作为政府合同商,该公司按规定向国防部提交了“平权措施计划”规定的资料。

  1975年 5月,一个工会组织向国防部提出信息查询的申请,要求获得克莱斯勒公司提交的数据和文件。国防部认为该要求符合《信息自由法》的规定,在知会克莱斯勒公司后,向该工会公开了这些数据和文件。但克莱斯勒公司对此表示强烈的反对,他们认为这些信息属于它的商业秘密,国防部无权向第三方公开。克莱斯勒随即将当时的国防部部长布朗告上了联邦地方法院,经过 3年的折腾,1978年,官司最后上诉到最高法院。

  1979年 4月,最高法院宣布克莱斯勒败诉。最高法院认为,《信息自由法》的根本目的,是鼓励政府机构的信息公开,商务机密虽然享有豁免权,但根据现有的法律,这种豁免权是许可性的,而非强制性的,既然是非强制性的,即使该信息属于商业机密,政府部门有权不公开,也有权公开,即公开并不违法。

  克莱斯勒诉布朗案是“平权措施计划”及《信息自由法》的标志性案件。此后,《信息自由法》也开始正式成为商业公司竞争的工具。不少公司,都通过这个渠道,向联邦政府索要文件,以了解竞争对手的运营情况。据统计, 2010年,有三分之一的信息公开的要求都来自商业公司。这当然又引起了美国社会的又一次讨论,《信息自由法》的初衷,是保护公民的知情权,如今似乎已经“沦”为商业竞争的工具,这又是否合适呢?

  数据“打”假:最大的争议就是福利滥用

  我们才刚刚开始全面利用数据挖掘的技术。我们相信,使用正确的技术,加上专业的人员,并保证数据安全,通过这三者的结合,数据挖掘将成为我们提高财务审计效率和效果的重要工具。09

  ——美国国会政府问责办公室,关于数据挖掘在国会的听证,2003年 3月

  欧洲大部分的发达国家都实现了全民医疗保险制度。但对这种全民福利的做法,长期以来,美国社会并不认同。不认同的原因主要有两点:一是对政府的不信任;二是认为如果政府对公民大包大揽负全责,公民就会对自己不负责。

  在这种态度的主导下,美国的福利制度,一直以来都是以具体的项目为依托、以特定的群体为目标来开展的。其中,两个最大的医疗福利计划是 1965年通过的,也是第 36任总统约翰逊促成的:

  一是专门针对残障人士和 65岁以上老人的医疗保险计划 (Medicare) ;二是以贫困人口为对象的医疗补助计划 (Medicaid)。也就是说,老、弱、穷看病,政府买单。第一个医疗保险计划是通过保险来支付,由联邦医疗保险和补助中心 (CMS) 监管实施;第二个医疗补助计划是政府直接支付,由联邦政府 CMS中心和各个州政府共同实施,分成支付。根据 CMS中心的统计, 2009年,医疗保险计划支出共 5023亿美元,覆盖了 4700万的美国人口;医疗补助计划共支出 3739亿美元,覆盖了 5680万美国人口。 10由于两个计划都是针对社会的弱势人群,它们之间也互有交叉,例如,对于老年的贫困人口群,就可能同时适用两个计划。 2009年,有 850万人同时受惠于两个项目。

  福利政策在全世界最大的争议,就是福利滥用、最后养了懒人,导致社会发展缺乏动力。美国虽然慎之又慎,但这两块免费大蛋糕,也不例外。 2008年,联邦调查局在《财务犯罪年度公开报告》中估计,联邦政府每年的医疗开支当中,大概有 3%到 10%涉嫌造假和欺诈。 11面对利益,人类的创造力总是无穷的:虚假账单、重复申报、无中生有,小病大治、慢治、长治,隐瞒收入和存款、装穷吃低保,林林总总,不一而足。

  两个项目的受惠人群,加起来有近 1亿人,平均每人每月上一次医院,一年就有 12亿张账单,按照联邦调查局的估计,大概会有 3600万到 1.2亿张账单存在问题。如果要依靠人力去张张审查,其工作量是难以想象的。目前,CMS中心最主要的措施,就是通过数据来打假。

  2001年,加州州政府率先推出了一个数据挖掘的项目“保险补助双向核对”(Medical-Medicaid Data Match),将医疗保险和医疗补助两个项目的数据整合起来,利用两个计划中的人员、时间、价格、地点等数据信息对每一宗申报进行互相核实,通过计算机算法自动确定相互矛盾、有异于常态的支付记录,一旦发现造假或者不实申报的可疑账单,则转入人工追讨的环节。

  这大大缩小了人工审查的范围,提高了打假的效率。

  由于效果显著, 2004年,这个项目在个别州的实施范围进一步扩大,由事后追讨推进到了事前防范。这意味着, CMS中心一收到申请报销的账单,就启用数据挖掘系统对该申请的数据记录进行“风险评分”:得分低于预定风险额度的申报则转入自动支付的环节;得分超过该风险额度的申请将退回申请人,或提交专门的小组进行人工复审。

  支付后的账单,最后还要经过另一个数据挖掘算法的审核,发现可疑的,再转入人工追讨的环节。

  以上措施的效果非常显著,很快引起了美国国会的重视。大部分国会议员都相信,数据挖掘的做法将为国家节省开支。 2005年,国会通过了《赤字削减法案》(Deficit Reduction Act of 2005),该法案的根本目的是“精简机构、裁减开支”。在对大多数联邦机构削减经费的情况下,国会却给 CMS中心下拨了专款,用于成立扩大专门的数据挖掘审查队伍。卫生部甚至主张,这种数据打假的项目应该纳入国家医疗信息系统基础设施建设的范围,换句话说,以后的医疗系统,在设计阶段,就应该包括数据挖掘的打假功能。

  数据挖掘还常常能给工作人员带来一些意外的惊喜。例如, Neulasta是一种治疗癌症的注射剂, 2006年,CMS中心的算法发现,不同医院提交的 Neulasta账单不一致,有的账单使用毫克作为单位,有的账单使用瓶作为单位,而一瓶为 6毫克。经过调查证实,使用瓶的账单属于“有意或无意”的人为错误,但这个错误,把申报的开支扩大了 6倍。仅该项发现,就为联邦政府挽回了近 50万美元的损失。

  2007年 3月,CMS中心的首席财务官希尔( Timothy B. Hill)出席国会的听证会,他例举了数据挖掘项目实施一年多之后的效果:通过数据挖掘预设的风险评分门槛,确定了 2500万美元的虚假申报,事后的数据挖掘复审环节又追讨了 1500万美元的超额申报;其中,有 50多宗欺诈案浮出水面,最后移交司法部门处理。12

  除了 CMS中心,联邦政府的社会福利项目都陆续开始采用数据打假的做法。2010年 10月,为了削减赤字,奥巴马在白宫和他的技术顾问委员会召开会议, IBM、DELL、Intel等大公司的 CEO向他建议说,联邦政府如果在社会福利的项目上加大数据挖掘、分析技术的应用,预计 10年内可以再为国家节省 2000亿美元。

  近十几年来,除了福利打假,数据挖掘的技术在联邦政府的其他部门也获得了广泛的应用。 “9·11”以后,国家安全局更是依赖该项技术跟踪确定恐怖分子,本书后续章节对这项技术及其应用还将有专门的介绍。

  CompStat:街头警察的创新传奇

  每一个人的心里,都有理想主义的火花,它可以被燃成火焰,进而迸发出非凡的能量和结果。13

  —— 路易斯·布兰代斯(1856-1941),美国最高法院大法官 将数据分析大规模地引入到治安管理工作中的做法,起源于纽约。

  纽约,是全世界的金融和商业中心,在美国的经济和政治生活当中占有举足轻重的位置。

  纽约市也是美国人口数量最多、密度最大、多元化程度最高的城市。它拥有 810多万人口,其中超过三分之一是非美国本土出生的外籍人员,这些人来自全世界不同的国家和族裔,使用 100多种语言。

  因为人口众多,不免鱼龙混杂,纽约也曾经是一个著名的犯罪之都。从上个世纪 70年代起,黑帮横行、毒品泛滥,该市的治安情况不断恶化。 1990年,纽约市共发生了凶杀案 2245宗、车辆盗窃案 147123 宗,平均每天有 6个人死于恶性犯罪,每小时有 16台车辆不翼而飞。

  1994年,纽约市的警察部门启用了一个新的治安信息管理系统。这是一个以地图为基础的统计分析系统,随着它的出现,纽约城的治安开始逐年好转。这个叫做“ CompStat”的系统也开始名扬全国,成了 20世纪美国警务管理工作当中最为浓墨重彩的一笔。

  CompStat,是 COMPuter STATistics(计算机统计)的缩写,现在已经演变成为一个专有名词,特指一种警务管理模式。

  这是一个传奇故事,一个源于地铁,发生在一位巡警、一位局长和一位市长之间的传奇故事。

  1970年,杰克 ·梅普尔( Jack Maple)刚刚高中毕业,他加入纽约市交通警察局成为一名地铁线上的警察。当时,地铁线上的抢劫案非常频繁,地铁警察,被认为是纽约最危险的工作之一。

  为了追踪抢劫案,梅普尔在时代广场做过便衣,在中央车站指挥过拦截和抓捕。在十几年街头警察的经历当中,他慢慢“悟道”:案件发生在哪里警察就出现在哪里,是让罪犯牵着鼻子跑;要控制局面,抓到老鼠,警察一方必须掌握主动,做一只有“预测能力”的猫。

  于是,这位高中毕业生开始研究地铁抢劫案的发生规律。

  梅普尔在办公室的墙上挂上了几百幅地图,用不同颜色的大头针来跟踪地铁抢劫案发生的时间和地点,分析其中的原因和规律。无数个夜晚,他点着香烟,站在巨大的地图面前,时而举头凝视,时而低头徘徊,揣度琢磨第二天可能发生抢劫的时间和地点。在一阵苦思冥想之后,最后用大头针按下的那个小点,就代表了他第二天的伏击地点。

  梅普尔后来晋升为警督(相当于派出所所长),他就采用这种方法来部署和调配他所辖区的警力。他的办公室挂满了地图,被同事戏称为“地图墙”,他却称之为“预测未来的图表”(Charts of the Future)。

  1990年,“预测未来的图表”引起了新任局长布雷特( William Bratton)的注意。布雷特是位退伍军人,他雷厉风行、慧眼识才,在认真研究了“地图墙”之后,他认为梅普尔的方法很“靠谱”。于是开始在全局推广梅普尔的图表管理方法。

  第二年,纽约市的地铁抢劫案下降了 27%。

  但纽约的整体社会治安并没有好转,除了地铁抢劫案,其他的案件都还居高不下。这更令布雷特相信,“预测未来的图表”确实行之有效。

  1993年,治安持续恶化。这个问题,甚至成了纽约市市长竞选当中最热门的话题。

  这个话题也成为共和党候选人鲁迪 ·朱利安尼( Rudy Giuliani)的政治机遇。

  朱利安尼出生于纽约市的一个普通劳工家庭。他 1968年法学院毕业之后,长期在司法部门工作。 1983年,他晋升为纽约市的联邦检察官。在他担任这个职务的 6年期间,朱利安尼先后将 4000多名嫌疑犯送进了监狱,其中有不少都是轰动全国的黑道大哥、帮会首领。朱利安尼作为公诉人,多次受到黑社会的威胁,但他刚正不阿,始终秉法办案,在新闻界获得了“铁面”的美誉。

  作为共和党的市长候选人,朱利安尼的主打牌就是“治安”。他在竞选演讲中介绍说,他的朋友在餐馆等公共场合碰到他,都不敢和他打招呼,因为怕被黑社会盯上、莫名其妙受到报复。他在街上,也经常碰到一些刑满释放的人员,那些人对他做出鄙夷的表情,并当面嘲笑他说:“你没人缘,选不上!”

  朱利安尼却呼吁说,如果纽约人民真正想改善治安,就不能让他落选!因为他是改善治安最好的人选——别无其他!

  他的演讲,情理并茂,他的铁面形象和诚恳的态度,最终打动了纽约人,得以高票当选。

  一上任,朱利安尼就立即任命布雷特为纽约市警察局局长。