预测未知,一直是人类十分向往的能力。远不说国人熟悉的周易八卦、唐代道士编写的《推背图》,还有西方人熟知的占星术、中世纪流行起来的塔罗牌,近的比如说当年根据 “ 2012 世界末日”这一玛雅预言影响下出现的全民狂热和商业狂欢,依然让我们记忆犹新。 现在“不问苍生问鬼神”的时代已经过去,我们对物理世界及社会经济的确定性的、经验性的甚至概率性的预测都已轻车熟路。但比如说像“蝴蝶效应”描述的高度复杂的、超多变量以及超大数据量的预测,人类还是束手无策么? 答案并不是。 近日,我国武汉新型冠状病毒疫情的爆发引起世界卫生组织和全球多地卫生机构的密切关注。其中,《连线》杂志报道了“一家加拿大公司BlueDot通过AI监测平台率先预测和发布武汉出现传染疫情”的新闻,得到国内媒体的广泛关注。这似乎是我们在“预测未来”这件事上最想看到的成果——借助大数据沉淀基础和AI的推断,人类似乎正能够揣摩“天意”,揭示出原本深藏于混沌之中的因果规律,从而在天灾降临前试图挽救世界。 今天我们就从传染病预测出发,看看AI是如何一步步走向“神机妙算”的。 谷歌GFT频喊“狼来了”:流感大数据的狂想曲用AI预测传染病显然不是Bluedot的专利,其实早在 2008 年,今天的AI“强手”谷歌,就曾进行过一次不太成功的尝试。 2008 年谷歌推出一个预测流感流行趋势的系统——Google Flu Trends(谷歌流感趋势,以下简称GFT)。GFT一战成名是在 2009 年美国H1N1 爆发的几周前,谷歌工程师在《Nature》杂志上发表了一篇论文,通过谷歌累积的海量搜索数据,成功预测H1N1 在全美范围的传播。就流感的趋势和地区分析中,谷歌用几十亿条检索记录,处理了4. 5 亿个不同的数字模型,构造出一个流感预测指数,其结果与美国疾病控制和预防中心(CDC)官方数据的相关性高达97%,但要比CDC提前了整整 2 周。在疫情面前,时间就是生命,速度就是财富,如果GFT能一直保持这种“预知”能力,显然可以为整个社会提前控制传染病疫情赢得先机。 然而,预言神话没有持续多久。 2014 年,GFT又再次受到媒体关注,但这一次却是因为它糟糕的表现。研究人员 2014 年又在《Science》杂志发布 “谷歌流感的寓言:大数据分析的陷阱” 一文,指出在 2009 年,GFT没有能预测到非季节性流感A-H1N1。从 2011 年 8 月到 2013 年 8 月的 108 周里,GFT有 100 周高过了CDC报告的流感发病率。高估了多少呢?在2011- 2012 季,GFT预测的发病率是CDC报告值的1. 5 倍多;而到2012- 2013 季,GFT预测流感发病率已是CDC报告值的 2 倍多。 (图表来自The Parable of Google Flu: Traps in Big Data Analysis | Science,2014) 尽管GFT在 2013 年调整了算法,并回应称出现偏差的罪魁祸首是媒体对GFT的大幅报道导致人们的搜索行为发生了变化,GFT预测的2013- 2014 季的流感发病率,仍然高于CDC报告值1. 3 倍。并且研究人员前面发现的系统性误差仍然存在,也就是“狼来了”的错误仍然在犯。 到底GFT遗漏了哪些因素,让这个预测系统陷入窘境? 根据研究人员分析,GFT的大数据分析出现如此大的系统性误差,其收集特征和评估方法可能存在以下问题: 一、大数据傲慢(Big Data Hubris) 所谓“大数据傲慢”,就是谷歌工程师给出的前提假设就是,通过用户搜索关键词得到的大数据包含的即是流感疾病的全数据收集,可以完全取代传统数据收集(采样统计),而不是其补充。也就是GFT认为“采集到的用户搜索信息”数据与 “某流感疫情涉及的人群”这个总体完全相关。 这一 “自大”的前提假设忽视了数据量巨大并不代表数据的全面和准确,因而出现在 2009 年成功预测的数据库样本不能涵盖在之后几年出现的新的数据特征。也是因为这份“自负”,GFT也似乎没有考虑引入专业的健康医疗数据以及专家经验,同时也并未对用户搜索数据进行“清洗”和“去噪”,从而导致此后流行病发病率估值过高但又无力解决的问题。 二、搜索引擎演化 同时搜索引擎的模式也并非一成不变的,谷歌在 2011 年之后推出“推荐相关搜索词”,也就是我们今天很熟悉的搜索关联词模式。 (责任编辑:admin) |