大数据行业中又出现了一例引人瞩目的投资,一家名为Crux Informatics的初创公司拿到了1000万美元的种子轮。1000万的金额不值一提,但这次投资的领投者是投行大鳄高盛。 Crux Informatics也只专注两件金融行业的事:第一,处理非结构化数据。第二,建立信息供应链保证各个金融机构的数据隐私,确保他们不被私自售卖和利用。 综合两点来看,Crux Informatics很可能是高盛在大数据领域最正确的一笔投资。 金融业有大数据?哈哈哈哈哈 说这话的原因,可以先用一个笑话来解答。 “Big Data is like teenage sex: Everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it too .” 大数据就像是青春期的性生活:每个人都在讨论,却没人知道到底要怎么做,每个人都觉得别人已经做过了,所以每个人都声称自己也有。
没错,在金融行业,尤其是传统金融机构中,大数据应用的比例要比我们想象中低得多。原因主要有以下两点: 第一,金融机构数据敏感性高,金融机构自身对数据的处理能力却不够。 每个银行的储蓄信息、证券机构的交易记录,这些数据不仅仅是我们作为客户的隐私,更关系着金融机构自己的经营状况、操作经验。交给科技企业来处理,没有意外万事大吉,可要是出了点什么状况,客户们忙着挤兑已经是最好的情况,要是有哪个程序员暗搓搓的用深度学习从交易记录中训练一个操盘模型……投行经营们只有哭的份了。 于是,我们会看到高盛、摩根大通这些大鳄这几年在人工智能技术方面的投资并不落后于科技企业。不过,那些中小金融机构该怎么办? 第二,金融机构中有大量非结构数据没能被利用。 关于结构化数据和非结构化数据的区别此前已经解释过很多,简单来说一类信息能够用数据或统一的结构加以表示,我们称之为结构化数据,如数字、符号;反之则是非结构化数据,比如图像、音频、视频、办公文档等等。 在金融机构自身产生的数据中,只有很少一部分是结构化数据,比如客户的存款数额、贷款数额、购买理财产品的编号等等。如果光用这些东西建立一个风控模型,相信一定是个不怎么精确,在市场上也没什么竞争力的模型。 而金融机构中最有价值的,还是那些非结构化数据,小到用户住址、学历、各种资产证明的复印件,大到操盘手们的交易记录。可这些数据都以图片、表格等等形式存在数据库中,没准还会定时被覆盖掉。金融机构自己是很难有能力处理这些数据的,根据结构化数据建立模型几乎是他们的极限了。可要是寻找外援来处理,就又回到了第一个问题,如何保证数据的隐私? 于是,为了解决这种迷之循环,高盛干脆找了一家能够一次解决两个问题的公司。 非结构化数据到底有多重要? 由于资料不足,我们暂时不能了解到Crux Informatics用来保护数据隐私的“信息供应链”究竟是什么,从字面上看,很有可能是区块链技术。不过,我们可以讨论一下保护数据的下一步:利用非结构化数据,对于金融机构来说到底有多重要。
先从最常说的风控谈起。我们理解的风控或许只是在放贷之前考察一下这个人有没有偿还能力,其实对于金融来说,风控常常贯彻在金融交易的整个过程中。 比如在涉及到工农业生产的供应链金融中,即使贷款主体有着足够的资质和偿还能力,金融机构更想看到的局面还是对方能够按时偿还贷款,而不是百般索求甚至没收对方的资产。这时动态的、精准的风控能力就非常重要。 最简单的例子:金融机构对历史数据进行整理,发现以往有过恶劣天气导致农作物歉收、贷款主体无法偿还贷款的情况。就可以在相同情况发生时,提前做出调整。 除了风控之外,在精准营销上非结构化数据也能起到作用。从广告投放到为客户推荐组合基金,每一步都需要对客户群体有着足够的了解。而想要了解客户,光靠存款金额是远远不够的。 (责任编辑:admin) |