因此,阳光宝利市场研究部认为,可以预期,在将来个人征信牌照发放之后,P2P大数据征信应该首先通过社会学背景和现金流这两个简单维度进行探索,同时等待自然语义研究的发展以及数据分析与市场研究单位打破双方之间的技术壁垒顺利对接,才能开始真正意义上的大数据征信时代。
第三,大数据分析与市场研究的鸿沟。这一点是目前大数据征信面临最大但也最容易被人忽略的问题。当大数据还只停留在数据层面上时,对于P2P征信是没有意义的,必须有人将数据转化为结论,有何种上网行为的人按时还款的可能性更高,有哪些信息偏好的人更容易违约等等,这些问题无法直接反映在大数据的分析结果上,此时就需要有善于解读和分析客户行为的市场研究方通过市场研究手段进行数据解读与建模,然后才能被P2P公司应用。因此,大数据能够完全应用到P2P征信领域的前提是大数据部门与市场研究部门的对接融合,将数据转化为结论。但目前这两个部门之间存在非常严重的鸿沟,试想,一群连马斯洛都没听说的数据分析工程师与一群连oracle都不会读的市场研究人员之间在沟通时如何相互理解?因此目前中国整体大数据领域面临的最大问题就是数据分析工程师已经写出了大量的算法代码,但不知应该怎么用,而市场研究人员也做了大量假设和建模,但不知道怎么实现,双方在沟通的时候都在自说自话,沟通之后都发现自己什么都没听懂。这也就导致了大数据还只停留在一些有成型模型的宏观层面应用,无法深入到像P2P征信这种细化到个人行为判断的深度。
第二,自然语义分析。大数据征信中有大量需要应用到自然语义分析的工作,如信息偏好等,都需要将文字转化为可以量化的数据,然而由于汉语不是进制语言,计算机无法直接识别,所以只能依靠自然语义分析,但汉语词语组合极其复杂,自然语义分析最基础的工作分词依然无法通过计算机完成,目前所有自然语义分析都是基于词库分词,效率极其低下,完全无法适应用户互联网使用习惯的快速变化。
第一,非结构化数据处理。在年初的百度大数据论坛上,百度公司的数据科学家就曾提到,目前百度大数据面临的最大问题就是无法从海量非结构化数据中筛选出有价值的数据,百度公司每天净增数据量大约为1PB,其中至少99%是无效数据,如何从中筛选出有效数据目前还是一个无法攻克的难关。
P2P行业大数据征信前瞻可见,大数据征信可以极大的丰富目前P2P行业的征信系统,虽然无法起到替代作用,但是可以从更多维度进行判断。但是排除政策等系统性障碍,大数据征信目前还面临着几个严峻的问题,导致不能完全发挥效用。
消费场所信息:消费场所档次特征可以代表消费能力,通过APP发送定位信息获得。
迁徙特征:可判断是否为本地人、旅游目的地偏好等,通过APP发送定位信息获得;
人际网:根据社会分层理论,社会人总是在和自己同一层次的人互动,通过APP读取联系人信息获得;
消费习惯:消费习惯代表消费能力,通过用户消费记录获得;
P2P,P2P行业大数据征信前瞻信息偏好:不同阶层用户信息偏好同样有显著差异,通过用户搜索习惯获得;
操作习惯:不同职业的用户操作习惯有非常显著的差异,可以用来佐证用户职业类型,通过用户操作习惯记录系统获得;
现金流:判断经济状况的基础维度,通过宝宝类产品、第三方支付等数据获得;
社会学背景:最基础的分析维度,通过用户注册信息获得;
从目前阿里巴巴和百度拥有的数据资源判断,笔者认为未来P2P大数据征信的数据框架大概如下:
P2P行业大数据征信前瞻阿里虽然始终没有公布其大数据的研究成果,但是阿里巴巴已经开放大数据平台,同时保持每年暑假都举办大数据竞赛,吸引了大量优秀人才参与大数据分析工作中,又将这些人才的个人电脑纳入了大数据云端处理系统,增强了数据处理能力。在阿里巴巴成功IPO后,更是将大数据列为其募集资金的三大投资领域之一,因此即便其还没有成型的大数据研究成果出炉,但是可以预见阿里巴巴在这一领域应该很快就会有所建树。
目前,有这种复杂数据积累并且已经具备大数据分析基础的公司只有两家——百度和阿里巴巴。几乎所有中国网民都会使用百度或阿里巴巴的产品,因此这两家公司有足够的数据储备。同时,这两家公司都在至少五年以前就开始投入大量资源探索大数据业务。百度公司已经有一系列探索性质的大数据分析结果公布出来,根据这些分析结果判断,百度在大数据分析技术上已经趋于成熟。其研究成果最具代表性的就是百度经济指数预测。
在讨论大数据征信问题之前,首先要明确所谓大数据的概念。很多人以为,数据规模大就是大数据,这种观点是错误的。所谓大数据,不但数据规模大,而且最重要的是要数据结构复杂。正如前文提到的央行征信系统,其中包含了8亿居民的信用卡信息,规模巨大,然而由于只包含这一类信息,数据结构极其简单,因此并不能称之为大数据,充其量只能称其大型数据库。数据结构复杂要求针对数据库中每一个实体都有非常多属性的数据,以个人来说,不但要有各种社会学背景、财务数据等等,还应包括上网习惯、操作行为、移动路径等等一系列的数据,达到这种复杂程度的数据结构才能被称为大数据,才是P2P征信需要的大数据。
9月23日,由上海市经信委、上海市金融办指导,上海市信息服务行业协会牵头编纂的《2014上海网络信贷服务业白皮书》发布。白皮书显示,目前央行征信中心针对拥有信用记录公民收集的信息共包含两类。一类是个人基本信息,另一类是信用卡消费及还款记录。但P2P网贷行业判断借款人信用评价的数据包含手机清单、个人收入证明、社保信息、家属身份信息、驾照信息等多达34个信息类别。这一现象充分显示了央行征信系统的局限性,因此,一直备受关注的P2P行业大数据征信再次引发关注。借这个机会,阳光宝利市场研究部希望对P2P行业大数据征信进行一次前瞻分析,简单解读这一趋势的特点与动态。
温馨提醒:随时光飞逝,岁月变迁,文章观点,准确性、可靠性、难免有所变动,因此文章观点仅供参考!