香港挂牌全篇

个人金融借贷场景下大数据风控的行业分析及应

发布时间:2019-07-09

  大数据风控是现在金融科技公司白热化竞争的业务场景,那大数据风控到底是什么?这个行业前景如何?有哪些机构在布局竞争?有哪些产品形态?本文将围绕个人借贷场景,为你一一揭晓。

  大数据风控按照通俗的概念解析:通过运用大数据构建模型的方法对借款人进行风险控制和风险提示。

  由于本文主要指个人借贷场景,则目标人群是借款人。还有其他场景,例如信用卡场景对于信用卡申请人、购物场景针对分期用户、租房场景针对租金分期用户、投保场景针对投保人、投资理财针对投资人等。

  传统风控在2016年之前相对比较普遍,其特点是线下风控场景为主,需要用户填写一大堆个人信息及提供工作证明、流水证明、住址证明等,审核时间一般为1-3天,银行体系会更长3-7天左右。

  正常情况,一份用户资料表需要填写包括以下这些信息:姓名、性别、年龄、身份证号、家庭地址、学历、家庭人数、婚姻状态、单位名称、单位电话、工作职务、单位性质、收入来源、收入水平、配偶详情、经营企业详情、其他资质等信息。

  除了这些信息,还需要提供纸质的身份证复印件、工作收入证明(盖章)、半年银行流水、水电费或房屋租赁合同等。

  这些数据潜在的意义可以这样解读:除了年龄代表准入门槛,一般的借贷产品要求借款人需要有22岁以上才可以申请,现金贷产品会把年龄门槛放到18-20岁及以上。部分产品要求学历是高中及以上,或者要求非在校生。其他的分组后分别代表借款用户的还款能力,负债情况及信用情况(这里不细分还款意愿)。

  拿到这些信息及材料后,由风控专员凭借经验及按照标准化流程审核材料真实性。例如工作收入证明通过拨打公司电话核查有无本人及职位情况、其他资质材料看印章判断真实性,流水会打银行电话抽查真实性等。

  传统风控的模式及节奏是不符合互联网金融高速发展的节奏的,互联网金融时代都是按秒级几百上千用户群同时发起贷款申请,如果按照人工审核,从进件到批核整个流程可能要1个月时间都没法完成。

  传统风控向大数据风控的升级,即是行业发展的需要,也受益于各类用户数据被标准化对外,也就是API的形式对外输出,金融机构可以直接接入各种必须的数据接口,用于获取用户的数据。

  整个流程从用户填写将近所有的信息,变成只要提供姓名、身份证、银行卡号、手机号这个4个要素就可以获得全部或大部分风控必需的用户信息。

  大数据风控的快捷得益于各种标准化的数据接口,但由于代表用户的各种数据是分别存在与不同的机构中,这些数据原则上需要用户授权才能对外,而且数据输出需要进行合规脱敏的处理。

  所以,大数据风控需要获取到与传统风控要求用户填写的所有信息、或者直接或间接证明用户还款能力、还款意愿、负债情况及信用情况必须的数据,每个类型需要接入几个数据来源,缺失的类型还需要找到能够替代的数据接口。

  金融行业最常见就是投融资板块,投资板块,需要对非法集资、洗钱、资金盗刷等风险进行防控。

  借贷板块,需要进行贷前进行反欺诈及用户风险识别、授信风险评估、贷中风险评估及贷后风险预警。

  电商行业需要在用户注册环节进行防薅羊毛、对已注册充值用户需要防止其资金被盗刷、账户被盗及发生交易后对经常拒付的情况需要识别。

  保险行业特别是寿险产品,需要对投保人身份进行核实,防止有不良行为投保用户过审发生骗保。

  除了这些常见的行业场景,其实各行各业只要涉及到个人信息及资金交易的,都会用到大数据风控,唯一的区别就是针对不同场景的需要的数据及策略是不一样的本港台开奖现场报码

  这些机构拥有场景、资金、放贷业务三者全部或者其中一块要素,这些要素决定了其在大数据风控的竞争壁垒。

  代表有源源不断的数据,及精准的客群画像,可以无成本或低成本用于风控业务;

  表示在特定场景有一定的用户借贷表现的数据及基础的风控能力,部分机构的成熟风控能力还可以直接对外输出变现,切入到体系外的场景获取更多的数据。因此,数据量级、数据成本、风控经验、资金风险承受能力综合决定了一家机构在大数据风控是否有足够的竞争力。

  一个是不含房贷的国内消费金融市场规模及渗透情况。只要消费金融市场的存量客户,有复贷需求,且增量客群还有转化空间,代表着借贷业务是持续发生的,则这里对风控的需求是持续不断的。

  我国个人消费金融的市场规模从2013年的12亿到2018年的将近38亿,翻了3倍有多;而不含房贷的规模到2018年则到了8亿,渗透率为22.36%。如果到2020年渗透率可以提升2.5%,则市场规模有个3.5万亿的提升。这个空间足够众多公司在此竞争。

  大数据风控机构其中的一个收入来源就是数据接口的调用次数计费,这个调用次数息息相关的是借贷用户数量。

  而央行内收录的大部分信贷记录用户都是属于银行等相对高质量用户群体,这些群体都有可能下沉到非银系的互联网金融中发生贷款行为,同时不在央行体系的信贷用户,都是互联网消费金融机构的潜在客户。

  通过央行查询量,可以侧面知道在银行体系信贷需求的用户数量,这部分用户80%以上是无法获取银行体系的贷款的,因此理论上是可以成为消费金融机构的潜在客群。

  2015年的6.3亿次查询到2018的17.6亿次查询,说明需要信贷的用户非常多,但这么大的查询量,有信贷记录人数才增加了1亿,说明大部分用户都无法获得贷款或者非常需要贷款,会同时在多个机构申请贷款,才会每人产生近10次的查询次数。

  除了消费者外,产业链中的各个角色都有附加风控及征信机构角色的可能,对外输出大数据风控能力。

  对申请借贷的用户群体进行反欺诈识别,识别要依赖于风险名单,高危名单(在逃、黄赌毒、涉案)、法院失信被执行人等名单,另外还有虚拟手机号、风险IP、风险地区等名单,通过名单进行反欺诈识别。

  再深入点,可以在用户使用的设备端进行反欺诈识别,查看是否是风险设备;还可以通过群体关联,找出是否团伙欺诈行为。例如申请集中在一个IP地址,一个户籍地,通讯录都有同一个人联系方式等。

  进行借贷同行业身份核验。在反欺诈识别过程中,无风险用户来到身份核验环节,这里可以通过身份证2要素接口,核验用户的姓名身份证号是否正真实;通过活体识别判断是否用户本人在操作;通过运营商核验接口,核验用户的姓名身份证手机号是否一致,手机号是否本人实名使用;通过银行卡核验,核验用户的提供的银行卡是否本人,防止贷款成功后,贷款资金到他人账户被冒用。

  授权信息获取,针对身份核验通过的用户,进行有感知或无感知的必要信息获取,为后续模型评分准备好数据。无感知获取的包括多头借贷数据、消费金融画像数据、手机号状态和时长数据等;有感知(需要用户提供相关账户密码)获取的数据有:运营商报告、社保公积金、职业信息、学历信息、央行征信等。

  借贷用户的分层及授信,针对以获取的用户相关数据,根据不同的算法模型输出针对用户申请环节的评分卡、借贷过程的行为评分卡、授信额度模型、资质分层等模型。不同机构对于不同环节的模型评分叫法不一样,目的都是围绕风险识别及用户资质评估。

  之前环节获取的数据大部分还可以用于贷后监控,监控各项正常指标是否往不良转变,例如本来无多头借贷情况的,申请成功贷款后发现该用户在别的地方有多笔借贷情况,这时可以将该用户列为重点关注对象,防止逾期。

  此时需要催收的主要针对失联部分客户,这部分客户在贷款时填写的号码已经不可用,需要通过大数据风控公司通过某些手段获得该客户实名或非实名在用的其他号码,提高催收人员的触达几率。

  这些数据维度基本可以直接或间接体现用户的还款能力、负债情况、信用情况及其他潜在风险,大部分数据维度都已在金融信贷风控环节得到有效的验证,除了个别场景对于少部分类型数据不太合适外。

  这些数据都经过标准化的处理,且在其体系内与合作的借贷机构客群最低的交叉比例超过40%以上,也就是借贷机构的100个用户中可以在这个数据接口中查到其中40人及以上的数据。

  还有一些原因是这些数据来源的更新频率足够满足风控公司的要求,特别是高风险名单这些要求是实时的,而身份证要素这些则无需更新实时问题也不大。

  借贷数据数据源头:央行征信中心、有信贷业务的银行、消费金融机构、小贷公司、P2P及有放贷业务的金融机构(保理机构);

  出行数据数据源头:中航信、铁路总局、出行APP、运营商、有定位的APP;

  兴趣爱好数据源头:运营商、各类PC平台网站、各类APP、搜索引擎、手机系统商。

  其实以上源头直接从事数据输出业务的只是一小部分,原因是大部分源头公司对数据合规输出及场景管理无专门部分负责,而且数据业务盈利不是其主要的业务。

  因此活跃在大数据风控行业,提供数据业务的是一些通过相关关系获得代理权的数据代理商,及为这些源头公司提供系统服务的系统商。

  专家经验模型的流程是将遇到的新问题(新申请用户的资料)作为入参,风控专家根据历史出现的情况(不同客群的好坏表现)归纳起来,从中找出相关规律(A客群对应好的,B客群对应坏的,C客群没遇到过,但可能是好的等),从而判断新问题可能发展的路径情况(新客户贷后是好的或者坏的)。

  算法模型,主要依赖统计学公式,流程是将新数据(新申请用户的资料)作为入参,算法模型(随机森林、决策树、逻辑回归等)在大量的历史客户样本喂养后,已经可以区分出不同客群的好坏表现,从中而判断新用户在模型结果中对应的是好还是坏客户分类。这其中会引入第三方的数据源(KS 、IV、AUC等都是判断第三方数据有效性的指标),看哪些数据能够提升算法模型的识别准确率。

  其实从流程看出,算法模型无非把人工经验环节换成了算法模型替代,以此实现批量找出能够判断好坏客户的规律,并将其标准化。但遇到一些不在历史数据中的情况时,算法模型就可能无效,需要人工参与调优,为了解决新问题算法模型表现不太好的情况,现在有机构尝试用新的算法或逻辑去模仿人工调优这个工作。

  SDK:爬虫类产品、设备指纹等;例如学历爬虫接口,输入用户账号密码可以登录学信网将用户的学历学籍信息爬取下来。

  API接口及SDK一般是有风控模型团队机构需求较大,需要详细字段入参来喂养模型;部分无模型团队的机构,但有技术部门支持开发的,一般喜欢直接采用API的评分或H5报告;而机器模型及决策引擎主要是有钱但不熟悉风控行业或者现有技术团队不熟悉大数据风控的,会直接购买模型及决策引擎直接启动信贷业务。

  以上的产品形态主要还是针对B端客户,有些大数据风控机构开拓C端业务的推出APP内置报告的产品形态。

  同时由于有消费金融需求的个体基本都得到了刚好甚至超出其还款能力的信贷服务,因此开拓新客群的获客成本明显高于前两年,这是大多金融机构合规产品获利能力无法覆盖的,规模维稳甚至紧缩的情况导致提供个人风控的大数据风控机构的收入水平其实在下降。

  另一个状况是针对小微企业端的风控服务重新被大数据风控机构重视并逐渐加大研发力度,望在小微企业风控的白热化到来前,先占据一定的市场规模,形成有力的壁垒活下去。

  人人都是产品经理(是以产品经理、运营为核心的学习、交流、分享平台,集媒体、培训、社群为一体,全方位服务产品人和运营人,成立8年举办在线+期,线+场,产品经理大会、运营大会20+场,覆盖北上广深杭成都等15个城市,在行业有较高的影响力和知名度。平台聚集了众多BAT美团京东滴滴360小米网易等知名互联网公司产品总监和运营总监,他们在这里与你一起成长。