爬虫应用

从今年开始,爬虫行业竞争越发激烈。
一些公司开发出“骨骼清奇”的爬虫产品,开始抢夺市场。
最近,现金贷行业出现一种“同业爬虫”产品,可以直接将其他现金贷平台的放款额和风控数据爬出来。
“别人放多少,我就放多少,自己都不用做风控了”,某产品使用者称,这一“风控奇招”在圈内开始悄然盛行。
大数据行业激烈竞争,爬虫在其中越发势力微薄,他们只能靠这些剑走偏锋的产品突围了吗?
爬虫凶猛:支付宝、微信、现金贷放贷数据无一幸免
01爬虫凶猛
“同业爬虫?!”
第一次听到这个词,王浩一脸懵逼。
两个月前,王浩的公司转型现金贷,他在市面上四处寻找风控系统和数据源,此时,摩羯科技的商务人员,给他推荐了这个最新的“爬虫产品”。
“对方说,这是一款特别讨巧的产品,用了之后,你基本可以不用其他风控”,当王浩明白其背后的逻辑后,“不得不服”。
如何检验借款人是一个好用户?
最简单的办法,就是看这个用户在其他现金贷平台上的授信额度,“别人放款多少,我就放款多少”。
王浩称,这就相当于别的现金贷平台,帮你做了风控。
同业爬虫是一款专门爬取现金贷数据的产品,只需要你提供其他现金贷平台的用户名和密码,就可以爬取用户的所有信息。
“这个产品,最早是我们给玖富定制的,他们使用了一年,爬过100多家同业的数据”,摩羯科技的商务人员称,后来发现产品运行不错,所以决定变成产品大规模推广。
爬虫凶猛:支付宝、微信、现金贷放贷数据无一幸免
具体怎么做到的?摩羯科技的商务人员,用爬取某个现金贷平台举例:
爬虫凶猛:支付宝、微信、现金贷放贷数据无一幸免
而返回的结果,主要是以下信息:
爬虫凶猛:支付宝、微信、现金贷放贷数据无一幸免
如果条件允许,甚至会有更为细致的数据维度:
爬虫凶猛:支付宝、微信、现金贷放贷数据无一幸免
“也就是说,你在其他现金贷平台注册填写的所有信息,都可能被爬出来”,王浩称。
“只需用户授权账号和密码,成功率在85%以上”,魔蝎科技的商务对一本财经称。
而产品说明中,同业爬虫的优势被描述得极为诱人:相对于电商、社交等弱数据而言,同业数据本身属于金融范畴,最能反映个人近期的征信信息。
在没有足够能力做大数据风控的情况下,同业爬虫可借鉴多平台的风控经验。
爬虫凶猛:支付宝、微信、现金贷放贷数据无一幸免
“这个方式太野蛮了,直接把别人家的风控成果窃取”,王浩称,这和信用卡“以卡办卡”的道理很像,如果你有别的信用卡,我就给你发卡,“但是这个方式直接把同业数据全部掠夺,粗犷多了”。
产品一出现,不少准备做现金贷的平台就蜂拥而至。
在人人都做现金贷的时代,这个“剑走偏锋”的技术,确实省去风控环节,让项目得以快速上线。
而更多有趣的爬虫产品,在不断推向市场。
大家都知道支付宝的数据“金贵”,市面上开始出现一些专门爬取支付宝数据的产品。
摩羯科技的支付宝爬虫产品操作极为简单,只需要用支付宝扫描一下登录“二维码”,就可登录。
而后台的爬取结果无比细致:支付宝用户的真实姓名、手机号、收货地址、近一年的购物信息,甚至详细到每笔交易的金额。
爬虫凶猛:支付宝、微信、现金贷放贷数据无一幸免
“这个产品挺可怕的,我和商务在测试这个产品时,中间去小卖部买了包烟,回来就发现爬取了这次交易”,某业内人士称。
爬虫产品远远不止这些。某大数据公司的业务员称,公司最近开发了新项目,可爬取旅行网站、外卖平台、地图、共享单车等平台的个人信息,甚至可以定制化抓取,“拿到第一手鲜活原始数据”。
爬虫越发凶猛,而其背后的原因,要从爬虫行业的生产现状说起……
02光明与黑暗
爬虫技术也并不神秘,无非分为三步:“爬”上网页、“铲”下数据,进行加工清洗。
爬虫有光明的一面。
类似百度谷歌这样的搜索引擎,其核心逻辑,也是爬虫——爬到用户要的关键词,再展现搜索结果。
“让有价值的东西,更好地呈现,这是爬虫最大的功劳”,一爬虫公司的联合创始人金苑称。
爬虫也有黑暗的一面。大数据时代,爬虫成为低成本获取数据的捷径,经常沦为“黑暗武器”。
2014年,互联网创业高潮中,爬虫技术迎来了一次小爆发。“爬虫生态链里有这么一类公司,专门替人爬虫,增加APP的虚拟访问量”,金苑称,1万浏览量,报价10元。
“很多公司去竞争对手网站或APP上爬数据,然后拿过来自己用”,金苑称。
在2016年,有媒体曝出,大众点评网起诉百度,称百度未经许可,使用爬虫技术从“大众点评网”上大量获取用户点评信息,用于自家的百度地图及百度知道产品。
最终一审判决,要求百度停止不正当竞争行为,并赔偿323万。
光明与黑暗的交集中,爬虫行业在2016年,才迎来了真正爆发。
2016年,现金贷行业成为爬虫产品的最大买家。
爬虫公司为其提供五花八门的服务:例如爬取淘宝、社交网络、网上银行等。
“不管是网站还是APP,只要有账号密码就可以爬,连央行的征信报告都能爬”,某数据负责人声称,“技术好,就没有爬不到的数据”。
这其中最火的产品,是通话记录(运营商数据)爬取。
在这一波浪潮中,崛起了众多爬虫公司,其中做得最大的是“聚信立”。
“爬取通讯录,主要是用于用户失联后,可以找他们的亲朋好友催款”,某平台的风控负责人平元鑫称,但通讯录的伪造成本较低,“将联系人改一个号码就行”,有时候可能会失效。
而通话记录的数据,则可靠得多。
爬虫凶猛:支付宝、微信、现金贷放贷数据无一幸免
而爬取方式也很简单,只要用户提供手机号码和服务码,就可登陆各大运营商的系统爬取。
聚信立爬取数据后,提供给客户的“个人用户报告”极为细致:包括通话号码、次数、时长等信息。
“聚信立爬取一次的价格,是1到3块,但也成了现金贷公司的标配,聚信立赚了很多钱”,平元鑫称。
“你就算吧,每放款一个用户,就得支付聚信立1到3元,如果用户去其他平台借款,还要再收一次”,平元鑫认为,聚信立成了现金贷时代的最大赢家之一。
某种程度上,爬虫技术撑起了现金贷的黄金时代,为其提供大量的风控养料。
但爬虫行业的好日子,并没有持续太长时间。
在聚信立的领头下,大量的公司开始涌进——市场热闹起来。
“成立的公司越来越多,但大部分都是代理商,真正有爬虫技术的,也就30多家”,金苑称。
为了抢夺用户,行业开始打价格战,甚至免费。“比如,融360和富数,都是你买他家产品,可能会免费附赠爬虫服务”,金苑称,很多公司卯足了劲,开始追赶聚信立,抢夺客户。
爬虫产品同质化严重,客户挑选的标准,自然变成“谁家便宜用谁”。
突然间,一门好生意,变得挣钱都难了,爬虫行业陷入艰难存活的旋涡中。
“尽管爬虫没有门槛,找几个技术就可以干,却是一个脏活累活”,从事爬虫工程师三年的韩苏称,几乎每天,爬虫和反爬之间都在战斗。
每天早上一坐到公司,打开电脑,韩苏就知道,今天的战争开始了。
“谁都不想把自己的数据免费贡献出来,为了反爬,他们也会动用一切手段”,韩苏称。
比如,对于单一IP和设备频繁登录,直接封掉;网站调整为动态的,只有正常用户行为,才能调取数据等等。
“比如以前一个移动商城只要一个短信验证码,后来升级了,验证码又加了一个,我们就得重新写爬虫代码”,韩苏称。
在爬虫公司,后台会有一套监控系统,可以实时看成功失败的比例。
而韩苏需要每个小时去查看一次,一旦失败率上升,就要马上找到原因,并处理。
近来机器学习、canvas指纹等新技术,也被频繁用到反爬软件里,爬取难度越来越大,数据越来越不稳定。
“爬虫开始变成一个重运营、重技术的活”,韩苏称,数据稳定性,成为爬虫公司最大的宣传点。
“前有伏兵(反爬),后有追兵”,韩苏如此形容夹缝中的爬虫行业。
03未来之路
今年6月1日,《网络安全法》开始实施,无比严苛:
未经授权爬取用户手机通讯录超过50条记录,公司法人最高可获刑3年;
未经授权读取用户公积金社保记录的超过5万条的,公司法人最高可获刑7年。
整个大数据行业面临生死劫,上万数据接口关停,大量数据源被生生切断,行业90%的公司面临淘汰。
而有意思的是,在这轮清洗中,爬虫技术却成了最后的救命稻草。
“安全法规定,获取用户的数据,必须授权,而爬虫就打了一个擦边球”,某大数据公司的CEO称。
“爬虫需要用户授权用户名和密码,只是大部分用户不知道,爬取的数据如此具体,将他所有数据翻遍”,该CEO称。
但激烈竞争依然存在,爬虫行业未来的命运又将如何?
很多爬虫公司为了存活,各种产品开始出现,如同业爬虫、支付宝爬虫、而摩羯科技的最新产品,是爬微信。
爬虫凶猛:支付宝、微信、现金贷放贷数据无一幸免
但多位业内人士称,这样的竞争方式,不是“康庄大道”,而是“羊肠小道”。
业内人士称,现金贷早期,客户资质都比较好,后期骗贷和欺诈的都来了,只靠简单的爬虫技术,很难挡住他们。“爬虫公司要提供更多价值,比如,给对方的风控产品,定制化数据,或者自己也可以建立风控模型”,金苑称。
已有几家头部公司开始了转型的尝试,一家爬虫公司正准备将所有数据整合,做一整套的现金贷风控解决方案。而老大哥“聚信立”,也有这方面的尝试。
“现在最关键的能力,不是建模能力,而是整合和清洗能力”,聚信立的CEO罗皓对一本财经称,因为数据维度越来越多,电商、支付等信息,可能都关系到“还款能力”,需要整合起来。
但这条路,也不是很好走,因为很多大数据公司和风控产品公司,都在这块领域抢肉吃,爬虫公司又如何和他们竞争?部分从业者对于爬虫技术的未来命运不太乐观,在大数据行业,没有独家数据源的公司,都难以存活,何况没什么门槛的爬虫技术?
“孤立无支的爬虫技术,竞争力越发微弱。被收购,成为大数据公司或者大公司的一个爬虫部门,也许也是一条出路”,金苑称。
“存在即是合理”,也有部分从业者比较乐观,现金贷的黄金时代,他们永不会缺业务。
在大数据的涅槃重生时代,爬虫行业也到了一个关键节点。
是深耕行业,还是剑走偏锋,他们可能会走向两条截然不同的路。
聚信立:获得京东投资的互联网征信平台
罗皓,是聚信立创始人兼CEO,更是大数据行业的“老兵”。
SAS认证是国内商业银行广泛运用的分析建模工具,而罗皓是中国前十位通过该认证的统计师。他先后在通用电气、渣打银行、Discover工作七年半,主要负责信用卡和个人贷款模型、分析和决策引擎方面的工作。
2011年,罗皓选择创业。当时网络社交兴起,而用户在网上留下的信息是非结构化的,品牌商需要对用户需求进行分析。因此,罗皓将创业方向定位为网络舆情监控和广告监控,帮助肯德基、麦当劳、路虎汽车等品牌商分析用户网络信息。
两年之后,罗皓调整方向,也是聚信立现在的重心,即利用大数据帮助信贷机构判断借款人的风险。
在罗皓看来,大众对征信的认识过于狭隘,往往以为征信主要应用于信贷,实际上征信的想象空间体现在各行各业,不同的行业价值和侧重也各有不同。
罗皓认为,征信本质上都是分析人,信贷业用来防止信用风险和欺诈风险,而其它领域则有助于甄别客户的商业价值,例如进行客户管理、预防客户流失、判断客户长期价值等。
因此,罗皓并不将聚信立单纯定义成征信公司,而是基于数据技术为客户提供更多范畴的服务。除了信贷外,聚信立还拓展保险领域,除风控外,还提供客户甄别等服务,以此逐步拓宽聚信立的商业范畴。
成立时间:2013年8月
融资记录:
2013年7月获数百万元天使轮投资
2014年5月获数百万元Pre-A轮投资
2015年1月聚信立获得B轮融资
产品里程碑:
2013年7月上海诚数信息科技有限公司成立,获得纽信创投数百万元的天使投资
2013年8月聚信立上线
2014年5月获合力投资数百万元Pre-A轮投资
2015年1月聚信立获得京东商城2800万元A轮战略投资
创始人:罗皓
聚信立创始人,Infomorrow和微决策的联合创始人及CEO。本科在湖南大学精算系就读,研究生在爱尔兰学统计,是国内第一批取得SAS统计师的人。毕业回国,先后在通用资本、渣打银行、摩根史丹利发现金融公司做个人信用评估和风险评分卡开发。
CTO:楚星晨是Infomorrow和微决策的联合创始人、CTO, 资深云计算专家,湖南公益性创业沙龙“八月俱乐部”创始人。
 
聚信立目前已经为包括积木盒子、点融网、你我贷以及浦发银行信用卡在内的 120+ 个金融机构提供了服务,主动要求被他 " 人肉 " 的借款人已经超过了 800 万 ( 被毙掉了多少他没说 ) ,这时罗皓等来了京东商城 2800 万元 A 轮融资。
对于互联网金融企业来说,60%-70% 的风险是由金融欺诈造成的,信用不足征信缺失是根源,申请屏蔽掉的劣质借款人越多,就越能最大程度上避免借出去的钱肉包子打了狗。
同样是在网络上 " 爬 ",聚信立的网络爬虫爬过的地方更多面积更广,因此数据源下沉的深度和覆盖的广度更深更远。一句话,爬的够深够远,获取的信息才能更多,得到的结果才会更准确。
罗皓告诉创业邦,闭门升级中,他主要干了两件事,第一件事是放弃之前的社交数据分析产品,专注于以中小互联网消费金融企业为主要对象的大数据分析产品,将数据分析的维度从 50 个扩展至 5000+ 个," 爬虫 " 爬过的网站超过 100 个,接入数据接口增加到 80 个。
第二件事是直接技术升级,在常规的分析报告、PPT 之外开发出聚信立大数据分析工具,通过 API 接口切入 B 端客户平台 ( 包括 PC 端、移动端 ) ,利用一个或两个页面,植入平台借款申请流程场景中,在借款人通过页面申请借款时,直接形成风险评估。
其实对于借款人资质的审核有点像猫捉老鼠,只是对象换成了劣质借款人。这个捉老鼠的过程,如果靠企业自己对借款人挨个考察,然后审核放款,估计分分钟都是死掉的节奏,而聚信立的互联网大数据解决方案,却能够帮助借贷双方实现 " 秒批 " 和 " 秒放 "。
数据沉淀,缺少征信接口,怎么使个人自愿交付数据源 ?
聚信立希望能够通过 B 端来驱动 C 端主动授权提供个人信息,而网贷、小贷公司是最好的突破口。比如有借款人想要在 B 端客户平台借的资金,必须提供相关的证明或者抵押来证明自己的还款能力。
那么,谁来证明 ? 怎么使个人自愿交付数据源 ?
罗皓说:" 这其实是一个比较简单的逻辑,一般情况下,个人授权企业提供个人信息基本不可能,只有在 C 端需要以个人征信数据来背书时,才能发生,我们要做的就是通过大数据分析产品,链接数据端和资金端,使交易成立。"
爬虫凶猛:支付宝、微信、现金贷放贷数据无一幸免
聚信立大数据分析产品流程图
虽然从 C 端收集数据,但聚信立并不主动与 C 端直接接触。如果 C 端客户需要从 B 端获取资金,B 端企业会要求客户提供由聚信立提供的信用评估,这种情况下,C 端客户为了快速顺利的从 B 端拿到资金,势必将授权给聚信立,聚信立就能轻松获得借款人数据源,并通过后台 " 爬虫 " 搜集信息,将非标准化信息整合标准化,最终形成对借款人的综合评估,反馈给 B 端企业,有效过滤掉劣质借款人,降低坏账率,提升风控能力。
2015 年,京东不只是投了聚信立,也与 ZestFinance 展开投资合作,对此罗皓说:
"与 ZestFinance 更像是‘产米’和‘做饭’的关系,聚信立主要是提供原材料和原材料加工,一句话,我们负责‘产米’,ZestFinanc 负责‘做饭’。"
事实也确实如此,如何对已有数据进行分析、建模、统计方法基本一致。国内大数据分析的痛点不是技术而是数据源,是下锅的米。没有数据源,再好的技术也犹如巧妇无米将难以成炊。
ZestFinance 的主要优势在于其建模以及分析能力,在美国本土进行信用评估时,完善的征信体系是其重要支撑,传统征信数据占比至少 30% 。而国内则恰恰相反,传统数据征信占比重不仅小,且大多掌握在传统机构和巨头手中,许多中小企业有心无力。
如果按照整个大数据产业链划分的四个环节即数据采集、数据存储、数据处理和数据应用来区分的话。罗皓说,聚信立和 ZestFinance 各自居于大数据产业链条的不同位置,聚信立更偏向于前端,ZestFinance 则重于后区,未来双方更多的是优势互补的合作。
而对于京东来说,确实下了一手好棋,通过与 ZestFinance 合作投资聚信立,完成了整个大数据产品链条的布局。
5000 多个维度会不会太多了点?!
从罗皓的语气能知道,他真心不觉得多,且表示还要继续增加 ! 用他的话说,随着技术更新,个人的衣食住行,以及生活工作社交等场景都在互联网化,因此数据源的深度与广度也应不断丰富更新。
2016 年,在分析维度中将增加 O2O、金融交易类产品等诸多方面。变化的将不只是数据源,聚信立计划拿下更多的小贷公司,并将触角延伸至股份制银行和城市商业银行,导入银行接口,帮助银行将信贷产品从高质量客户向下沉,拓展客户群体。而据他讲,B 轮融资也已经在路上了。
聚信立利用大数据风控帮助解决借贷行业的哪些问题?
卢晓明 • 2016-12-21 
反欺诈、多头借贷、信用风险、催收,是风控的四个重要方面。
征信系统一般记录的就是三个问题:谁借了、谁批了、谁还了。那每个环节可以要解决的又是什么问题呢?其中,大数据风控可以作用在那些方面?
今天,聚信立CEO罗皓在“信任危机”时代的风口论坛上做了《互联网大数据在信贷行业的逻辑》,分享了利用大数据做征信的底层逻辑。
正如上面所说,中国人民银行的征信系统也一样,记录的一般是人的借贷历史、审批结果和还款记录。然而在中国,由于征信体系不完善,有很多人没有人民银行的信用记录。那么,如何判断这些人的信用呢?
“现在做的,都是猜测,”罗皓如此说道,指的是目前中国一些公司称利用用户网页浏览数据或者社交数据去评估用户信用的做法。曾经在美国公司做过风控的他说,在美国用设备指纹等技术去判断信用是很少的,做社交的公司是不敢用自己的数据去解决信用问题。其中的原因,一个是美国的法律未必允许,另外一个是因为美国征信系统覆盖的人群很广,不一定需要用到上述数据。
昨日,宜信CEO唐宁说了一个类似的观点,虽然背后的原因未必一样。他认为,互联网数据,顶多只可用在一些涉及数百元交易的轻应用、或者自身的生态系统中。但如果要做真正的信用评分与判断,不可单独依赖互联网数据,必须要和传统的信用数据、违约欺诈数据等结合在一起。
而罗皓则提到了隐私的问题,他表示,一旦想到自己的通讯录、聊天记录等,都被人获取用来作分析,这想起来是个很让人后怕的事情。跟腾讯的人交流过,腾讯也表示不会、也没有权限用用户的数据来做评估,顶多只有政府的特定部门可以用。
因此,他相信,未来一定会由政府牵头去收集人的借贷、审批、还款记录来处理信用评估,要解决的问题与今天一样,只是以前是线下,现在是线上。
信用评估一般是要了解两个问题:
1、  这个人有没有打算过还钱,也就是说,这个人是不是个骗子。这其实是个反欺诈问题。
2、  这个人有没有能力还钱。这可能涉及到他/她的财产状况、抵押物状况、家庭状况等问题。
判断人的身份情况:反欺诈
罗皓表示,第一个问题在中国很严重,银行等金融机构有60%的损失来自于此,其中还有很大部分是集团欺诈。而要解决这个问题,目前则主要识别一个问题:这个人是不是本人?
在这一步欺诈可能有两种情况,一是冒用身份,骗子往往会用别人的身份证,到三四线城市去收农民之类的人的身份证信息,甚至一次能收集数百个人;二是借钱行为实际上是机器人完成,可能就是个脚本。
因此,线上反欺诈其中一个要解决的问题就是,你是不是你,是不是本人。
在现实世界中,有身份证去验证这个问题。
在网上则有不同的ID与这个问题相关,在这里,他引入了一个用“身份的强度”的概念。他指出,评估这个身份的强度,有很多比较大的机构用的是cookie,但cookie有其局限;还有强一点的用设备指纹,像同盾和talking data,这个强度比cookies高一点;现在,不少人围绕手机号去做;还有利用身份证识别的,比如国政通;第五种,则是人脸识别;美国还有使用声纹识别。
判断人的还款能力:信用风险
上面说的是身份识别问题,这个问题在线下一般难度不大。至于这个人有没有能力还钱,也就是财务能力,则是线下也需要解决的问题。
目前,线下一般通过了解两个问题来评估财务能力:一是你能赚多少钱,也就是你的收入;二是你有没有值钱的东西,也就是抵押物,可能是房、股份或其他权益类资产。
虽然可以通过收入和抵押物等评估财务能力,但线下的借贷行业,也存在以下三个痛点:集团欺诈、多头借贷和借款用途。
判断一个人是否存在多头借贷
上述已经提到如何反欺诈,而第二个痛点,多头借贷,也就是一个借款人凭借同样的信用额度在多家机构借这个额度,实际上就超出了他/她能承受的额度。要解决这个问题,贷款机构需要信息共享。做征信的聚信立目前也在收集很多非银行的机构的借款记录,机构可以接入类似这样的第三方征信机构的产品。
第三个问题,借款用途,也就是你把钱用到哪里去了,线下借款常常会面临借款人擅自挪用借款用途的情况,他指出,这也是消费金融为什么会那么火的原因,因为这解决了借款用途的问题,风险相对比较低。
不过,他也表达了自己的担忧——中国的消费金融通过率很高,消费金融出现了一些问题,比如消费场景的老板捐款跑路。他说,他在东莞见过,有些手机店只营业两三天,目的就是为了找一群工人来在网上申请消费借款,然后老板从中卷款获利。
这也指出了风控可能要关注另一问题:要关注场景本身的数据,信用情况如何,而不仅仅是借款人的信用,这就涉及到小微企业的征信问题。
有利于解决催收问题
最后,评估完身份识别、还款能力之后,在催收这个环节上,数据可以解决什么?
正如他在上面提到,中国借贷的损失,有60%是因为欺诈,另外40%是因为真的还不起钱,这种情况下一般会启动债务清算计划,以减少损失。
不过,罗皓指出了一个数据,在不还钱的人里面,有80%,会在三个月之后完全找不到人,数据就在这个问题上发挥作用,帮助债主找到借款人。
罗皓表示,聚信立便是如上,从底层去思考整个行业,思考借贷行业使用数据的逻辑:尝试解决集团欺诈、多头借贷、还款能力三个问题。
 
征信比拼焦点是数据和连接
爱分析:中国征信行业发展至今,比拼重点在什么?
罗 皓:主要体现在三方面,第一是数据;第二是连接,一个类征信公司能和多少机构建立系统级别的直连关系;第三是数据处理能力,包括数据处理、分析、建模等能力。
我认为最核心的体现在两点,一是数据本身。从数据角度出发,类征信机构就是面对两类人群,有信用记录的人群和没有信用记录的人群。
有信用记录,无非解决的是三部分数据,即谁借的、谁批的、谁还了。对于没有信用记录的人群,那征信机构比拼更多体现在反欺诈上,要收集个人身份、多头借贷、还款能力等信息。
二是要有足够的连接。例如多头借贷这种风险,光有数据是不行的,一定要在很多放贷机构和征信公司之间形成连接。只有连接,才可以持续不断获取谁借的、谁批的、谁还了的信息。因此,连接可能比数据本身更重要。
爱分析:如何看待数据建模能力?
罗 皓:模型其实是基于数据和连接,才能具备建模的基础。另外,建模需要的技能等级在慢慢降低,机器学习等所谓高端算法,十年之前对技能要求是非常高的,现在技术逐渐被封装化、开源化,门槛没那么高了。因此,建模这个点的竞争是在慢慢降低的。
爱分析:在数据处理上是否面临难点和挑战?
罗 皓:这个挑战我倒觉得是越来越难了,并不是建模方面,而是清洗和整合方面。
以前的信用类型比较简单,就是收入、有没有借过钱、有没有还过钱。现在的数据各种类型都有,有电商、公积金、社保的,种类很多,同时,每一家的数据标准也都不一样,所以要去做非常多的清洗跟整合工作。
那如何把这些数据整合起来,并提炼出关于这个人的欺诈身份,挑战就比较大。因为它并不是直接的信息,比如不是这个人的直接收入、直接负债信息,有可能是电商、支付等信息,如何转成这个人的身份和还款能力信息,还是有很多数据处理工作要做的。
数据形成定价才能达到开放
爱分析:如何提高获取数据源的能力?
罗 皓:第一是技术层面上增强数据获取的能力,比如通过开放的第三方,以网页抓取的形式去获取。
第二是如何打造一种商业模式,可以跟放贷机构互换数据,这是很关键的。
第三,从国家层面来说,数据是否会越来越开放。数据获取的重要性是一直存在的,因为无法从开放的渠道拿到这些数据,所以需要动用技术。从长远看,应该是越来越开放,如果能实现数据的流动,是有利于获取数据的。
爱分析:怎样解决数据开放的问题?
罗 皓:一是数据的定价,如果缺乏一个非常好的定价体系的话,数据本身是不会流动的,其实封闭的原因无非就是因为没有一个定价体系。
二是数据的价值不要被低估。现在数据的价值是远远被低估的,举个例子,如果开放一些数据可以给征信公司带来可观的收入,我相信他一定会开放,可是现在很多征信公司的收入一年可能连几千万都到不了,甚至很多还是免费的,那他为什么要去开放呢?
三是数据变现的渠道要多,如果只是在信贷行业去拿数据变现的话,这个渠道太少,产生的收入也不会多。
爱分析:信贷机构客户如何判断征信产品的使用效果?
罗 皓:第一是准确性,第二是数据的易读性、直观性,这个很重要,因为不能给客户一个觉得有用但不知道怎么用的信息。
打个比方,假如有一个数据,是关于这个人今天走了多少步,那这个信息可能会觉得有用,但是怎么用呢,怎么样去做信贷政策呢,这个其实挑战还是蛮大的。
征信商业价值体现在多个方面
爱分析:数据变现渠道可以有哪些想象空间?
罗 皓:不光是渠道的问题,首先是能不能让征信嵌入到整个信贷交易环节,形成闭环,如果不能嵌入进去,这个数据价值一定是被低估的。
比如一个贷款1万块钱,如果只收一块钱、两块钱,那可能只占整个贷款的万分之一,但实际上它带来的价值并不止万分之一。
其次从交易模式上来看,现在基本上还是应用在信贷行业。但是,征信被狭隘化了,大家往往提起征信只是征用个人信用记录,但实际上绝大多数行业对于一个人的信息需求不仅仅是信用。大多数交易并不需要去了解这个人的信用,比如说去吃顿饭或者住个宾馆,其实不存在信用,因为是一手交钱一手交货的。
所以这个时候对人的信息需求,是判断这个人的长期价值。那这一部分对于类征信机构来说,潜力是非常巨大的。
所以征信未来不光是去征用信用记录,而是征用这个人的价值记录。现在征信公司有这么多数据,其中有相当一部分不仅仅可以回答这个人的信用问题,还可以回答这个人在某一个独特的商业场景具不具备价值,那这部分我认为可能是未来更庞大的一个市场。
爱分析:征信的商业价值具体体现在哪些方面?
罗 皓:从整个产业链去看的话,主要体现在获客、风控和资产处置三个方面。
在这个链条中,风控占的成本是最低的,最高的是获客端。因此我认为类征信公司如果数据量积累到一定程度,应该让数据在投入产出比更高的地方变现。
当然并不是说帮助别人去获客,而是在获客端提供它的价值。很多企业有一个痛点,是如何在获客时,判断这个人是高价值用户还是低价值用户,这其实也是对个人信息的一种索取跟需求。
在这一方面,也是类征信机构的一个方向,因为在这一块可以赚到的比例,比风控端要高不少。
爱分析:获客的价值体现是什么?
罗 皓:打个比方,某个公司可能每天有上万个新用户来注册和申请服务,那一开始这个公司就对这些用户有信息需求,因为未来要对这些用户进行客户关系管理,可能要进行交叉销售、升级销售等等。
那么,公司要这个信息,是判断这个人的商业价值,比如未来可能的消费频率、消费金额以及维持时间。
征信公司切入这部分领域,涉及行业就非常广泛了。
爱分析:怎么看信贷行业的变现更多体现在风控上?
罗 皓:信贷行业还真的只能做风控,因为获客时,对于用户来说,信贷的产品就是钱,钱就只有额度、利率和周期,它的维度是非常窄的,是一个没有品牌、没有忠诚度的东西,不像一个有形商品。因此,需要考虑的是他还不还钱,这是风控上的诉求。
其它行业不一样,用户可能会长期用我的服务和产品,那我需要了解用户的长期价值。
一个是想了解客户的风险,一个是想了解未来价值和成长性,怎么去更好服务客户,这是两个不同的导向。也就是说征信在不同行业的侧重点、起到的价值,会有不同。
征信行业将是寡头格局
爱分析:如何看待中国征信的市场空间?
罗 皓:中国征信市场规模并没有那么大,天花板还是比较明显的。
我认为,随着国家对这个领域越来越重视,正规的征信机构,比如说像人行征信,纳入的范围会越来越广,以前只做银行,以后各种小贷公司、消费金融公司都会纳入它的体系。那么也就意味着,缺乏信用记录的人群一定会越来越少。
其实不管是什么样的互联网数据,都比不上直接的信用信息,所以随着正规征信机构纳入更多的信用信息,留给第三方机构的空间应该是逐渐减少的。
爱分析:未来行业会形成哪些分工?
罗 皓:主要是三方面,数据的获取、数据的加工、数据的评级。
爱分析:是否会形成寡头格局?
罗 皓:会的,类征信的行业会出现赢家通吃。
征信有两个特点,第一,它是线上的,所以具备规模化的前提。第二,具备网络效应,连接越来越多,沉淀的数据也会越来越多,数据的效用也会越来越强,会形成网络效应。结果就是,强者越强,弱者越弱。
 
 
http://blog.sina.com.cn/s/blog_155fed8250102xq4p.html

posted on 2018-03-08 10:14  Ada多一多  阅读(1246)  评论(0编辑  收藏  举报

导航