查看原文
其他

为十数载互联网风控技术著史,做风控廊庙之材 ——互联网智能风控的技术发展现状

DataFunTalk
2024-09-10

扫码下载:技术成熟度曲线-互联网风控篇

引言

     首先非常荣幸接受Datafun的邀请,和行业内各路朋友,大家收集托付给我的智能风控不同体量公司,各个领域各个维度下的技术发展现状和阶段。让我来写这样的综述,犹如百晓生排天下兵器谱,当然笔者尽量剔除自己的个人喜好,不出现孙小红那种“天下英雄谁第一,小李探花有飞刀”的局面。和大家一起青梅煮酒论英雄,智能风控有着广泛的应用领域,也不会只聚焦在头部大厂,出现“天下英雄唯君与操尔”的情况,会同时兼顾中小规模体量公司的情况。当然金融风控的综述已经发表,有珠玉在前,我也会做一些互联网风控和金融风控的技术对比,虽然风控技术,天下大势最终趋于同,但是在发展上和阶段上还是因为底层业务模式和逻辑的不同而有一定的区别,而且随着时代浪潮下的交叉点—互联网金融和Fintech业务,大家互相影响着对方,互联网风控和金融风控,彼此促进,共同成长。

       首先我们回顾一个经典的传播学和技术发展曲线理论,一个技术的发展和被大众接受发展落地的过程,往往经历了Innovators创新者就是一开始的发明过程,Early Adopters 早期的接受者,Early Majority早期的大众接受,Late Majority晚期的大众接受,到最后的Laggards衰退期。

       基于这样的一个理念,DataFun利用在业界广泛积累起来的人脉和资源,对现有的智能风控技术各个领域做了一次盘点,把一个技术所处的阶段划分为创新期,成长期,热门期,成熟期和衰退期,同时兼顾业务价值和技术难度,看看在不同赛道的不同体量公司的发展情况。会按照互联网行业和金融两个大类,毕竟这是智能风控主要应用的领域,从公司规模上来看再拆分为,超级规模,大型规模和中小规模。大家可以通过这些趋势曲线,发现超级规模的公司有时候是第一个吃螃蟹的人,去尝试研发新技术,然后逐渐这个传播曲线反应在了一层层往下规模的公司,而有些新技术犹如屠龙之技在超级规模公司尝试没多久以后也渐渐进入到了衰退期。所以这个技术发展曲线和趋势,也是能为更多发展中公司,或是别的数字化转型渴望学习互联网风控成功经验的人一个很好的指导。


      首先,我们简单回顾看一下互联网风控是做什么的,首先有互联网公司业务,其次再有互联网风控,互联网公司的业务大概可以分为电商,视频,支付,信贷,出行消费,社区和社交等几个大类。简单来说,互联网风控则是基于这些业务,发现,预防,拦截和反查,各个参与方产生的不公平行为,或是违反平台规定,或是违反法律法规来占有平台资源。代表性的有涉赌涉黄涉政的合规类风控,这个互联网平台因为大量内容的产生和交互,人与人之间依托社区和社交网络会产生大量的联系,比起金融互联网风控来说,这方面遭遇了比较大的挑战。另外流量反作弊也是一个重要的互联网风控领域,互联网的不少业务本质上是流量的产生和对流量的变现,笔者曾在一个部门,在集团竞争中,就发现了流量权和定价权是互联网的两大重要阵地,那么自然是抢流量,抢定价,如何通过作弊方法获得流量,自然也是黑产们关心的问题。另外互联网在高速增长期,往往通过大量营销资源的发放来吸引消费者获得高速增长,那么自然不希望营销资源到了不希望获得的人手中。另外一个重要领域就是互联网的金融业务,以支付和信贷领域代表,比起金融风控中这样的领域,互联网公司因为其平台效应和能力,可以获得更多的数据来进行风控,所以互联网公司相比来说在金融风控领域的特征和模型方面会玩出更多花样和种类。所以总得来说,互联网风控业务上呈现多元性,对抗上更趋向于一个高频快速的模式,有更多的数据来支持各种不同的模型种类,三方数据的依赖没有一般金融公司那么大,技术上底层技术会呈现更多的互联网属性,因为除了支付和信贷这些比较专业领域,不少风控工作都是在原本业务平台中长出来的。

 

       头部互联网公司相对会在例如大语言模型在内的新算法研发,以围绕图数据库为核心的图计算技术方面,有比较大的投入,有自己的独门绝技,也会在风控决策引擎,模型平台等方面做大量投入,使得风控策略和算法同学的工作效率大幅度提升,可以基本零代码,拖拽式地从数据加工,模型建立,风控因子,风控策略,一整个流程 ,到最后依据场景部署上线。而中小互联网公司往往不会在提效类的功能上做太多投入。所以互联网风控也有个对应马斯洛需求层次的优先级,基本业务开展 ->兜底防范策略 ->进阶模型 ->进阶技术->智能化高效风控工作平台。




专家介绍:


汪浩然 资深风控和图计算专家

英国硕士,业内有算法百晓生和扫地僧之称,自幼好算法,遍干互联网诸侯,曾在蚂蚁金服,阿里巴巴,腾讯等公司主要从事风控算法,社交计算和图计算等工作,三十入风控,历抵圈内卿相,横跨金融,支付,电商,供应链,社区,社交等场景。率先工业界落地过诸多图上挖掘和机器学习算法。


01.

互联网风控技术的特色

数据层

数据库作为数据存储使用的载体,很多年里面都是互联网风控技术的重要领域,毕竟数据是风控的基础。最近几年,基本的关系性数据存储和使用都是非常成熟的领域了,大厂一般都有一个个功能非常完善的平台,相比来说互联网公司在图数据库(直接存储关系网络的数据库)方面下的功夫比较大,笔者也是经历了从最早NEO4J的使用,到试用各个开源商业图数据库,再到各大平台自研的图数据库,“操千曲而知音,观千剑而识器”。在头部平台都有自己的图数据库和技术团队,来进行内部的图数据库建设,在图存储,图查询和图分析方面都从成长期开始逐渐进入到了成熟期。例如Nebula图数据库,就是脱胎于蚂蚁阿里图数据库团队成员,创业进入到行业内。所以对于中小互联网公司,如果有相关应用会倾向于使用Nebula之类的开源图数据库。另外因为图神经网络GNN的流行使用,各大公司都有自己的平台,立足于图数据库和模型推理平台的打通,这方面头部公司还在成长期,各大云服务厂商,也没有一个成型的产品。其它中小互联网公司还不太考虑基于实时推理的图神经网络模型解决方案。OLAP的引擎在头部公司也开始进入到了比较成熟的时期,流批一体的架构也在逐渐推广中。互联网风控是一个权衡自己成本,和不断让各路欺诈者和作弊者成本提升的过程,如果有时候保护的资源本身价值没那么大,那么对于“非法”占有资源的团伙也没必要投入过多人力。最后就是为了一个图算法或是模型可以实时风控,这方面,可以发现金融业务主导的互联网公司,比如蚂蚁金服会走得比较快一些,推荐业务主导的互联网公司会略微慢一些,这些都是业务属性使然。有英雄造时势,也有时势造英雄,一般大众,我等芸芸众生,不过是时代造就,笔者聊聊数笔,也是对互联网风控技术做些记录和评论,还请各路朋友们和读者批评指正。

 

因为互联网公司天生依托于平台去开展业务,有平台就有数据,所以风控中的数据工程很多方面可以复用平台的能力,数据采集,数据校验,数据清洗,数据存储,标准输出,数据监控和数据治理方面往往头部公司都有成熟的工具。而一般中小公司倾向于开源解决方案和几大云服务的产品。至于稳定性方面,这么多个双十一过来了互联网公司的风控技术可以复用很多平台的能力。在加速方面,互联网公司的业务决定了高吞吐和低延时是其重要特色能力。所以对于数据工程来说,一方面基本的业务流到风控数据流到风控结果和决策是一个保障性工作,已经没有太大的技术本身难度,往往考验技术管理者的项目管理能力。但是想在数据工程上更上一层楼,则往往需要更考验对于业务架构的理解和实施,如今更是依托大语言模型来提高生产力,是一个重要方向。

特征层

有基于自然语言的NLP特征,这个互联网公司也经历了从统计学习到深度学习,再到现在大语言模型,对于头部公司来说慢慢都具备了大语言模型可以生产使用的能力,中小公司还是会深度学习方法优先,结合引入开源的大语言模型,毕竟训练和微调都是一个比较耗费成本的工作,目前带来边际收入还远不能覆盖成本和收入。互联网公司平台因为本身就有大量的内容产生,所以在自然语言NLP特征方法运用是比较多的,毕竟在这些标准数据源方面,数据和标注决定了上层模型效果。有些平台用户产生的内容本身就是风控的范围。所以互联网风控的NLP特征方法基本属于成熟期了。CV特征方面,风控也开始进入到了成熟期,情况和NLP特征差不多,笔者也经历了从传统计算机视觉算法到深度学习算法,深度学习算法更能端到端处理图像和视频,也降低了算法工程师的领域知识门槛,不用像过去那样需要掌握大量专业计算机处理视觉,数学和算法专业知识,所以现在不管什么平台只要愿意,都可以轻松产生视觉cv特征用于风控。图特征方面头部互联网公司和中小互联网公司都会去挖掘图特征,相对来说头部公司因为计算量更大,数据维度更丰富,一方面在大规模计算方面还有自己的平台去支持,又有能力把图算法用于实时和准实时的风控,另一方面更多基于自己场景的个性化算法诞生。而中小公司更多是使用开源的算法来实现计算,更多靠业务理解来优化解决自己的问题,如果硬件架构不允许就离线和准实时来运用图特征进行风控。RFM特征和时序特征方面都是比较成熟了,头部互联网公司会更多的自己建设自己的深度学习模型来进行时序特征模型,而中小互联完公司会使用现成模型,比如用facebook的开源产品或是其它常规时序模型。

 

在特征挖掘架构方面,手动挖掘始终都扮演着重要角色,风控依然很需要老专家经验,成功结合数学,算法,数据和业务理解来不断发现新特征。只是深度学习等新方法的引入,不需要再过多手动挖掘了,尤其是节约了特征工程的投入时间。自动挖掘特征更多立足于已经知道的特征阈值和不同特征的组合。特征实验本质是比较少的,过于理想化。特征的自动化更多是特征模式已经知道的特征的挖掘,更多在已有维度上的线性叠加。往往还是需要老专家的新主意来产生升维,突破已有特征的范畴,然后再把新种类的特征自动化。当然头部公司的平台在易于使用方面会更加简单,更加自动化,中小部分公司可能没有华丽的界面来操作,但是会把一些代码固化下来,减少代码的重复生产。

 

特征管理方面,特征一致性和指标分析都是非常成熟的领域,基本上不同等级的互联网风控技术都会建设这样的能力。在头部和有余力的公司会在特征推荐,特征检索和特征表筛选方面有更多的平台化产品化建设,因为这些主要还是一线的风控策略和算法同学提效用。特征计算方面,离线特征在不同类型公司也都比较成熟了,实时特征角度常规的统计类特征都可以顺利产出,在图特征方面头部平台有能力实时产出。到工程层面,涉及到源数据分析和清洗,特征衍生,特征评估,特征回溯,特征监控其实这些都是类似的情况,技术本身都非常成熟了,就是有余力公司多花时间把平台建好

模型层

在模型层来说,可以说是互联网公司的一大亮点,互联网公司风控因为对于可解释性的要求没有金融风控那么高,所以往往在模型应用上领先于其它金融公司,互联网金融的支付风控技术又领先于互联网金融的信贷风控,以前我们有戏言“大安全用上随机森林了,XX银行还在用逻辑回归”,但是随着AlphaGo,ChatGPT等一系列人工智能领域重大突破,大家开始相信模型,不再一味追求可解释性,因为可解释性往往和预测能力强弱是矛盾的。树类模型不管是基于boost还是bagging的都被广泛使用着,XGBoost和LightGBM的应用在各个层次的互联网公司中都已经比较成熟了,决策树因为清晰明了可解释性高,规则可以拆出来组合部署,有时候还会用来快速发现规则的组合,生成一些组合规则来解决问题,随机森林和svm反而逐渐进入到了衰退期,XGBoost和LightGBM基本上是样本和问题比较明确的有监督机器学习的标准配置了。k-means看看有很多的缺点和比较简单,但依然是一些常规问题聚类的首选被大家使用。深度学习模型,比如神经网络也开始逐渐在计算机视觉和自然语言处理方面,成为标准配置,在一些对可解释性要求不高的场景例如Deep and Wide之类的神经网络架构也会用于有监督或是半监督的机器学习任务。在大语言模型方面,头部公司有能力搭建酷炫的应用,或是进行训练和Fine Tune。中小公司更多依托已有的开源架构来进行进行大语言模型的一些应用。现在有一些新的趋势,大语言模型作为一个解读器或是解释器,来对模型发现的特征进行加工解读。

 

当然随着图神经网络这几年的兴起,图神经网络基本上也成了一个重要的建模手段被大家使用。在头部大厂往往有自己的平台支持图神经网络模型,无论是训练,还是预测,还是在线部署,还可以有相应的图数据库来支持网络的存储和索引。在中小公司,因为生产跟不上,往往比较少采用,因为离线训练的再美好,无法投入生产也是不行的。一些经典的图上挖掘算法在互联网风控也是比较标准的解决方案了,在具体定点分析,路径分析和社团分析方面都产生了普遍作用。互联网风控往往要面对比较大规模计算的场景,所以在算法工程上会投入更多,大厂也会更有能力从标准通用算法出发来定制化自己新的算法。图表示学习,例如node2vec和deepwalk,会对节点产生一个向量,相当于生成一个新的特征,早已被普遍运用到了风控中,就是头部公司有能力再额外投入,来实时生成这些特征使用,一般中小公司还是更多离线生成,再结合实时或准实时算法来用于风控。知识图谱,在头部公司的技术体系中都已经是标准配置了,但是对于中小公司来说还是无法支撑专门的投入。动态图和异质图方面,难度已经不在算法本身了,而是综合考虑整个风控体系架构的能力,是否在数据实时存储获得,模型实时推理,以及是否可以支撑起一个大规模网络高并发的场景。

业务层和产品层

内容风控和流量风控是互联网风控的两大特色,互联网业务依托平台往往有大量内容产生。内容风险方面更多依赖于自然语言模型的进步,从统计模型,到深度学习BERT,到大语言模型。买量欺诈除了依赖算法模型进步,也依赖图数据库存储索引水平的提升,可以更多实时的侦测到团伙属性,因为买量必须要大量的小号一起发挥作用,才有价值。大家不断努力把本来只能离线获得事后识别的团伙不断前置及时发现,这条渐近线也是头部公司一直到后面中小公司的渐近线。内容风控已经进入到了成熟区,但是在对于“软广”这样比较难精确定义的领域,不一定是单纯技术问题,另一方面大语言模型和AIGC的出现,使得内容风控的难度会变得更加大,一大趋势就是魔法才能打败魔法,还有大语言模型和AIGC也给风控蓝军带来了新思路,已经开始尝试用大语言模型进行内容生成,考验风控系统的能力,生成对抗,来提升风控系统能力。

 

按照风控的时效来说,有秒级实时风控,分钟级准实时风控,离线风控,融合风控(实时+离线)是一个大的趋势,基本上都被各个不同层次的公司所掌握,当然实时风控有时候对计算的成本和架构有较高的要求,头部公司有能力把更多特征的实时化,中小公司则会更多考虑成本问题,准实时和离线去解决问题,当然有些基于账户行为和长期表现下的特征而进行的风控,必然还离不开离线风控,所以如何更好地组合实时+离线来进行风控是一个永恒的话题。

 

从风控产品角度来说,头部公司基本完成了,平台化,SaaS化,低代码,高性能,低成本和可视化这些工作。大家都知道在头部公司做风控策略或是算法,很多时候真正代码层面工作已经变得非常少了,大家依赖高度平台化和组件化的产品来工作,界面也高度可视化拖拽式编程,从开发,测试到部署风控策略和模型都是非常的智能化傻瓜化。而中小公司会还依赖策略和算法同学自己编写一些高级脚本语言或是用Python这样的胶水代码来黏合很多东西,成功在生产环境应用。


02.

互联网风控和金融风控相互借鉴和影响

其实从国内这两个领域的风控发展来说,互联网金融业务或者说fintech是一个桥梁,让二者产生了相互关系,也导致了一系列技术层面,产品层面,数据层面,算法模型,业务开展模式的相互借鉴。笔者曾经在蚂蚁金服的大安全部门从事风控模型,当时又和网商银行的同事坐在一起,见证了蚂蚁金服金融业务和风控早年的从无到有,和高速发展。大家怎么有时候看见自己领先的地方就去“鄙视”对方,又怎么互相学习,互相提高,切磋琢磨,最后大家互通有无都进步了。

 

数据层面来说最早大家觉得金融都要依靠IBM, EMC, ORACLE这样的外国大厂解决方案,以蚂蚁金服为代表国内的互联网公司开始自研自己的数据架构体系,也能支撑起金融的应用,更是扛下了双十一,春节发红包等流量洪峰。接着各大厂把自己的数据产品和工具要么开源化,要么云服务化,让国内需要金融风控的公司看见了新的数据层面各种结构和工具新的解决方案。中国的金融风控和互联网风控在底层数据层面都没有被卡脖子,同时脱胎于互联网金融风控领域的图数据库也开始不断走入非互联网业务和非金融平台开始赋能大家风控,大家都开始学会基于自己的生态体系来搭建网络,利用物以类聚,人以群分,风险传播等网络效应来进行风控策略和风控模型的研发。

 

特征层面来说,因为互联网公司的平台属性,可以从吃穿住行,日常消费,日常社交和消费出行等不同角度,刻画人的特征,这些特征充当起了互联网风控的特征,被成功应用在了互联网金融业务,人群的营销的精准画像,账号价值和风险,行为规律和异常,信用风险和欺诈风险等各个角度,慢慢的这套思路逐渐被金融风控所学习,就算自己平台没有相关数据,也会通过三方数据等途径来获得。笔者经历了早期银行来的业务领导,非常惊喜地发现,地理行为轨迹可以用来风控了,采集到的图像图片也可以用来风控,这些特征是以前金融风控不敢想象的,甚至被银行来的领导说成是有了以后相当于美国打伊拉克。直到今天,从fintech进入到相对传统金融业务公司,首先要做的也是把源于互联网风控这样特征挖掘的方式带到传统金融业务公司,传统金融业务公司倾向于直接从和钱相关的收入纳税,或是比较直接的学历等特征入手来进行风控,而互联网风控则是,人丰富的生活数据往往更能体现一个人的画像,信用风险和欺诈风险等等,这些都被大量互联网风控案例充分证明了。当然源于discovery paypal的velocity类特征也以互联网金融为途径,影响着两边,互联网风控也开始对一些设备,网络环等主体的聚集性风险,其实也是应用velocity的变量思想来解决问题。

 

从模型层面来说,互联网风控技术会更多运用不同的有监督模型,无监督模型,半监督模型方法,有时候不拘泥于形式白猫黑猫抓到老鼠就是好猫,有时候风控场景不需要追求可解释性,能够成功拦住风险就好。互联网风控很多时候需要防范的团伙性风险,因为其平台属性也容易收集和构造出网络数据,所以各种各样的图算法在互联网风控中使用更多,拿到了很好的效果,也进一步促进了图算法在金融领域的运用。就算金融公司没有自己的平台来收集构造网络,也会在可以收集到的例如征信数据,流水数据中去尝试构造用户和不同主体间的关联网络。互联网风控运用更多计算机视觉和自然语言模型来进行风控,看见了效果,也影响了金融风控开始注意到这个领域。金融风控随着更多金融数据线上化,也从模型上来说逐渐走出评分卡为主的局面。直到现在依然有互联网风控,或是互联网金融风控的同学进入到金融风控领域,让风控模型从评分卡维度走向更多的种类和花样依然是个主要发力方向。

 

风控时效性方面,互联网风控更多实时风控和准实时风控的思路和架构开始影响到了传统金融风控。还有互联网风控短周期特征对于金融风控的启发,互联网风控非常看重时间效应,而在金融风控领域,很多时候看重人的长期属性来进行风控,现在也更多加入一个人短期属性的突变来作为风控特征,尤其是信用风险逐渐变得好控制,而欺诈和操作风险变得不那么好预测了,例如短时间内征信记录变坏,行为轨迹发生变化等等。


03.

技术跃迁和业务升级中的常见困难

1,首先是领导层和具体的“参谋长”以及具体执行者,对于行业技术大图和发展趋势的洞察,俗话说”没吃过猪肉,见过猪跑“,当中小企业想进行技术升级的时候,首先对于行业中技术的大图是否真的了解,不同技术类型在不同种类公司所处的发展阶段是否了解,技术难度,业务价值是否清楚。例如著名的技术咨询公司加德纳把技术分为关键赋能技术,生产力变革,更加smart,隐私和透明,然后不同的发展阶段来划分象限,当然远不及Datafun这样的数据大图和发展成熟度曲线和综述,直播论坛这样详细地指导。

2,中小企业在技术业务人才引进上需要平衡要求人才的深度和广度,创新和学习能力,需要技术和业务升级的时候往往会从大厂和外部引进人才,但是又往往遇见落地难的问题,因为众所周知大厂人才往往有时候依托于平台的各种业务和技术优势来发挥,所以经常有“不要把平台能力,当作自己能力”的说法,其次大厂是一个大型的多工种协作,很多人才有深度,没有广度。而大厂某些阶段对于年龄的选拔,又使得很多人需要尽快走上管理道路对于技术的把握深度和广度都有欠缺,在大厂专业团队做技术管理者是可以的。而中小公司的技术越阡和业务升级,绝不是今天国内大厂觉得国外大语言模型火了,火速组建专业团队,或是某个图卷积神经网络技术很重要,需要各个团队拉调人组建“虚拟组”进行攻关。中小公司的技术越迁和业务升级需要的是一个全面系统化的规划和提升,不只是专项的技术攻关和做好技术管理者这么简单。

3,技术和业务需求匹配度的选择,能够平衡好落地速度,落地效果,业务急迫度等等。不盲目追求热点技术,而是能真正从业务紧缺的方面来优先发展技术,不同的中小公司,有时候不一定缺的是一个最新的大语言模型技术,最新的图卷积神经网络模型,可能有时候一个传统的计算机视觉比对技术就可以解决问题,也可能是数据特征层的某类特征链路没有打通,也可能是风控策略决策树不具备等等。所以可以想象Datafun的技术成熟度曲线是一个技术升级的操作手册, 按图索骥来完成。

4,土专家和洋专家的结合,首先技术和业务升级肯定不是无源之水,天外飞仙,要依托于已有的业务逻辑,业务流程,业务系统,技术架构,人员体系,必须对这些非常熟悉,才能做到对阵下药,洋专家对高于现有技术和业务体系的外面世界比较熟悉,把外面的好东西带进来,如果是原有的是A,外面的是B,升级以后的东西肯定既不是A+也不是B+,而是A+B = C。


04.

互联网风控的未来展望

1,大语言模型能够带来的影响。首先是生产力上,大语言模型将会成为一个操作平台给风控策略和算法同学发号施令用,例如LLM+图数据库,LLM+交互界面,通过大语言模型,人类的自然语言成为了新时代工作的脚本语言。其次,在可解释性方面,这一风控的老大难问题,大语言模型可以把模型输出的结果,综合各种特征来进行归纳总结和解读,用大语言模型来进行解读,让一线业务同学更容易理解风控策略和算法为什么输出这样的结果,用户的图片,视频,个人征信报告,交易记录等等究竟隐藏了怎么样的风险。另外,大语言模型本身也成了新的风控算法解决方案,风控算法工程师要具备能力把现实问题归结为一个大语言模型问题,例如图片,视频,内容识别方面的问题变为大语言模型问题,还能通过大语言模型给出可解释性。例如人的行为数据,征信数据等等也可以当作一个自然语言内容,转化为大语言模型视角下的问题来处理。最后,当然是工作中的代码生成数据分析,都可以依赖大语言模型来完成。从以上四点可以看出大语言模型会让风控工作进入到一个新的纪元。

 

2,图神经网络算法,强化学习,生成对抗,博弈论的引入等等,依然会在互联网风控领域发挥重要特点。相对大语言模型把问题转化为自然语言的理解和填充回答,期间不需要假设一个中间态的数学结构,而是端到端来解决现实问题,这些算法领域,依然需要人先对问题归于为一个数学结构,例如树,图,矩阵,群等等,然后进行算法的设计和开发,从大的地方讲,这将是人类智力生活,生命从碳基到硅基演变,在人工智能最终实现前,最后的光芒了。多少个世纪以来,人类崇拜一个个数学大师,例如伽罗化,阿贝尔这样年轻天才,横空出世把群这样一个数学结构带给人类,把问题转化为群的形式吧,方程的可解释性问题迎刃而解。还有无数代算法大师,不断降低计算问题的复杂度,无数代物理大师,为一个个现实问题,找到了合适的数学结构,让数学的语言成为了宇宙的语言。风控技术给了人类在这些智力探索上开辟了一个新的领域,闪耀着人作为万物之灵,在智力上生活上的独特之处。笔者本人也是个算法原教旨主义者,在人工智能大势所趋,但还无法取代人类端到端解决风控问题的时候,最后依然带领伙伴们,用这些人类文明几个世纪积累的算法技术,不断进行风控工作,拿到有意思的结果,犹如火器时代来临前夜,骑士依然盛装走向战场,最后让人感到属于冷兵器时代军事贵族的荣耀。

 

3,风控策略,其实风控领域的策略角度都已经进入到了一个深水区和稳定区了,笔者认识的资深风控策略同事也是反馈,他们策略思路和方法都比较固定了,不像算法还在不断迭代更新,但是不排除大语言模型和人工智能生产力的极大变化,促使了风控策略也会开始变化。有一个可能性是,大语言模型和生产式AI会让假冒的内容,假冒的行为,虚假的关系等等变得更加容易生成。传统策略的不管三七二十一,先找到强规则拦截起来的做法,会变得越来越难以奏效。也就是说基于业务理解和平台数据优势的强规则导向风控策略,会越来越多转向算法为主导,更好地应用各种算法,用魔法来打败魔法。

 

4,互联网风控技术的整体趋势,可以预见未来更加拥抱算法和技术,当互联网业务本身发展进入到了成熟期,数据,策略等底层方面都已经稳定下来了,人工智能和大模型可以预见到的对于整个人类社会的变革,也许下一代互联网风控的负责人会有更多从算法岗位上涌现出来的人,不敢轻易做对于未来互联网智能风控技术的预测,预测未来的最好方法就是把它创造出来。希望和读者们共勉,大家一起创造一个新时代。

DataFun技术成熟度曲线2024

-互联网风控篇介绍

了解企业技术架构的技术成熟度、业务价值和技术难度具有重要的长期作用。特别是对于企业的战略规划和技术人员的个人职业发展而言。

 

对于企业,了解技术成熟度可以帮助评估引入新技术的风险;通过评估技术难度和业务价值,企业可以更合理地分配有限的资源,如资金、人员和时间,确保优先支持那些能带来最大商业回报的项目。

 

技术人员也可以根据技术难度和成熟度,规划自己的学习和发展路径。比如,专注于新兴、高难度技术可能会带来更多的职业机会和挑战;高难度技术项目通常还需要强大的技术领导力;了解当前技术趋势和业务需求的交叉点,技术人员可以更准确地预测市场需求,从而在求职和职业发展中保持竞争力。

 

在《DataFun技术成熟度曲线2024-互联网风控篇》中,将按照数据层、特征层、模型层、决策层、监控层、业务层、产品层等主技术栈进行展开,每个层次可能包含选型、架构、工程、性能等将近180个细节技术点,每一个技术点由技术出品人综合个人经验和专家团经验对行业进行综合评估,基于统一的定义,得出每一个技术点的技术成熟度、业务价值、技术难度的行业层面的评估值。


技术成熟度定义:

● 前瞻期:技术仍处于研究开发阶段,技术社群主要探索技术的实际应用可行性和潜在的市场价值,尽管业界对此技术的认识尚浅,但已经识别到高价值的需求。

● 成长期:随着技术开始进入实际应用阶段,市场上出现越来越多的竞争者,伴随着各种技术路径的并行发展。此时,技术社群重点关注如何克服实际应用中的挑战,并最大化其商业价值,尽管业界对这些技术的兴趣日益浓厚,其在商业上的价值仍未完全显现。

● 热门期:技术发展达到高潮,技术社群力求推动技术性能达到极致,业界对该技术的关注也达到顶峰,并且技术开始显著体现出商业价值。

● 衰退期:技术路径开始呈现优劣分明,市场对于技术的优化和整合提出更高要求,此外,业界开始认识到技术在提升业务价值方面的局限性和边界。

● 成熟期:技术路径趋于统一并标准化,技术社群关注点转向如何降低成本并提高效率,业界同样关注成本效益,基于成本效益分析来评估技术的优先级和应用广度。

 

业务价值定义:

5星:相关技术点/业务单元的降本/收益贡献占部门总收入的50%及以上,或由高级总监及以上级别(如VP等)的管理人员负责。

4星:相关技术点/业务单元的降本/收益贡献占部门总收入的40%至50%之间,或由总监级别的管理人员负责。

3星:相关技术点/业务单元的降本/收益贡献占部门总收入的30%至40%,或由高级经理级别的管理人员负责。

2星:相关技术点/业务单元的降本/收益贡献占部门总收入的20%至30%,或由经理级别的管理人员负责。

1星:相关技术点/业务单元的降本/收益贡献占部门总收入的5%至20%之间,或由主管级别的管理人员负责。

 

技术难度定义:

5星:由高级技术总监及以上级别(如技术VP等)的技术人员负责。

4星:由技术总监级别的技术人员负责。

3星:由高级技术专家、首席技术专家级别的技术人员负责。

2星:由技术专家级别的技术人员负责。

1星:由高级工程师级别的技术人员负责。




▌项目特邀专家


技术出品人




汪浩然 资深风控和图计算专家


专家团




James老师  某电商企业 架构师

龙嘉伟 虎牙直播自然语言处理算法工程师

李祥 度小满数据智能应用部图机器学习负责人

王震 陌陌大数据部计算语言负责人

王建 OPPO安全与隐私部高级风控算法工程师

于溦 致景科技金融大数据负责人

郑毅 同盾科技算法专家


顾问团



孟祥涛 京东科技架构师

单黎平 度小满数据智能应用部AI算法资深专家

王欢 融360模型部高级算法经理


社区团




方老师 某股份制商业银行 风险数据分析师

赖晓航 四三九九 技术经理

施政 前乐信风控总监

苏世前 易鑫集团算法架构师

赵仕庆 朴道征信 技术专家

扫码下载:技术成熟度曲线-互联网风控篇

往期推荐


白鲸开源CEO郭炜:数据集成的未来在哪里?

奇富科技朱杰:金融风控技术成熟度曲线全面解读


点个在看你最好看

SPRING HAS ARRIVED

继续滑动看下一个
DataFunTalk
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存