数据ETL:反作弊的应用与基础模型

   2021-07-29 东莞安晨包装材料有限公司13825799799东莞安晨包装材料有限公司1382579979900
核心提示:文章对数据ETL中的反作弊应用进行了简单的梳理分析,希望通过此文能够加深你对数据ETL的认识。一、反作弊作用于哪个阶段? 在做

文章对数据ETL中的反作弊应用进行了简单的梳理分析,希望通过此文能够加深你对数据ETL的认识。

一、反作弊作用于哪个阶段?

在做反作弊之前,我们要明确整个数据从底层到数据中台过程中流向是什么样的。这里,我梳理了一个模型,它可以反映这一过程。

数据从原始采集经过“清洗规范”,会形成“通用数据”,这里会过滤掉异常数据供上层使用。

通用数据会根据业务场景,聚合成符合业务指标计算的数据,即“应用数据”,比如说是“主题场景”的数据。“主题场景”的数据可以是基于大背景的场景(横向),如:推荐业务场景、搜索业务场景。也可以是垂直到业务线的场景(纵向),如:某项购物时的推荐场景、短视频搜索的业务场景。这一过程会产生“数据残渣”,这部分数据是暂时没有应用场景的数据。

比如,在推荐商品时,你只取了用户的年龄、性别等作为特征,剩下的用户姓名这个特征数据在这个场景应用不到,它就成了暂时的“数据残渣”。不过,你可能在信贷业务场景中使用到这个特征数据(用户姓名),那种应用场景下它就不是“数据残渣”。

应用数据只是一个基础可用的数据集市,还需要经过反作弊系统来过滤掉具体应用场景下的作弊用户或者设备,形成“业务数据”。

最终,跟进业务需求等制定数据指标、维度等计算逻辑,并在数据中台形成可视化数据。

综上,我们可以发现,反作弊是在“应用数据”与“业务数据”之间work的。

二、反作弊基础模型

1. 通用基础设备过滤规则

这里面可以是人为设定的一些规则(比如:设备中安装有淘宝APP版本号大于线上最新版本的用户都是作弊用户),也可以是基于经验总结的设备属性。举个例子:

2. 数据分析系统

这里面主要是根据业务场景,分析业务属性与用户属性在结合的过程中产生的作弊用户。当然,可以通过业务规则或者算法来找出这部分用户。举例,在投放广告时,可以根据用户的uid、ip等找出这些属性与某些广告是否存在强关联关系,试图找出用户有恶意刷广告的行为。下图给大家介绍几个算法以及其应用场景。

3. 评分系统

评分系统也是基于业务场景来制定的规则或算法,从而产生对应的黑名单。比如,在短视频领域中,可以根据用户行为画像和视频画像来给视频或者用户打分。其主要流程可以参考下图:

这里面关键是如何建立“过滤模型”,由于保密问题,这块需要大家根据业务场景自行建模。

4. 机器学习系统

这部分没有什么太多可以分享的,因为市面上机器学习的算法有很多,也很成熟,需要根据业务场景来选模、建模,甚至优化模型等等。

 

作者:软院猛哥  人人都是产品经理网“萌新一枚”

本文由 @软院猛哥 原创发布于人人都是产品经理。未经许可,禁止转载。

题图来自 Unsplash,基于 CC0 协议

给作者打赏,鼓励TA抓紧创作!
---蛙鱼源码WAYUYM.COM---专业提供网站模板,网站源码下载,教程培训,程序插件,网站素材等建站资源,主要收集各类精品源码资源,包含CMS程序模板、网站源码、游戏源码、APP源码等 ,所有资源都没有水印适合搬运,我们致力于打造一个优秀的建站资源共享学习平台!

东莞市安辰包装材料有限公司是生产各类包装袋产品(编织袋、包装袋、牛皮纸袋、彩印袋、纸袋、纸塑复合袋等)的专业厂家,设备先进,技术力量雄厚,自动化生产技术先进,产品质量符合国家标准,价格合理,可根据客户要求,生产各种包装袋,具有质量保证,生产及时,交货快捷的特点。 我们的宗旨:做我们擅长的事,希望用我们的创意和创意为客户实现战略定位,塑造品牌,强化形象!
我们的要求:坚持“优质产品、优质服务、优惠价格、快速交货”的经营方针,努力开拓市场,真诚为客户服务! 我们的发展:以独特的专业和专业精神,坚持走高品质的包装路线,形成了自己的包装品牌!联系方式:李冠生:131 1322 4868--微信同号,欢迎来电。进入安晨包装官网

 
举报收藏 0打赏 0评论 0
更多>相关评论
暂时没有评论,来说点什么吧
更多>同类资讯
推荐图文
推荐资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  用户协议  |  隐私政策  |  版权声明  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  帮助中心  |  网站地图  |  违规举报
粤ICP备2020133925号