数据埋点,数据脱敏

数据埋点
定义:埋点就是在应用中特定的流程收集一些信息,用来跟踪应用使用的状况,后续用来进一步优化产品或是提供运营的数据支撑,包括访问数,访客数,停留时长,页面浏览数和跳出率。这样的信息收集可以大致分为两种:页面统计,统计操作行为。 数据埋点的方式:
  1. 自已研发,注入到产品代码中,并搭建起相应的后台。(费时费力,但数据掌握在自已手上)
  2. 第三方统计工具,如百度统计。(方便快捷,但数据掌握在别人手上)

中小型项目首先考虑第二种,大型项目考虑第一种。
埋点技术如何采集数据,有何优缺点?
数据埋点分为初级、中级、高级三种方式,分别为:

无疑,数据埋点是一种良好的私有化部署数据采集方式。数据采集准确,满足了企业去粗取精,实现产品、服务快速优化迭代的需求。
但,因手动埋点工程量极大,且一不小心容易出错,成为很多工程师的痛。且其开发周期长,耗时费力,很多规模较小的公司并不具备自己埋点的能力。

  1. 初级:在产品、服务转化关键点植入统计代码,据其独立ID确保数据采集不重复(如购买按钮点击率);
  2. 中级:植入多段代码,追踪用户在平台每个界面上的系列行为,事件之间相互独立(如打开商品详情页——选择商品型号——加入购物车——下订单——购买完成);
  3. 高级:联合公司工程、ETL采集分析用户全量行为,建立用户画像,还原用户行为模型,作为产品分析、优化的基础。
数据脱敏
定义:数据脱敏,又称数据去隐私化或者数据变形,是在给定的规则、策略下对敏感数据进行变换、修改的技术机制,能够在很大程度上解决敏感数据在非可信环境中使用的问题。根据规范和脱敏策略,对业务数据中的敏感信息实施自动变形,实现对敏感信息的隐藏。

原理:数据脱敏在保留数据原始特征的条件下,按需进行敏感信息内容的变换。只有授权的管理员或用户,在必须知晓的情况下,才可通过特定应用程序与工具访问数据的真实值,从而降低这些重要数据在共享和移动时的风险。数据脱敏在不降低安全性的前提下,使原有数据的使用范围和共享对象得以拓展,因而是大数据环境下最有效的敏感数据保护方法。任何涉及敏感信息的行业都对数据脱敏有着天然的需求。

常见的脱敏方法:
替换:以虚构的数据代替真值。例如,建立一个较大的虚拟值数据表,对每一真实值记录产生随机种子,对原始数据内容进行哈希映射替换。这种方法得到的数据与真实数据非常相似。无效化:以NULL或*****代替真值或真值的一部分,如遮盖信用卡号的后12位。

置乱:对敏感数据列的值进行重新随机分布,混淆原有值和其他字段的联系。这种方法不影响原有数据的统计特性,如最大/最小。

均值化:针对数值型数据,首先计算它们的均值,然后使脱敏后的值在均值附近随机分布,从而保持数据的总和不变。通常用于产品成本表、工资表等场合。

posted @ 2021-01-16 10:04  爱时尚疯了的朱  阅读(545)  评论(0编辑  收藏  举报