数据埋点，数据脱敏

数据埋点 定义：埋点就是在应用中特定的流程收集一些信息，用来跟踪应用使用的状况，后续用来进一步优化产品或是提供运营的数据支撑，包括访问数，访客数，停留时长，页面浏览数和跳出率。这样的信息收集可以大致分为两种：页面统计，统计操作行为。数据埋点的方式：

  1. 自已研发，注入到产品代码中，并搭建起相应的后台。（费时费力，但数据掌握在自已手上）
  2. 第三方统计工具，如百度统计。（方便快捷，但数据掌握在别人手上）

中小型项目首先考虑第二种，大型项目考虑第一种。
埋点技术如何采集数据，有何优缺点？
数据埋点分为初级、中级、高级三种方式，分别为：

无疑，数据埋点是一种良好的私有化部署数据采集方式。数据采集准确，满足了企业去粗取精，实现产品、服务快速优化迭代的需求。
但，因手动埋点工程量极大，且一不小心容易出错，成为很多工程师的痛。且其开发周期长，耗时费力，很多规模较小的公司并不具备自己埋点的能力。

  1. 初级：在产品、服务转化关键点植入统计代码，据其独立ID确保数据采集不重复（如购买按钮点击率）；
  2. 中级：植入多段代码，追踪用户在平台每个界面上的系列行为，事件之间相互独立（如打开商品详情页——选择商品型号——加入购物车——下订单——购买完成）；
  3. 高级：联合公司工程、ETL采集分析用户全量行为，建立用户画像，还原用户行为模型，作为产品分析、优化的基础。

数据脱敏 定义：数据脱敏，又称数据去隐私化或者数据变形，是在给定的规则、策略下对敏感数据进行变换、修改的技术机制，能够在很大程度上解决敏感数据在非可信环境中使用的问题。根据规范和脱敏策略，对业务数据中的敏感信息实施自动变形，实现对敏感信息的隐藏。

原理：数据脱敏在保留数据原始特征的条件下，按需进行敏感信息内容的变换。只有授权的管理员或用户，在必须知晓的情况下，才可通过特定应用程序与工具访问数据的真实值，从而降低这些重要数据在共享和移动时的风险。数据脱敏在不降低安全性的前提下，使原有数据的使用范围和共享对象得以拓展，因而是大数据环境下最有效的敏感数据保护方法。任何涉及敏感信息的行业都对数据脱敏有着天然的需求。

常见的脱敏方法：
替换：以虚构的数据代替真值。例如，建立一个较大的虚拟值数据表，对每一真实值记录产生随机种子，对原始数据内容进行哈希映射替换。这种方法得到的数据与真实数据非常相似。无效化：以NULL或*****代替真值或真值的一部分，如遮盖信用卡号的后12位。

置乱：对敏感数据列的值进行重新随机分布，混淆原有值和其他字段的联系。这种方法不影响原有数据的统计特性，如最大/最小。

均值化：针对数值型数据，首先计算它们的均值，然后使脱敏后的值在均值附近随机分布，从而保持数据的总和不变。通常用于产品成本表、工资表等场合。

posted @ 2021-01-16 10:04 爱时尚疯了的朱阅读(545) 评论(0) 编辑收藏举报

刷新页面返回顶部

爱时尚疯了的朱

数据埋点，数据脱敏

公告