数据埋点,数据脱敏
1. 自已研发,注入到产品代码中,并搭建起相应的后台。(费时费力,但数据掌握在自已手上)
2. 第三方统计工具,如百度统计。(方便快捷,但数据掌握在别人手上)
中小型项目首先考虑第二种,大型项目考虑第一种。
埋点技术如何采集数据,有何优缺点?
数据埋点分为初级、中级、高级三种方式,分别为:
无疑,数据埋点是一种良好的私有化部署数据采集方式。数据采集准确,满足了企业去粗取精,实现产品、服务快速优化迭代的需求。
但,因手动埋点工程量极大,且一不小心容易出错,成为很多工程师的痛。且其开发周期长,耗时费力,很多规模较小的公司并不具备自己埋点的能力。
1. 初级:在产品、服务转化关键点植入统计代码,据其独立ID确保数据采集不重复(如购买按钮点击率);
2. 中级:植入多段代码,追踪用户在平台每个界面上的系列行为,事件之间相互独立(如打开商品详情页——选择商品型号——加入购物车——下订单——购买完成);
3. 高级:联合公司工程、ETL采集分析用户全量行为,建立用户画像,还原用户行为模型,作为产品分析、优化的基础。
原理:数据脱敏在保留数据原始特征的条件下,按需进行敏感信息内容的变换。只有授权的管理员或用户,在必须知晓的情况下,才可通过特定应用程序与工具访问数据的真实值,从而降低这些重要数据在共享和移动时的风险。数据脱敏在不降低安全性的前提下,使原有数据的使用范围和共享对象得以拓展,因而是大数据环境下最有效的敏感数据保护方法。任何涉及敏感信息的行业都对数据脱敏有着天然的需求。
常见的脱敏方法:
替换:以虚构的数据代替真值。例如,建立一个较大的虚拟值数据表,对每一真实值记录产生随机种子,对原始数据内容进行哈希映射替换。这种方法得到的数据与真实数据非常相似。无效化:以NULL或*****代替真值或真值的一部分,如遮盖信用卡号的后12位。
置乱:对敏感数据列的值进行重新随机分布,混淆原有值和其他字段的联系。这种方法不影响原有数据的统计特性,如最大/最小。
均值化:针对数值型数据,首先计算它们的均值,然后使脱敏后的值在均值附近随机分布,从而保持数据的总和不变。通常用于产品成本表、工资表等场合。