sftsgly - 博客园

2023年9月10日

摘要： 1、离线数据仓库是由FACEBOOK开源，基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能极大提高了数据开发的效率本质是一个Hadoop客户端（1） Hive中每张表的数据存储在HDFS （2） Hive分析数据底层的实现是MapReduce，也可阅读全文

posted @ 2023-09-10 00:35 sftsgly 阅读(62) 评论(0) 推荐(0) 编辑

2023年8月10日

Scala学习总结

摘要： 1、为什么学习Scala？（1）Java++ 【1】基于JVM，和JAVA完全兼容，可以跨平台，移植性好，方便垃圾回收【2】比JAVA更面向对象【3】函数式编程语言（2）更适合大数据处理【1】对集合类型数据处理有非常好的支持【2】Spark的底层用Scala编写 2、Scala和Java 阅读全文

posted @ 2023-08-10 20:50 sftsgly 阅读(32) 评论(0) 推荐(0) 编辑

2023年7月27日

Spark学习总结（三）—— Spark Streaming

摘要： 1、流式数据处理 & 批量数据处理描述的是数据处理的方式角度 2、实时数据处理 & 离线数据处理描述的是数据处理延迟的长短：实时数据处理一般是毫秒级别延迟离线数据处理一般是小时 or 天级别延迟 3、SparkStreaming 准实时（秒、分钟），微批次的数据处理框架用于流式数据的处理阅读全文

posted @ 2023-07-27 17:53 sftsgly 阅读(51) 评论(0) 推荐(0) 编辑

Spark学习总结（二）—— Spark Sql

摘要： 1、SparkSQL SparkSQL是spark用于结构化数据处理的spark模块 Hive 是早期唯一运行在 Hadoop 上的 SQL-on-Hadoop 工具。但是 MapReduce 计算过程中大量的中间磁盘落地过程消耗了大量的 I/O，降低的运行效率，为了提高 SQL- on-Hado 阅读全文

posted @ 2023-07-27 17:45 sftsgly 阅读(76) 评论(0) 推荐(0) 编辑

Spark学习总结（一）—— Spark Core

摘要： 1、SPARK 基于内存的快速通用可扩展的大数据分析计算引擎包含流处理的批处理框架一次性数据计算：处理数据时会从存储设备中读取数据，进行逻辑操作，然后将处理的结果重新存储到介质中处理复杂逻辑性能低 SPARK对该流程进行了更改，即不是放入磁盘而是放入内存中方便后续的操作但这么做也可能导致内存阅读全文

posted @ 2023-07-27 16:47 sftsgly 阅读(24) 评论(0) 推荐(0) 编辑

Zookeeper学习总结

摘要： 1、概述 zookeeper是一个开源的分布式的，为分布式框架提供协调服务的Apache项目观察者模式涉及的分布式服务管理框架负责存储和管理用户关心的数据如果数据状态发生变化就会通知zookeeper用户做出反应 zookeeper:文件系统+通知机制 2、特点有一个领导者和多个跟随者组成的集阅读全文

posted @ 2023-07-27 16:01 sftsgly 阅读(22) 评论(0) 推荐(0) 编辑

差分隐私（七）：三星Harmony系列算法

摘要：动机 1、用户智能设备收集的数据对开发人员很重要（1）智能设备（手机、家用电器、传感器、车辆）等已经成为了我们生活中的一部分（2）它们收集到的数据对于开发人员是一笔宝贵的财富，例如三星的TouchWiz通过搜集用户自定义的界面信息来了解多模式（例如多窗口、单手模式）的使用情况并进行流行功能的改进阅读全文

posted @ 2023-07-27 15:01 sftsgly 阅读(296) 评论(0) 推荐(0) 编辑

2023年6月30日

差分隐私（六）：苹果CMS/HCMS/SFP系列算法

摘要：动机 1、对用户数据的分析有助于公司改善用户的使用体验（1）了解流行新词，加入字典方便用户输入（2）了解受欢迎的运动，推荐给有需要的用户 2、获取用户数据可能会侵犯用户隐私，需要谨慎处理（1）可选择加入，用户未明确同意之前不会记录和传输任何数据（2）限制数据传输频次，每天一次（3）无IP标阅读全文

posted @ 2023-06-30 12:17 sftsgly 阅读(395) 评论(0) 推荐(0) 编辑

差分隐私（五）：RAPPOR-EM算法具体计算流程推导

摘要：阅读全文

posted @ 2023-06-30 11:42 sftsgly 阅读(127) 评论(0) 推荐(0) 编辑

差分隐私（四）：RAPPOR算法（随机响应&EM算法）抛硬币案例分析

摘要：随机响应技术抛硬币案例抛硬币极大似然估计第一步：计算出患病和不患病的概率第二步：构造极大似然函数第三步：求出患病人数预估结果 EM算法 1、贝叶斯公式计算实验使用了哪个硬币已知硬币A正面朝上概率0.6 硬币B正面朝上概率0.5 设事件A：使用A硬币进行实验事件B：实验结果抛十次正反朝阅读全文

posted @ 2023-06-30 11:26 sftsgly 阅读(365) 评论(0) 推荐(0) 编辑

SFTSGLY的博客空间

海内存知己，天涯若比邻。