2023 年 7月 27 日随笔档案 - sftsgly

2023年7月27日

摘要： 1、流式数据处理 & 批量数据处理描述的是数据处理的方式角度 2、实时数据处理 & 离线数据处理描述的是数据处理延迟的长短：实时数据处理一般是毫秒级别延迟离线数据处理一般是小时 or 天级别延迟 3、SparkStreaming 准实时（秒、分钟），微批次的数据处理框架用于流式数据的处理阅读全文

posted @ 2023-07-27 17:53 sftsgly 阅读(51) 评论(0) 推荐(0) 编辑

Spark学习总结（二）—— Spark Sql

摘要： 1、SparkSQL SparkSQL是spark用于结构化数据处理的spark模块 Hive 是早期唯一运行在 Hadoop 上的 SQL-on-Hadoop 工具。但是 MapReduce 计算过程中大量的中间磁盘落地过程消耗了大量的 I/O，降低的运行效率，为了提高 SQL- on-Hado 阅读全文

posted @ 2023-07-27 17:45 sftsgly 阅读(76) 评论(0) 推荐(0) 编辑

Spark学习总结（一）—— Spark Core

摘要： 1、SPARK 基于内存的快速通用可扩展的大数据分析计算引擎包含流处理的批处理框架一次性数据计算：处理数据时会从存储设备中读取数据，进行逻辑操作，然后将处理的结果重新存储到介质中处理复杂逻辑性能低 SPARK对该流程进行了更改，即不是放入磁盘而是放入内存中方便后续的操作但这么做也可能导致内存阅读全文

posted @ 2023-07-27 16:47 sftsgly 阅读(24) 评论(0) 推荐(0) 编辑

Zookeeper学习总结

摘要： 1、概述 zookeeper是一个开源的分布式的，为分布式框架提供协调服务的Apache项目观察者模式涉及的分布式服务管理框架负责存储和管理用户关心的数据如果数据状态发生变化就会通知zookeeper用户做出反应 zookeeper:文件系统+通知机制 2、特点有一个领导者和多个跟随者组成的集阅读全文

posted @ 2023-07-27 16:01 sftsgly 阅读(22) 评论(0) 推荐(0) 编辑

差分隐私（七）：三星Harmony系列算法

摘要：动机 1、用户智能设备收集的数据对开发人员很重要（1）智能设备（手机、家用电器、传感器、车辆）等已经成为了我们生活中的一部分（2）它们收集到的数据对于开发人员是一笔宝贵的财富，例如三星的TouchWiz通过搜集用户自定义的界面信息来了解多模式（例如多窗口、单手模式）的使用情况并进行流行功能的改进阅读全文

posted @ 2023-07-27 15:01 sftsgly 阅读(296) 评论(0) 推荐(0) 编辑

SFTSGLY的博客空间

海内存知己，天涯若比邻。