摘要: 1、离线数据仓库 是由FACEBOOK开源,基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能极大提高了数据开发的效率 本质是一个Hadoop客户端 (1) Hive中每张表的数据存储在HDFS (2) Hive分析数据底层的实现是MapReduce,也可 阅读全文
posted @ 2023-09-10 00:35 sftsgly 阅读(62) 评论(0) 推荐(0) 编辑
摘要: 1、为什么学习Scala? (1)Java++ 【1】基于JVM,和JAVA完全兼容,可以跨平台,移植性好,方便垃圾回收 【2】比JAVA更面向对象 【3】函数式编程语言 (2)更适合大数据处理 【1】对集合类型数据处理有非常好的支持 【2】Spark的底层用Scala编写 2、Scala和Java 阅读全文
posted @ 2023-08-10 20:50 sftsgly 阅读(32) 评论(0) 推荐(0) 编辑
摘要: 1、流式数据处理 & 批量数据处理 描述的是数据处理的方式角度 2、实时数据处理 & 离线数据处理 描述的是数据处理延迟的长短: 实时数据处理一般是毫秒级别延迟 离线数据处理一般是小时 or 天级别延迟 3、SparkStreaming 准实时(秒、分钟),微批次的数据处理框架 用于流式数据的处理 阅读全文
posted @ 2023-07-27 17:53 sftsgly 阅读(51) 评论(0) 推荐(0) 编辑
摘要: 1、SparkSQL SparkSQL是spark用于结构化数据处理的spark模块 Hive 是早期唯一运行在 Hadoop 上的 SQL-on-Hadoop 工具。 但是 MapReduce 计算过程中大量的中间磁盘落地过程消耗了大量的 I/O,降低的运行效率,为了提高 SQL- on-Hado 阅读全文
posted @ 2023-07-27 17:45 sftsgly 阅读(76) 评论(0) 推荐(0) 编辑
摘要: 1、SPARK 基于内存的快速通用可扩展的大数据分析计算引擎包含流处理的批处理框架 一次性数据计算: 处理数据时会从存储设备中读取数据,进行逻辑操作,然后将处理的结果重新存储到介质中 处理复杂逻辑性能低 SPARK对该流程进行了更改,即不是放入磁盘而是放入内存中方便后续的操作 但这么做也可能导致内存 阅读全文
posted @ 2023-07-27 16:47 sftsgly 阅读(24) 评论(0) 推荐(0) 编辑
摘要: 1、概述 zookeeper是一个开源的分布式的,为分布式框架提供协调服务的Apache项目观察者模式涉及的分布式服务管理框架 负责存储和管理用户关心的数据 如果数据状态发生变化就会通知zookeeper用户做出反应 zookeeper:文件系统+通知机制 2、特点 有一个领导者和多个跟随者组成的集 阅读全文
posted @ 2023-07-27 16:01 sftsgly 阅读(22) 评论(0) 推荐(0) 编辑
摘要: 动机 1、用户智能设备收集的数据对开发人员很重要 (1)智能设备(手机、家用电器、传感器、车辆)等已经成为了我们生活中的一部分 (2)它们收集到的数据对于开发人员是一笔宝贵的财富,例如三星的TouchWiz通过搜集用户自定义的界面信息来了解多模式(例如多窗口、单手模式)的使用情况并进行流行功能的改进 阅读全文
posted @ 2023-07-27 15:01 sftsgly 阅读(296) 评论(0) 推荐(0) 编辑
摘要: 动机 1、对用户数据的分析有助于公司改善用户的使用体验 (1)了解流行新词,加入字典方便用户输入 (2)了解受欢迎的运动,推荐给有需要的用户 2、获取用户数据可能会侵犯用户隐私,需要谨慎处理 (1)可选择加入,用户未明确同意之前不会记录和传输任何数据 (2)限制数据传输频次,每天一次 (3)无IP标 阅读全文
posted @ 2023-06-30 12:17 sftsgly 阅读(395) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2023-06-30 11:42 sftsgly 阅读(127) 评论(0) 推荐(0) 编辑
摘要: 随机响应技术抛硬币案例 抛硬币极大似然估计 第一步:计算出患病和不患病的概率 第二步:构造极大似然函数 第三步:求出患病人数预估结果 EM算法 1、贝叶斯公式计算实验使用了哪个硬币 已知 硬币A正面朝上概率0.6 硬币B正面朝上概率0.5 设 事件A:使用A硬币进行实验 事件B:实验结果抛十次正反朝 阅读全文
posted @ 2023-06-30 11:26 sftsgly 阅读(365) 评论(0) 推荐(0) 编辑