摘要:
1、流式数据处理 & 批量数据处理 描述的是数据处理的方式角度 2、实时数据处理 & 离线数据处理 描述的是数据处理延迟的长短: 实时数据处理一般是毫秒级别延迟 离线数据处理一般是小时 or 天级别延迟 3、SparkStreaming 准实时(秒、分钟),微批次的数据处理框架 用于流式数据的处理 阅读全文
摘要:
1、SparkSQL SparkSQL是spark用于结构化数据处理的spark模块 Hive 是早期唯一运行在 Hadoop 上的 SQL-on-Hadoop 工具。 但是 MapReduce 计算过程中大量的中间磁盘落地过程消耗了大量的 I/O,降低的运行效率,为了提高 SQL- on-Hado 阅读全文
摘要:
1、SPARK 基于内存的快速通用可扩展的大数据分析计算引擎包含流处理的批处理框架 一次性数据计算: 处理数据时会从存储设备中读取数据,进行逻辑操作,然后将处理的结果重新存储到介质中 处理复杂逻辑性能低 SPARK对该流程进行了更改,即不是放入磁盘而是放入内存中方便后续的操作 但这么做也可能导致内存 阅读全文
摘要:
1、概述 zookeeper是一个开源的分布式的,为分布式框架提供协调服务的Apache项目观察者模式涉及的分布式服务管理框架 负责存储和管理用户关心的数据 如果数据状态发生变化就会通知zookeeper用户做出反应 zookeeper:文件系统+通知机制 2、特点 有一个领导者和多个跟随者组成的集 阅读全文
摘要:
动机 1、用户智能设备收集的数据对开发人员很重要 (1)智能设备(手机、家用电器、传感器、车辆)等已经成为了我们生活中的一部分 (2)它们收集到的数据对于开发人员是一笔宝贵的财富,例如三星的TouchWiz通过搜集用户自定义的界面信息来了解多模式(例如多窗口、单手模式)的使用情况并进行流行功能的改进 阅读全文