摘要:
一、文件流 1.在spark-shell中创建文件流 进入spark-shell创建文件流。另外打开一个终端窗口,启动进入spark-shell 上面在spark-shell中执行的程序,一旦你输入ssc.start()以后,程序就开始自动进入循环监听状态,屏幕上会显示一堆的信息,如下: 在“/us 阅读全文
摘要:
一、Spark Streaming工作机制 在Spark Streaming中,会有一个组件Receiver,作为一个长期运行的task跑在一个Executor上; 每个Receiver都会负责一个input DStream(比如从文件中读取数据的文件流,比如套接字流,或者从Kafka中读取的一个输 阅读全文
摘要:
一、Spark Streaming设计 Spark Streaming可整合多种输入数据源,如Kafka、Flume、HDFS,甚至是普通的TCP套接字。经处理后的数据可存储至文件系统、数据库,或显示在仪表盘里。 Spark Streaming的基本原理是将实时输入数据流以时间片(秒级)为单位进行拆 阅读全文
摘要:
一、静态数据和流数据 很多企业为了支持决策分析而构建的数据仓库系统,其中存放的大量历史数据就是静态数据。技术人员可以利用数据挖掘和OLAP(On-Line Analytical Processing)分析工具从静态数据中找到对企业有价值的信息。 近年来,在Web应用、网络监控、传感监测等领域,兴起了 阅读全文
摘要:
Spark SQL可以支持Parquet、JSON、Hive等数据源,并且可以通过JDBC连接外部数据源 一、通过JDBC连接数据库 1.准备工作 ubuntu安装mysql教程 在Linux中启动MySQL数据库: 输入下面SQL语句完成数据库和表的创建: 2.读取mysql数据库中的数据 下载M 阅读全文