11 2019 档案
摘要:Some part of code can be download from https://files.cnblogs.com/files/cschen588/car-project1.zip Only a part of the project file, OrderStreamingProce
阅读全文
摘要:sql: 数据库一二三范式:(normal form/normalization) https://www.guru99.com/database-normalization.html 第一范式:每个属性不可再分 第二范式:一个表中每个属性和主键有依赖 第三范式:一个表每个属性和主键有直接依赖 不能
阅读全文
摘要:https://lotabout.me/2018/kafka-introduction/ offset Kafka是信息交互枢纽 kafka集群由broker管理 :broker1,2,3。。。 每个分区表面上只有一个机器 同时,用segment进行水平扩展,一个segment对应两个文件(数据文件
阅读全文
摘要:一:Cloudera平台搭建 运行后启动的服务 运行三台机子后主机启动的服务 启动后首先安装kafka,测试hdfs 9 hadoop dfs -mkdir /test 10 hadoop dfs -put words /test hadoop jar /opt/cloudera/parcels/C
阅读全文
摘要:Maxwell是一个能实时读取MySQL二进制日志binlog,并生成 JSON 格式的消息,作为生产者发送给 Kafka,Kinesis、RabbitMQ、Redis、Google Cloud Pub/Sub、文件或其它平台的应用./zkServer.sh start程序。它的常见应用场景有ETL
阅读全文
摘要:https://dzone.com/articles/spark-streaming-vs-structured-streaming 比较spark streaming 和structured streaming 1。微批处理模式 日志操作保证一致性 带来微小延迟 100ms 2。持续处理模式 毫秒
阅读全文
摘要:Spark SQL 增加了DataFrame 即带有Schema信息的RDD DataFrame 创建 启动pyspark(由于内存不够 启动本地,模式) pyspark --master local pyspark 自动生成 sc,sparksession from pyspark import
阅读全文
摘要:恢复内容开始 特征: 持续到达,数据量大,注重数据整体价值,数据顺序可能颠倒,丢失,实时计算, 海量,分布,实时,快速部署,可靠 linked in Kafka spark streaming:微小批处理,模拟流计算,秒级响应 DStream 一系列RDD 的集合 支持批处理 创建文件流 10代表每
阅读全文
摘要:https://study.163.com/course/courseMain.htm?courseId=1209408816&_trace_c_p_k2_=be708555d46e4f39828eda1e25189113 Spark:基于内存的计算框架 spark生态系统 spark基本架构: R
阅读全文