2018年6月25日

hadoop-MR

摘要: Mapreduce: 编程模型,适用于分布式计算 Map: 映射 预处理 Reduce: 化简 聚合 shuffle: 网络间分发 combiner: Map端的reduce partitioner: 分区,默认hash分区 combiner: 最大值,最小值 平均... 阅读全文

posted @ 2018-06-25 17:00 飞机耳朵 阅读(169) 评论(0) 推荐(0) 编辑

hadoop归档、压缩

摘要: 配额: 目录配额:hdfs dfsadmin -setQuota 空间配额:hdfs dfsadmin -setSpaceQuota 块大小x副本数 快照: 和Linux的硬链接类似,作为数据块的引用 原文件发生改变,快照不会改变 回收站: core-site.xml hdfs dfs -expunge 序列化 序列化是将结构... 阅读全文

posted @ 2018-06-25 16:58 飞机耳朵 阅读(480) 评论(0) 推荐(0) 编辑

2018年5月23日

spark-红酒-白酒评估

摘要: Storm ------------------ 实时计算,延迟很低。 吞吐量小。 tuple() Spark Streaming ------------------ DStream,离散流计算。 相当于一序列RDD。 按照时间片划分RDD。 DStream分区 = RDD的分区。 动态数据。 StreamingCont... 阅读全文

posted @ 2018-05-23 14:38 飞机耳朵 阅读(1572) 评论(0) 推荐(0) 编辑

spark-Streaming窗口化和kafak-streaming 消费策略

摘要: Spark Streaming ---------------- 流计算,不间断。 Spark Streaming模块, 实现方式是批量计算,按照时间片对stream切割形成静态数据。 //创建上下文时,指定时间片。 val ssc = new StreamingContext(conf, Seconds(1)) //已经限定了时间片 ss... 阅读全文

posted @ 2018-05-23 14:36 飞机耳朵 阅读(2269) 评论(0) 推荐(0) 编辑

2018年5月20日

spark的累加器-SQL-Streaming

摘要: RDD持久化 --------------- memory disk off-heap serial replication Memory_ONLY(true , false ,false , true ,1) 广播变量 --------------- driver端切成小块,存放到blockmanager,executor广播变量 的小块,首先从自己的bl... 阅读全文

posted @ 2018-05-20 10:29 飞机耳朵 阅读(941) 评论(0) 推荐(0) 编辑

2018年5月16日

MySQL的基本操作

摘要: 修改一个数据库的字符集 alter database 数据库名 character set 字符集名; 修改一个数据库的校对规则 alter database 数据库名 collate 校对规则名; 删除一个数据库 drop database 数据库名; 练习: 1.将数据库mydb2的字符集改成utf8 2.将数据库mydb3的校对规则改成utf8_bin 3.删除my... 阅读全文

posted @ 2018-05-16 17:14 飞机耳朵 阅读(168) 评论(0) 推荐(0) 编辑

spark-yarn模式和shuffle原理

摘要: sparkjob的部署 ----------------- 1.client driver run on client 2.cluster driver on a worker 4.启动job时,指定资源使用。 $>spark-submit --driver-memory MEM //设置dri... 阅读全文

posted @ 2018-05-16 15:30 飞机耳朵 阅读(1271) 评论(0) 推荐(0) 编辑

spark-job提交原理和资源配置

摘要: spark术语 --------------- 1.RDD 弹性分布式数据集 , 轻量级数据集合。 内部含有5方面属性: a.分区列表 b.计算函数 c.依赖列表 e.分区类(KV) f.首选位置 创建RDD方式) a.text... 阅读全文

posted @ 2018-05-16 09:38 飞机耳朵 阅读(1660) 评论(0) 推荐(0) 编辑

2018年5月13日

spark配置和word-count

摘要: Spark ------------ 快如闪电集群计算引擎。 应用于大规模数据处理快速通用引擎。 内存计算。 [Speed] 计算速度是hadoop的100x. Spark有高级DAG(Direct acycle graph,有向无环图)执行引擎。 [易于使用] 使用java,scala,python,R,SQL编写A... 阅读全文

posted @ 2018-05-13 09:31 飞机耳朵 阅读(303) 评论(0) 推荐(0) 编辑

2018年5月9日

使用MR编程hbase和hbase调优-布隆过滤器

摘要: 使用MR编程操纵hbase ====================================== 1、TableInputFormat输入K,V格式 ImmutableBytesWritable //相当于textInputFormat中的偏移量 Result //真实数据 使用conf设置tabl... 阅读全文

posted @ 2018-05-09 18:02 飞机耳朵 阅读(273) 评论(0) 推荐(0) 编辑

导航