飞机耳朵

hadoop-MR

摘要： Mapreduce：编程模型，适用于分布式计算 Map：映射预处理 Reduce: 化简聚合 shuffle：网络间分发 combiner： Map端的reduce partitioner：分区，默认hash分区 combiner：最大值，最小值平均... 阅读全文

posted @ 2018-06-25 17:00 飞机耳朵阅读(181) 评论(0) 推荐(0)

hadoop归档、压缩

摘要：配额：目录配额：hdfs dfsadmin -setQuota 空间配额：hdfs dfsadmin -setSpaceQuota 块大小x副本数快照：和Linux的硬链接类似，作为数据块的引用原文件发生改变，快照不会改变回收站： core-site.xml hdfs dfs -expunge 序列化序列化是将结构... 阅读全文

posted @ 2018-06-25 16:58 飞机耳朵阅读(502) 评论(0) 推荐(0)

spark-红酒-白酒评估

摘要： Storm ------------------ 实时计算，延迟很低。吞吐量小。 tuple() Spark Streaming ------------------ DStream，离散流计算。相当于一序列RDD。按照时间片划分RDD。 DStream分区 = RDD的分区。动态数据。 StreamingCont... 阅读全文

posted @ 2018-05-23 14:38 飞机耳朵阅读(1624) 评论(0) 推荐(0)

spark-Streaming窗口化和kafak-streaming 消费策略

摘要： Spark Streaming ---------------- 流计算，不间断。 Spark Streaming模块，实现方式是批量计算，按照时间片对stream切割形成静态数据。 //创建上下文时，指定时间片。 val ssc = new StreamingContext(conf, Seconds(1)) //已经限定了时间片 ss... 阅读全文

posted @ 2018-05-23 14:36 飞机耳朵阅读(2301) 评论(0) 推荐(0)

spark的累加器-SQL-Streaming

摘要： RDD持久化 --------------- memory disk off-heap serial replication Memory_ONLY(true , false ,false , true ,1) 广播变量 --------------- driver端切成小块，存放到blockmanager，executor广播变量的小块，首先从自己的bl... 阅读全文

posted @ 2018-05-20 10:29 飞机耳朵阅读(954) 评论(0) 推荐(0)

MySQL的基本操作

摘要：修改一个数据库的字符集 alter database 数据库名 character set 字符集名; 修改一个数据库的校对规则 alter database 数据库名 collate 校对规则名; 删除一个数据库 drop database 数据库名; 练习: 1.将数据库mydb2的字符集改成utf8 2.将数据库mydb3的校对规则改成utf8_bin 3.删除my... 阅读全文

posted @ 2018-05-16 17:14 飞机耳朵阅读(174) 评论(0) 推荐(0)

spark-yarn模式和shuffle原理

摘要： sparkjob的部署 ----------------- 1.client driver run on client 2.cluster driver on a worker 4.启动job时，指定资源使用。 $>spark-submit --driver-memory MEM //设置dri... 阅读全文

posted @ 2018-05-16 15:30 飞机耳朵阅读(1327) 评论(0) 推荐(0)

spark-job提交原理和资源配置

摘要： spark术语 --------------- 1.RDD 弹性分布式数据集 , 轻量级数据集合。内部含有5方面属性： a.分区列表 b.计算函数 c.依赖列表 e.分区类(KV) f.首选位置创建RDD方式) a.text... 阅读全文

posted @ 2018-05-16 09:38 飞机耳朵阅读(1677) 评论(0) 推荐(0)

spark配置和word-count

摘要： Spark ------------ 快如闪电集群计算引擎。应用于大规模数据处理快速通用引擎。内存计算。 [Speed] 计算速度是hadoop的100x. Spark有高级DAG(Direct acycle graph,有向无环图)执行引擎。 [易于使用] 使用java,scala,python,R,SQL编写A... 阅读全文

posted @ 2018-05-13 09:31 飞机耳朵阅读(336) 评论(0) 推荐(0)

使用MR编程hbase和hbase调优-布隆过滤器

摘要：使用MR编程操纵hbase ====================================== 1、TableInputFormat输入K,V格式 ImmutableBytesWritable //相当于textInputFormat中的偏移量 Result //真实数据使用conf设置tabl... 阅读全文

posted @ 2018-05-09 18:02 飞机耳朵阅读(289) 评论(0) 推荐(0)