wang_zai

2019年10月31日

摘要： 1. 表中数据过亿，加载速度过慢，而我只需要加载增量数据如：加载昨天一整天的数据，添加predicates分区，方法如下：如果需要加载大表中全部数据，可以把数据分成多个区（读取数据库表默认是一个分区），如下是按创建时间分区，把最近三个月数据分成三个区 2.每次到了最后一个stage,报内存不足错阅读全文

posted @ 2019-10-31 15:32 wang_zai 阅读(1005) 评论(0) 推荐(0) 编辑

2019年6月27日

spark操作总结

摘要：一、sparkContext与sparkSession区别任何Spark程序都是SparkContext开始的，SparkContext的初始化需要一个SparkConf对象，SparkConf包含了Spark集群配置的各种参数,sparkContext只能在driver机器上面启动;SparkS 阅读全文

posted @ 2019-06-27 14:51 wang_zai 阅读(609) 评论(0) 推荐(0) 编辑

2019年6月19日

使用Matplotlab画图

摘要： 1.绘制折线图 2.绘制散点图 3.绘制水平条形图 4.绘制条形图 5.绘制饼图 6.绘制多条折线图 7.绘制多个条形图阅读全文

posted @ 2019-06-19 09:52 wang_zai 阅读(653) 评论(0) 推荐(0) 编辑

2019年6月10日

sparkstreaming写入hbase表中总结

摘要：执行spark代码插入数据到hbase表中去的时候，遇到的错误 1. 缺少hadoop-mapreduce-client-core-2.5.1.jar包 2. 缺少hbase-protocol-1.3.1.jar包 3. 缺少metrics-core-2.2.0.jar的包 4. 需要的jar包 5 阅读全文

posted @ 2019-06-10 10:35 wang_zai 阅读(2708) 评论(0) 推荐(0) 编辑

访问hive显示原数据报错

摘要：访问hive报错如下：找到原因是因为在spark-shell里面操作了hive的数据(spark应用创建表时，指定的schema版本为1.2.0，而hive的schema版本为2.3.x，版本不兼容导致) 解决方法一（临时解决）：首先查看你hive的版本，如若是2.3.4则到hive对应元数据的M 阅读全文

posted @ 2019-06-10 10:09 wang_zai 阅读(808) 评论(0) 推荐(1) 编辑

vimplus基本操作

摘要： 1. YouCompleteMe按tab键，自动补全 2. vim-commentary添加注释，以及取消注释gcc 注释当前行（普通模式）gc 可视模式下，注释当前选中的部分gcu 撤销上一次注释的部分，可以是一行也可以是多行 3. vim分割窗口的操作:split 水平（上下）分割窗口:vspl 阅读全文

posted @ 2019-06-10 09:58 wang_zai 阅读(2893) 评论(0) 推荐(1) 编辑

2019年4月26日

kafka存储数据量过大，导致磁盘爆满

摘要：问题：注意到自己负责kafka的某个topic最小的偏移量为0，而最大的偏移量都7亿多了，说明存储在kafka里面的数据没有定时删除，通过登陆到kafka服务器，查看配置文件services.properties，发现log.retention.hours=876000（100年），我猜想配置ka 阅读全文

posted @ 2019-04-26 11:00 wang_zai 阅读(10538) 评论(0) 推荐(0) 编辑

2019年4月4日

通过canal实现把MySQL数据实时增量到kafka

摘要：说明：我们有一个业务需要把mysql中一些表实时同步到大数据集群hbase上面，我们先通过sqoop把表中数据全量导入到hbase中，然后再通过canal定位的某个binlog的position，来实现增量同步，canal官网提供了java/go接口，直接写入到Kafka，然后通过sparkstre 阅读全文

posted @ 2019-04-04 15:50 wang_zai 阅读(4416) 评论(0) 推荐(0) 编辑

2019年3月26日

调用spark API，监控任务的进度

摘要：我们现在需要监控datapre0这个任务每一次执行的进度，操作如下： 1. 如图所示，打开spark管理页面，找到对应的任务，点击任务名datapre0 2. 进去之后，获得对应IP和端口 3. 访问api（linux直接通过curl访问） http://ip:4040/api/v1/applica 阅读全文

posted @ 2019-03-26 18:26 wang_zai 阅读(3502) 评论(0) 推荐(0) 编辑

2019年1月3日

mysql常用语法

摘要： 1. DISTINCT用法 2.AND OR 用法 3.IN用法 4.Between and 用法 5.LIKE用法 6.ORDER BY用法 7.SUM用法 8.COUNT用法 9.GROUP BY 用法 10.HAVING 用法 11.ALIAS 别名用法 11.表格链接用法 12.CONCA 阅读全文

posted @ 2019-01-03 20:49 wang_zai 阅读(501) 评论(0) 推荐(0) 编辑

公告