摘要:
1. 表中数据过亿,加载速度过慢,而我只需要加载增量数据 如:加载昨天一整天的数据,添加predicates分区,方法如下: 如果需要加载大表中全部数据,可以把数据分成多个区(读取数据库表默认是一个分区),如下是按创建时间分区,把最近三个月数据分成三个区 2.每次到了最后一个stage,报内存不足错 阅读全文
摘要:
一、sparkContext与sparkSession区别 任何Spark程序都是SparkContext开始的,SparkContext的初始化需要一个SparkConf对象,SparkConf包含了Spark集群配置的各种参数,sparkContext只能在driver机器上面启动;SparkS 阅读全文
摘要:
1.绘制折线图 2.绘制散点图 3.绘制水平条形图 4.绘制条形图 5.绘制饼图 6.绘制多条折线图 7.绘制多个条形图 阅读全文
摘要:
执行spark代码插入数据到hbase表中去的时候,遇到的错误 1. 缺少hadoop-mapreduce-client-core-2.5.1.jar包 2. 缺少hbase-protocol-1.3.1.jar包 3. 缺少metrics-core-2.2.0.jar的包 4. 需要的jar包 5 阅读全文
摘要:
访问hive报错如下: 找到原因是因为在spark-shell里面操作了hive的数据(spark应用创建表时,指定的schema版本为1.2.0,而hive的schema版本为2.3.x,版本不兼容导致) 解决方法一(临时解决):首先查看你hive的版本,如若是2.3.4则到hive对应元数据的M 阅读全文
摘要:
1. YouCompleteMe按tab键,自动补全 2. vim-commentary添加注释,以及取消注释gcc 注释当前行(普通模式)gc 可视模式下,注释当前选中的部分gcu 撤销上一次注释的部分,可以是一行也可以是多行 3. vim分割窗口的操作:split 水平(上下)分割窗口:vspl 阅读全文
摘要:
问题: 注意到自己负责kafka的某个topic最小的偏移量为0,而最大的偏移量都7亿多了,说明存储在kafka里面的数据没有定时删除,通过登陆到kafka服务器,查看配置文件services.properties,发现log.retention.hours=876000(100年),我猜想配置ka 阅读全文
摘要:
说明:我们有一个业务需要把mysql中一些表实时同步到大数据集群hbase上面,我们先通过sqoop把表中数据全量导入到hbase中,然后再通过canal定位的某个binlog的position,来实现增量同步,canal官网提供了java/go接口,直接写入到Kafka,然后通过sparkstre 阅读全文
摘要:
我们现在需要监控datapre0这个任务每一次执行的进度,操作如下: 1. 如图所示,打开spark管理页面,找到对应的任务,点击任务名datapre0 2. 进去之后,获得对应IP和端口 3. 访问api(linux直接通过curl访问) http://ip:4040/api/v1/applica 阅读全文