摘要: 运行spark程序一直报错: 原因: 文件里有一行数据为垃圾数据, 这行数据的列数和列名的个数不一致. 解决办法: 过滤掉这样的数据 阅读全文
posted @ 2018-09-04 14:18 TheEarthOnTheFly 阅读(456) 评论(0) 推荐(0) 编辑
摘要: Hadoop 文件夹大小统计 https://blog.csdn.net/mtj66/article/details/52648483 阅读全文
posted @ 2018-05-23 16:49 TheEarthOnTheFly 阅读(313) 评论(0) 推荐(0) 编辑
摘要: 转载: https://blog.csdn.net/bgk083/article/details/49454209 阅读全文
posted @ 2018-05-17 11:28 TheEarthOnTheFly 阅读(907) 评论(0) 推荐(0) 编辑
摘要: 看到一位大牛总结的: ♣ Spark在windows7环境下的搭建: https://blog.csdn.net/u011513853/article/details/52865076 ♣ 用IDEA创建第一个Maven项目, scala项目, scala插件安装: https://blog.csd 阅读全文
posted @ 2018-05-15 16:54 TheEarthOnTheFly 阅读(203) 评论(0) 推荐(0) 编辑
摘要: 1 #!/bin/bash 2 3 procPath="jar包的路径" 4 hdfsdir="hdfs://主节点hostname:端口号" 5 6 # 日期文件执行 7 proctime=$(date +%Y%m%d -d "-2 day") 8 lasttime=$(date +%Y%m%d 阅读全文
posted @ 2018-05-15 16:35 TheEarthOnTheFly 阅读(161) 评论(0) 推荐(0) 编辑
摘要: crontab定时任务最小支持到minute, 定时到秒执行的任务, 写起来比较麻烦 * * * * * /bin/sh /home/jiewang/portraitProc/test.sh >> /home/jiewang/portraitProc/test.txt 2>&1 /bin/sh 任何 阅读全文
posted @ 2018-05-15 16:33 TheEarthOnTheFly 阅读(2020) 评论(0) 推荐(0) 编辑
摘要: 权限问题 在shell脚本最前面添加下面内容: #hadoop export PATH=$PATH:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games:/usr/local/games:/home/user/ 阅读全文
posted @ 2018-05-15 16:22 TheEarthOnTheFly 阅读(664) 评论(0) 推荐(0) 编辑
摘要: Windows7下设置定时启动(关闭)虚拟机 阅读全文
posted @ 2018-01-25 23:05 TheEarthOnTheFly 阅读(1621) 评论(1) 推荐(1) 编辑
摘要: 远程操作虚拟机 阅读全文
posted @ 2018-01-25 22:11 TheEarthOnTheFly 阅读(964) 评论(1) 推荐(1) 编辑