willian
18702515157@163.com
摘要: 1: spark使用python3 pip3 install py4j (服务器和本机都要安装) 服务器提交python3脚本 本机调试python脚本 Environment variables,点击后面的编辑框,在变量栏目中依次添加PYTHONPATH,值为spark目录/python,SPAR 阅读全文
posted @ 2017-03-11 09:10 willian_zhang 阅读(248) 评论(0) 推荐(0) 编辑
摘要: wget https://pkg.jenkins.io/redhat-stable/jenkins-2.73.3-1.1.noarch.rpmrpm -ivh jenkins-2.73.3-1.1.noarch.rpmservice jenkins startwget http://mirrors.cnnic.cn/apache/maven/maven-3/3.3.9/binaries/... 阅读全文
posted @ 2017-11-28 18:39 willian_zhang 阅读(170) 评论(0) 推荐(0) 编辑
摘要: 1:beetlsql插入默认值时,处理 阅读全文
posted @ 2017-11-28 15:28 willian_zhang 阅读(629) 评论(0) 推荐(0) 编辑
摘要: 首页 - 列表页 - 商品页 (300万访问量 - 100万访问量 - 50万访问量 ) 网站平台传入taskid和mysql查询出来的任务参数(日期和页面跳转流) 页面跳转流解释:网站平台传入3,5,7,9(页面id) ,spark计算的就是 3 - 5 的转化率 5 - 7的转化率 执行流程: 阅读全文
posted @ 2017-04-18 21:45 willian_zhang 阅读(1272) 评论(0) 推荐(0) 编辑
摘要: 分配更多的资源 阅读全文
posted @ 2017-04-18 21:19 willian_zhang 阅读(174) 评论(0) 推荐(0) 编辑
摘要: spark2.1 自定义累加器的使用 继承AccumulatorV2类,并复写它的所有方法 package spark import constant.Constant import org.apache.spark.util.AccumulatorV2 import util.getFieldFr 阅读全文
posted @ 2017-04-09 15:00 willian_zhang 阅读(2127) 评论(0) 推荐(0) 编辑
摘要: 基础数据结构 user_visit_action 点击流数据 (hive表) date //日期:代表用户点击行为是在哪一天发生 采用时间戳好比较 user_id //代表这个点击行为是哪一个用户执行的 session_id //唯一标识了某个用户的一个访问session page_id //页面的 阅读全文
posted @ 2017-04-02 20:47 willian_zhang 阅读(2089) 评论(0) 推荐(0) 编辑
摘要: flume日志采集框架使用 本次学习使用的全部过程均不在集群上,均在本机环境,供学习参考 先决条件: flume-ng-1.6.0-cdh5.8.3.tar 去cloudrea下载flume框架,笔者是用cdh5.8.3的套餐 flume-ng-1.6.0-cdh5.8.3.tar 去cloudre 阅读全文
posted @ 2017-04-02 13:46 willian_zhang 阅读(1083) 评论(0) 推荐(0) 编辑
摘要: grep 'temporary password' /var/log/mysqld.log 这个会得到一个初始密码 然后执行 mysql_secure_installation utf8编码 修改/etc/my.cnf配置文件,在[mysqld]下添加编码配置,如下所示: 重新启动mysql服务,查 阅读全文
posted @ 2017-04-01 08:28 willian_zhang 阅读(813) 评论(0) 推荐(1) 编辑
摘要: hive的详细使用 FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:For direct MetaStore DB connection 阅读全文
posted @ 2017-03-31 18:25 willian_zhang 阅读(204) 评论(0) 推荐(0) 编辑
摘要: 环境准备 安装java 三台服务器(由于我是学习环境,所以三台服务器不属于同一内网),配置如下: 公网ip 119.29.186.83 内网ip 10.104.157.113 公网ip 119.29.250.47 内网ip 10.104.9.181 公网ip 119.29.251.99 内网ip 1 阅读全文
posted @ 2017-03-30 18:05 willian_zhang 阅读(1618) 评论(0) 推荐(0) 编辑