摘要:关注公众号:分享电脑学习回复"百度云盘" 可以免费获取所有学习文档的代码(不定期更新) 承接上一篇文档《Standalone集群搭建和Spark应用监控》 需要了解的概念 一、Spark应用的结构(Driver + Executors) (一)、Driver:相当于MapReduce中Applica
阅读全文
摘要:关注公众号:分享电脑学习回复"百度云盘" 可以免费获取所有学习文档的代码(不定期更新) 承接上一篇文档《日志信息和浏览器信息获取及数据过滤》 上一个文档最好做个本地测试 将map方法改为public,做一个测试看是否有错误代码,代码和之前的MainProcess基本一样 之前完成了数据的过滤、补全,
阅读全文
摘要:关注公众号:分享电脑学习回复"百度云盘" 可以免费获取所有学习文档的代码(不定期更新) flume上传到hdfs: 当我们的数据量比较大时,比如每天的日志文件达到5G以上 使用hadoop的put命令不稳定 后期考虑引入新的日志上传框架flume source类: exec 监控文件:tail -f
阅读全文
摘要:可以关注公众号:分享电脑学习回复"百度云盘" 可以免费获取所有学习文档的代码(不定期更新) 利用shell脚本定时备份日志数据到HDFS上(适合日志数据比较少的时候) 时间命令 date +"%Y%m%d" 今天的日期 date -d "1 day ago" +"%Y%m%d" 昨天的日期 date
阅读全文
摘要:注:图片如果损坏,点击文章链接:https://www.toutiao.com/i6815920501530034696/ 承接上一篇文档《Spark词频前十的统计练习》 Spark on standalone 类似于yarn的一个集群资源管理框架,spark自带的 yarn ResourceMan
阅读全文
摘要:注:图片如果损坏,点击文章链接:https://www.toutiao.com/i6815135249589076493/ 承接上一个课件《分析Nginx日志获取IP地址的省份信息》 现在希望是获取浏览器和操作系统相关数据 准备一个工具类UserAgentUtil 编写代码 解析浏览器的userag
阅读全文
摘要:注:图片如果损坏,点击文章链接:https://www.toutiao.com/i6815390070254600712/ 承接上一个文档《Spark本地环境实现wordCount单词计数》 进一步延伸,做一个词频前十的统计练习 逻辑:在reduceByKey的基础上,首先要根据key对应的valu
阅读全文
摘要:注:图片如果损坏,点击文章链接:https://www.toutiao.com/i6815385772254822919/ 承接上一个文档《Spark源码编译》 解压spark编译好的压缩包 sudo tar -zxvf spark-2.0.2-bin-2.7.3.tgz -C /opt/bigda
阅读全文
摘要:注:图片如果损坏,点击文章链接:https://www.toutiao.com/i6814836302966424072/ 承接上一篇文档《js页面触发pageView和event事件编写》 chargeRequest事件 该事件的主要作用是记录用户产生订单的行为/数据 思路图 Keys添加信息 服
阅读全文
摘要:注:图片如果损坏,点击文章链接:https://www.toutiao.com/i6814814715022148100/ 承接上一篇文档《js页面触发launch事件编写》 pageView事件是pc端的基本事件类型,主要是描述用户访问网站信息 思路图 首先keys中添加事件标识 然后发送到服务器
阅读全文
摘要:注:图片如果损坏,点击文章链接:https://www.toutiao.com/i6814776265602499080/ 承接上一篇文档《页面Cookie的JS文件编写》 思路 继续之前的js编写 在keys中添加launch事件标识 再添加一个会员编号的参数 加入get/set方法 准备发送到服
阅读全文
摘要:注:图片如果损坏,点击文章链接:https://www.toutiao.com/i6814761849708347907/ 默认已完成爬虫文档《爬虫学习文档顺序》 并简单搭建完展示页面和管理后台的练习部分 例如 管理后台: 展示页面: 接下来完成Cookie的实现 思路如下图: 创建一个js文件和i
阅读全文
摘要:注:图片如果损坏,点击文章链接:https://www.toutiao.com/i6814778610788860424/ 编写类似MapReduce的案例-单词统计WordCount 要统计的文件为Spark的README.md文件 分析逻辑: 1. 读取文件,单词之间用空格分割 2. 将文件里单
阅读全文
摘要:注:图片如果损坏,点击文章链接:https://www.toutiao.com/i6813925210731840013/ Spark官网下载地址: http://spark.apache.org/downloads.html 有两种一种是编译好的 一种是没编译的(需要自己编译) 看自己的选择 下载
阅读全文
摘要:注:图片如果损坏,点击文章链接:https://www.toutiao.com/i6812982512256549387/ 承接上一篇文档《Java实现163邮箱发送邮件到QQ邮箱》 主方法修改获取数据的方式 打包 可以看到打包的位置 选择jar 上传到linux执行 执行语句 java -jar
阅读全文
摘要:注:图片如果损坏,点击文章链接:https://www.toutiao.com/i6812973124141711876/ 先创建一个maven的普通项目 添加依赖,附在文档末尾 其中几个注意的地方 主方法入口 有一个包下载不下来,手动导入下 准备一个配置文件和主方法类 针对配置文件编写一个类用来接
阅读全文
摘要:注:图片如果损坏,点击文章链接:https://www.toutiao.com/i6812629187518530052/ 可能会有一些截图中会有错误提示,是因为本地的包一直包下载有问题,截完图已经下载好了。 创建包结构 创建一个基础信息类 所有输出到mysql数据库中的自定义MR任务的自定义key
阅读全文
摘要:注:图片如果损坏,点击文章链接:https://www.toutiao.com/i6812623309138559500/ 创建项目 准备pom.xml文件配置(附在文档最后) 在下载jar过程中极其缓慢,简直不能忍受,查阅了下资料,得到下面的办法: 1、 maven仓库中没有支持cdh的相关依赖。
阅读全文