04 2020 档案

Spark应用的结构的学习
摘要:关注公众号:分享电脑学习回复"百度云盘" 可以免费获取所有学习文档的代码(不定期更新) 承接上一篇文档《Standalone集群搭建和Spark应用监控》 需要了解的概念 一、Spark应用的结构(Driver + Executors) (一)、Driver:相当于MapReduce中Applica 阅读全文

posted @ 2020-04-28 23:10 那山的狐狸 阅读(179) 评论(0) 推荐(0) 编辑

编写程序向HBase添加日志信息
摘要:关注公众号:分享电脑学习回复"百度云盘" 可以免费获取所有学习文档的代码(不定期更新) 承接上一篇文档《日志信息和浏览器信息获取及数据过滤》 上一个文档最好做个本地测试 将map方法改为public,做一个测试看是否有错误代码,代码和之前的MainProcess基本一样 之前完成了数据的过滤、补全, 阅读全文

posted @ 2020-04-19 23:09 那山的狐狸 阅读(353) 评论(0) 推荐(0) 编辑

Nginx日志通过Flume导入到HDFS中
摘要:关注公众号:分享电脑学习回复"百度云盘" 可以免费获取所有学习文档的代码(不定期更新) flume上传到hdfs: 当我们的数据量比较大时,比如每天的日志文件达到5G以上 使用hadoop的put命令不稳定 后期考虑引入新的日志上传框架flume source类: exec 监控文件:tail -f 阅读全文

posted @ 2020-04-19 22:53 那山的狐狸 阅读(403) 评论(0) 推荐(0) 编辑

日志通过脚本导入到HDFS当中
摘要:可以关注公众号:分享电脑学习回复"百度云盘" 可以免费获取所有学习文档的代码(不定期更新) 利用shell脚本定时备份日志数据到HDFS上(适合日志数据比较少的时候) 时间命令 date +"%Y%m%d" 今天的日期 date -d "1 day ago" +"%Y%m%d" 昨天的日期 date 阅读全文

posted @ 2020-04-19 22:32 那山的狐狸 阅读(373) 评论(0) 推荐(0) 编辑

Standalone集群搭建和Spark应用监控
摘要:注:图片如果损坏,点击文章链接:https://www.toutiao.com/i6815920501530034696/ 承接上一篇文档《Spark词频前十的统计练习》 Spark on standalone 类似于yarn的一个集群资源管理框架,spark自带的 yarn ResourceMan 阅读全文

posted @ 2020-04-15 21:07 那山的狐狸 阅读(217) 评论(0) 推荐(0) 编辑

日志信息和浏览器信息获取及数据过滤
摘要:注:图片如果损坏,点击文章链接:https://www.toutiao.com/i6815135249589076493/ 承接上一个课件《分析Nginx日志获取IP地址的省份信息》 现在希望是获取浏览器和操作系统相关数据 准备一个工具类UserAgentUtil 编写代码 解析浏览器的userag 阅读全文

posted @ 2020-04-14 10:50 那山的狐狸 阅读(343) 评论(0) 推荐(0) 编辑

Spark词频前十的统计练习
摘要:注:图片如果损坏,点击文章链接:https://www.toutiao.com/i6815390070254600712/ 承接上一个文档《Spark本地环境实现wordCount单词计数》 进一步延伸,做一个词频前十的统计练习 逻辑:在reduceByKey的基础上,首先要根据key对应的valu 阅读全文

posted @ 2020-04-14 10:47 那山的狐狸 阅读(353) 评论(0) 推荐(0) 编辑

Spark-local本地环境搭建
摘要:注:图片如果损坏,点击文章链接:https://www.toutiao.com/i6815385772254822919/ 承接上一个文档《Spark源码编译》 解压spark编译好的压缩包 sudo tar -zxvf spark-2.0.2-bin-2.7.3.tgz -C /opt/bigda 阅读全文

posted @ 2020-04-14 10:41 那山的狐狸 阅读(713) 评论(0) 推荐(0) 编辑

js页面触发chargeRequest事件和Nginx获取日志信息
摘要:注:图片如果损坏,点击文章链接:https://www.toutiao.com/i6814836302966424072/ 承接上一篇文档《js页面触发pageView和event事件编写》 chargeRequest事件 该事件的主要作用是记录用户产生订单的行为/数据 思路图 Keys添加信息 服 阅读全文

posted @ 2020-04-12 23:39 那山的狐狸 阅读(184) 评论(0) 推荐(0) 编辑

通过js触发onPageView和event事件获取页面信息
摘要:注:图片如果损坏,点击文章链接:https://www.toutiao.com/i6814814715022148100/ 承接上一篇文档《js页面触发launch事件编写》 pageView事件是pc端的基本事件类型,主要是描述用户访问网站信息 思路图 首先keys中添加事件标识 然后发送到服务器 阅读全文

posted @ 2020-04-12 23:34 那山的狐狸 阅读(439) 评论(0) 推荐(0) 编辑

通过js触发launch事件获取页面信息
摘要:注:图片如果损坏,点击文章链接:https://www.toutiao.com/i6814776265602499080/ 承接上一篇文档《页面Cookie的JS文件编写》 思路 继续之前的js编写 在keys中添加launch事件标识 再添加一个会员编号的参数 加入get/set方法 准备发送到服 阅读全文

posted @ 2020-04-12 23:29 那山的狐狸 阅读(619) 评论(0) 推荐(0) 编辑

利用js模拟用户的cookie信息保存
摘要:注:图片如果损坏,点击文章链接:https://www.toutiao.com/i6814761849708347907/ 默认已完成爬虫文档《爬虫学习文档顺序》 并简单搭建完展示页面和管理后台的练习部分 例如 管理后台: 展示页面: 接下来完成Cookie的实现 思路如下图: 创建一个js文件和i 阅读全文

posted @ 2020-04-12 23:23 那山的狐狸 阅读(539) 评论(0) 推荐(0) 编辑

Spark本地环境实现wordCount单词计数
摘要:注:图片如果损坏,点击文章链接:https://www.toutiao.com/i6814778610788860424/ 编写类似MapReduce的案例-单词统计WordCount 要统计的文件为Spark的README.md文件 分析逻辑: 1. 读取文件,单词之间用空格分割 2. 将文件里单 阅读全文

posted @ 2020-04-12 23:11 那山的狐狸 阅读(378) 评论(0) 推荐(0) 编辑

Spark-2.0.2源码编译
摘要:注:图片如果损坏,点击文章链接:https://www.toutiao.com/i6813925210731840013/ Spark官网下载地址: http://spark.apache.org/downloads.html 有两种一种是编译好的 一种是没编译的(需要自己编译) 看自己的选择 下载 阅读全文

posted @ 2020-04-10 12:25 那山的狐狸 阅读(178) 评论(0) 推荐(0) 编辑

java邮件打包在linux备份数据库练习
摘要:注:图片如果损坏,点击文章链接:https://www.toutiao.com/i6812982512256549387/ 承接上一篇文档《Java实现163邮箱发送邮件到QQ邮箱》 主方法修改获取数据的方式 打包 可以看到打包的位置 选择jar 上传到linux执行 执行语句 java -jar 阅读全文

posted @ 2020-04-07 22:58 那山的狐狸 阅读(192) 评论(0) 推荐(0) 编辑

Java实现163邮箱发送邮件到QQ邮箱
摘要:注:图片如果损坏,点击文章链接:https://www.toutiao.com/i6812973124141711876/ 先创建一个maven的普通项目 添加依赖,附在文档末尾 其中几个注意的地方 主方法入口 有一个包下载不下来,手动导入下 准备一个配置文件和主方法类 针对配置文件编写一个类用来接 阅读全文

posted @ 2020-04-07 22:41 那山的狐狸 阅读(1067) 评论(0) 推荐(0) 编辑

编写Hive的UDF(查询平台数据同时向mysql添加数据)
摘要:注:图片如果损坏,点击文章链接:https://www.toutiao.com/i6812629187518530052/ 可能会有一些截图中会有错误提示,是因为本地的包一直包下载有问题,截完图已经下载好了。 创建包结构 创建一个基础信息类 所有输出到mysql数据库中的自定义MR任务的自定义key 阅读全文

posted @ 2020-04-07 00:15 那山的狐狸 阅读(415) 评论(0) 推荐(0) 编辑

本地Java大数据环境基础配置(Maven)
摘要:注:图片如果损坏,点击文章链接:https://www.toutiao.com/i6812623309138559500/ 创建项目 准备pom.xml文件配置(附在文档最后) 在下载jar过程中极其缓慢,简直不能忍受,查阅了下资料,得到下面的办法: 1、 maven仓库中没有支持cdh的相关依赖。 阅读全文

posted @ 2020-04-07 00:06 那山的狐狸 阅读(404) 评论(0) 推荐(0) 编辑

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

导航

统计

点击右上角即可分享
微信分享提示