随笔分类 -  大数据实训_1----电商网站日志用户行为分析平台

摘要:zookeeper文件系统组成 zookeeper本质上是文件系统+通知机制组成的 zookeeper文件系统说明 树形的文件系统,在树形文件系统当中,每一个节点就是存储数据的位置,节点同时兼顾了文件和文件夹的功能。 每个节点默认只能存储1MB的数据 虽然说zookeeper中自带了一个文件系统,但 阅读全文
posted @ 2022-09-02 15:30 jsqup 阅读(31) 评论(0) 推荐(0) 编辑
摘要:1. project.flow nodes: - name: dataClean type: command config: command: sh /opt/project/dataClean/dataClean.sh - name: dataAnaly type: command depends 阅读全文
posted @ 2022-08-20 13:47 jsqup 阅读(51) 评论(0) 推荐(0) 编辑
摘要:编写脚本文件 压缩成zip包,上传至azkaban 阅读全文
posted @ 2022-08-12 18:44 jsqup 阅读(15) 评论(0) 推荐(0) 编辑
摘要:下载azkaban后,得通过自己编译得到jar包 注意:编译需要很长时间,这儿直接获取了 在mysql中执行SQL文件 1、把hive的lib目录下的derby驱动jar包拷贝到web-server,exec-server的lib目录 [root@node1 web-server]# cp /opt 阅读全文
posted @ 2022-08-12 16:03 jsqup 阅读(119) 评论(0) 推荐(0) 编辑
摘要:搜索要找到的内容 输入网址进行搜索 采集完成 点击生成采集设置 采集到本地 进行采集数据 导出数据 导出数据到csc文件 导出数据到mysql中 1. 删除一些字段 2. 删除后的字段 3. 在MySQL中创建表 4. 重新采集数据 5. 采集到数据库中 6. 选择数据库连接信息 7. 配置字段映射 阅读全文
posted @ 2022-08-11 14:09 jsqup 阅读(471) 评论(0) 推荐(0) 编辑
摘要:1. 创建空的maven项目 2. 添加web项目 添加web项目后的结构 3. 配置tomcat 4. 导入jar包来运行servlet 5. pom.xml文件编写 <dependencies> <dependency> <groupId>mysql</groupId> <artifactId> 阅读全文
posted @ 2022-08-11 13:09 jsqup 阅读(67) 评论(0) 推荐(0) 编辑
摘要:创建web项目 显示效果图代码 效果图 步骤 <!DOCTYPE html> <html lang="en"> <!-- head标签有两个作用 1、引入界面需要的插件 js插件 2、设置界面内容的样式css以及页面的标题 --> <head> <meta charset="UTF-8"> <tit 阅读全文
posted @ 2022-08-11 09:20 jsqup 阅读(19) 评论(0) 推荐(0) 编辑
摘要:第一次导入数据 [root@node1 dataExport]# cat export.sh #!/bin/bash echo " 导出age_pvs表数据(覆盖写)程序启动 " sqoop export --connect "jdbc:mysql://node1:3306/project?serv 阅读全文
posted @ 2022-08-11 08:13 jsqup 阅读(17) 评论(0) 推荐(0) 编辑
摘要:数据导出,先创建表 create database project charset "utf8"; use project; create table month_pvs( visit_year varchar(20), visit_month varchar(20), pvs int ); cre 阅读全文
posted @ 2022-08-10 13:58 jsqup 阅读(25) 评论(0) 推荐(0) 编辑
摘要:数据分析指标 1. 基于时间维度(①每月用户的访问指标 ②每天用户的访问指标 ③每小时用户的访问指标) 重写数据 2. 基于用户维度(不同年龄段用户的访问量指标) 重写数据 3. 基于地理维度(每个分区下不同省份用户的访问指标) 追加数据 创建时间维度表及导入数据 /* * 统计分析 */ -- 1 阅读全文
posted @ 2022-08-10 13:53 jsqup 阅读(122) 评论(0) 推荐(0) 编辑
摘要:明细宽表的构建及数据加载 -- 明细宽表 相当于在贴源数据表的基础之上,增加了9个字段,时间字段增加6个,请求字段增加了3个 create external table if not exists web_detail( ipaddr string comment "ip address", vis 阅读全文
posted @ 2022-08-09 23:39 jsqup 阅读(85) 评论(0) 推荐(0) 编辑
摘要:动态分区问题的解决 在dataClean.sh中清洗数据前,创建一个动态时间变量 timeStr=`date -d "yesterday" "+%Y%m%d"` 在dataAnaly.sh中执行 yesterday=`date -d "yesterday" "+%Y%d%m"` hive --hiv 阅读全文
posted @ 2022-08-09 16:42 jsqup 阅读(49) 评论(0) 推荐(0) 编辑
摘要:说明 通过编写mapreduce,来清洗数据 清洗的原始数据格式: 180.153.11.130 - - 2018-03-18 11:42:44 "POST https://www.taobao.com/category/d HTTP/1.1" 200 12901 https://www.taoba 阅读全文
posted @ 2022-08-09 12:18 jsqup 阅读(47) 评论(0) 推荐(0) 编辑
摘要:说明 用户点击页面后数据存储到a.log文件中。(本项目省去了这一步,数据已经在a.log中了) 使用java代码将a.log文件中的数据,写入project.log中。 使用flume采集日志,监控project.log文件内容的变化,将新增的用户的数据写出到hdfs上。 a.log中的现成数据 阅读全文
posted @ 2022-08-08 23:29 jsqup 阅读(53) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示