摘要: 别废话,看代码实例! 阅读全文
posted @ 2018-09-06 16:20 leeyuki 阅读(339) 评论(0) 推荐(0) 编辑
摘要: Hadoop-MR实现日志清洗(四)6.单机部署Hadoop(伪分布式)在我们自己购买的阿里云Linux主机上部署单机hadoop,测试我们的mapreduce程序。也可以在windows上安装虚拟机部署。6.1配置Java环境下载jdk-8u171-linux-x64.tar.gz后上传到主机,解压缩:tar zxf jdk-8u171-linux-x64.tar.gz得到文件夹:jdk1.8.... 阅读全文
posted @ 2018-09-04 14:37 leeyuki 阅读(831) 评论(0) 推荐(0) 编辑
摘要: Hadoop-MR实现日志清洗(三)5.论坛请求日志清洗解析请求日志的清洗主要是指过滤掉跟后续统计无关的数据,包括爬虫数据、静态资源数据、无用数据列等。根据需要,清洗过程中也可以对部门数据域进行数据转换,比如日期,以便简化后续的数据加工/统计分析。对日志的清洗逻辑上也是分为编写map、reduce、run(main)函数,在对输入数据处理时,日志的提取过滤较为复杂,通常是将文件处理的方法单独编写作... 阅读全文
posted @ 2018-09-04 14:28 leeyuki 阅读(766) 评论(0) 推荐(0) 编辑
摘要: (接上:Hadoop-MR实现日志清洗(一))4.groupbycount测试编写Hadoop-MR的groupbycount程序测试Hadoop运行环境,同时也是对mapreduce程序的一次复习。为了不影响logparser项目结构,单独创建了groupbycount项目,配置与logparser一致。初始结构:4.1源文件准备源文件取自工作中部分数据集。下载地址:2018-08-29-15-... 阅读全文
posted @ 2018-08-30 16:40 leeyuki 阅读(714) 评论(0) 推荐(0) 编辑
摘要: 1.日志内容样式 目前所接触到的日志一种是网页请求日志,一种是埋点日志,一种后端系统日志。 1.1请求日志 请求日志是用户访问网站时,打开网址或点击网站上了项目元素时,向服务器发送或提交的资源请求。 (论坛日志) 27.38.53.84 - - [30/May/2013:23:37:57 +0800 阅读全文
posted @ 2018-08-30 16:09 leeyuki 阅读(3107) 评论(0) 推荐(0) 编辑
摘要: ABT日志入库记录1.确认文件内容格式文件内容有两种记录格式格式一:(分流结果)2018-07-03 06:50:00,142 [XNIO-2 task-28] INFO com.leeyk99.bi.abt.rest.CoreApiController - 1A42F7C6_B904_A334_AB87_5A69A7034DA0 PcRealClass 66 158数据结构:数据之间空格分隔... 阅读全文
posted @ 2018-08-28 16:00 leeyuki 阅读(483) 评论(0) 推荐(0) 编辑
摘要: 1.程序初始化此常规Java项目,不是Maven项目,也不是Java Enterprise项目。打开 File->New->Project菜单,选择Java即可,逐步点击Next,在目录D:\Java\hadoop\mr下创建一个项目名称。这里我们创建的项目叫groupbysum,表示groupbysum MapReduce小项目。以后各种功能的mapreduce程序均已小项目形式放在mr目录下。... 阅读全文
posted @ 2018-08-22 10:53 leeyuki 阅读(10394) 评论(2) 推荐(0) 编辑
摘要: 计划撰写内容:1.平台使用的技术体系及其组成的架构;2.平台的数据体系(架构);3.主要技术的介绍 1.集群概述Hadoop集群在于其生态组件的丰富性,目前,我们平台已经部署包含采集、存储、计算、资源管理相关的hadoop、hdfs、hive、hbase、yarn、zookeeper、sqoop、flume、storm、spark、kafka等组件。其中hadoop、hdfs、hive、sqoop... 阅读全文
posted @ 2018-01-30 16:48 leeyuki 阅读(5569) 评论(0) 推荐(0) 编辑
摘要: 所谓建设背景,就是要弄明白我们为什么要建设这个统一数据平台。1. 简介 统一数据平台,我给它起了个英文全称叫 Unified Data Platform,简称 UDP。 采用Hadoop生态软件(如:HDFS、HBase、Hive、Kafka、Spark stream等)、传统关系型数据库、MPP数据库相结合的大数据混搭技术架构,采集加工传统的结构化经营数据、半结构... 阅读全文
posted @ 2018-01-24 08:47 leeyuki 阅读(5762) 评论(0) 推荐(1) 编辑
摘要: 查询了网上datanode的监控,都是比较复杂的,涉及底层源码,需要编写JAVA取获取状态的,我也不会。我的要求很简单,即jps查一下,如果可以看到datanode、nodemanger进程,则认为节点正常。#!/bin/bash#####################################################################################... 阅读全文
posted @ 2018-01-02 14:52 leeyuki 阅读(898) 评论(0) 推荐(0) 编辑