o_0的园子 - 博客园

2019年1月22日

摘要：在完成单点的Flume NG搭建后，下面我们搭建一个高可用的Flume NG集群，架构图如下所示：（1）节点分配 Flume的Agent和Collector分布如下表所示：名称 Ip地址 Host 角色 Agent1 192.168.200.101 Itcast01 WebServer Coll 阅读全文

posted @ 2019-01-22 22:38 o_0的园子阅读(475) 评论(0) 推荐(0)

大数据学习——实现多agent的串联，收集数据到HDFS中

摘要：采集需求：比如业务系统使用log4j生成的日志，日志内容不断增加，需要把追加到日志文件中的数据实时采集到hdfs,使用agent串联根据需求，首先定义以下3大要素第一台flume agent l 采集源，即source——监控文件内容更新 : exec ‘tail -F file’ l 下沉目标阅读全文

posted @ 2019-01-22 22:23 o_0的园子阅读(617) 评论(0) 推荐(0)

大数据学习——flume拦截器

摘要： flume 拦截器(interceptor)1、flume拦截器介绍拦截器是简单的插件式组件，设置在source和channel之间。source接收到的事件event，在写入channel之前，拦截器都可以进行转换或者删除这些事件。每个拦截器只处理同一个source接收到的事件。可以自定义拦截器。阅读全文

posted @ 2019-01-22 21:13 o_0的园子阅读(3740) 评论(0) 推荐(0)

Notepad++ 连接远程 FTP

摘要： https://www.cnblogs.com/fangwu/p/8157590.html 阅读全文

posted @ 2019-01-22 20:50 o_0的园子阅读(207) 评论(0) 推荐(0)

大数据学习——采集文件到HDFS

摘要：采集需求：比如业务系统使用log4j生成的日志，日志内容不断增加，需要把追加到日志文件中的数据实时采集到hdfs 根据需求，首先定义以下3大要素 l 采集源，即source——监控文件内容更新 : exec ‘tail -F file’ l 下沉目标，即sink——HDFS文件系统 : hdfs s 阅读全文

posted @ 2019-01-22 20:44 o_0的园子阅读(1117) 评论(0) 推荐(0)

2019年1月21日

大数据学习——采集目录到HDFS

摘要：采集需求：某服务器的某特定目录下，会不断产生新的文件，每当有新文件出现，就需要把文件采集到HDFS中去根据需求，首先定义以下3大要素 l 采集源，即source——监控文件目录 : spooldir l 下沉目标，即sink——HDFS文件系统 : hdfs sink l source和sink之阅读全文

posted @ 2019-01-21 21:25 o_0的园子阅读(593) 评论(0) 推荐(0)

2019年1月18日

大数据学习——flume安装部署

摘要： 1.Flume的安装非常简单，只需要解压即可，当然，前提是已有hadoop环境上传安装包到数据源所在节点上然后解压 tar -zxvf apache-flume-1.6.0-bin.tar.gz 2. 测试小案例 1 在 flume的conf文件下建一个文件 vi netcat-logger.c 阅读全文

posted @ 2019-01-18 21:34 o_0的园子阅读(224) 评论(0) 推荐(0)

大数据学习——面试用sql——累计报表

摘要： create table t_access_times(username string,month string,salary int)row format delimited fields terminated by ','; load data local inpath '/root/hived 阅读全文

posted @ 2019-01-18 21:09 o_0的园子阅读(404) 评论(0) 推荐(0)

大数据学习——hive函数

摘要： 1 内置函数 2 自定义函数UDF(user-defined function)和transform 自定义函数类别 UDF 作用于单个数据行，产生一个数据行作为输出。（数学函数，字符串函数） UDAF（用户定义聚集函数）：接收多个输入数据行，并产生一个输出数据行。（count，max） UDTF( 阅读全文

posted @ 2019-01-18 21:05 o_0的园子阅读(296) 评论(0) 推荐(0)

2019年1月17日

大数据学习——hive数据类型

摘要： 1. hive的数据类型Hive的内置数据类型可以分为两大类：(1)、基础数据类型；(2)、复杂数据类型2. hive基本数据类型基础数据类型包括：TINYINT,SMALLINT,INT,BIGINT,BOOLEAN,FLOAT,DOUBLE,STRING,BINARY,TIMESTAMP,DEC 阅读全文

posted @ 2019-01-17 22:14 o_0的园子阅读(6829) 评论(0) 推荐(1)

大数据学习——关于hive中的各种join

摘要： inner join 只打印能匹配上的数据，没有匹配上的不输出 left join right join full outer join left outer join left semi join 相当于 select * from a where a.id exists(select b.id 阅读全文

posted @ 2019-01-17 22:07 o_0的园子阅读(540) 评论(0) 推荐(0)

大数据学习——hive的sql练习

摘要： 1新建一个数据库 2创建一个外部表 3添加数据 vi student.txt 4 查询 5 group by分组 6 cluster by 分区，排序 7 sort by 8 桶表桶表添加数据时不能通过load的形式， #指定开启分桶set hive.enforce.bucketing = tru 阅读全文

posted @ 2019-01-17 18:06 o_0的园子阅读(3209) 评论(0) 推荐(0)

颜色代码

摘要：阅读全文

posted @ 2019-01-17 16:25 o_0的园子阅读(278) 评论(0) 推荐(0)

2019年1月16日

大数据学习——hive显示命令

摘要： 2 DML操作 load overwrite like insert 3 multi insert 多重插入 4 Dynamic partition inserts 动态分区插入 5 自动分区模式 set hive.exec.dynamic.partition.mode=nonstrict; 阅读全文

posted @ 2019-01-16 16:08 o_0的园子阅读(518) 评论(0) 推荐(0)

大数据学习——hive数仓DML和DDL操作

摘要： 1 创建一个分区表 2 添加数据 3 增加一个分区 4添加数据 5 show partitions t_partition001; 6删除分区 alter table t_partition001 drop partition(country="Japan"); 7修改表名 8表增加一列 9 替换表阅读全文

posted @ 2019-01-16 11:42 o_0的园子阅读(664) 评论(0) 推荐(0)

2019年1月15日

大数据学习——hive基本操作

摘要： 1 建表 2 创建一个student.txt 添加数据 3 上传 hdfs dfs -put student.txt /user/hive/warehouse/student 4 select * from student; 5 通常不会通过put方式加载数据，而是通过load的方式添加数据 loa 阅读全文

posted @ 2019-01-15 21:37 o_0的园子阅读(493) 评论(0) 推荐(0)

大数据学习——hive使用

摘要： Hive交互shell bin/hive Hive JDBC服务 hive也可以启动为一个服务器，来对外提供启动方式，（假如是在itcast01上）：启动为前台：bin/hiveserver2 启动为后台：nohup bin/hiveserver2 1>/var/log/hiveserver.l 阅读全文

posted @ 2019-01-15 20:19 o_0的园子阅读(327) 评论(0) 推荐(0)

大数据学习——hive安装部署

摘要： 1上传压缩包 2 解压 tar -zxvf apache-hive-1.2.1-bin.tar.gz -C apps 3 重命名 mv apache-hive-1.2.1-bin hive 4 设置环境变量 vi /etc/profile expert HIVE_HOME=/root/apps/hi 阅读全文

posted @ 2019-01-15 18:01 o_0的园子阅读(296) 评论(0) 推荐(0)

2019年1月9日

大数据学习——日志分析

摘要：数据： login.log visit.log 实现代码： pom.xml 修改pom.xml<mainClass>com.cyf.LoginlogFormatMP</mainClass><mainClass>com.cyf.JoinWithIpMp</mainClass><mainClass>co 阅读全文

posted @ 2019-01-09 22:47 o_0的园子阅读(1910) 评论(0) 推荐(0)

2019年1月4日

大数据学习——mapreduce运营商日志增强

摘要：需求数据 https://pan.baidu.com/s/1gPsQXVYSQEZ2OYek4HxK6A pom.xml 创建文件夹并上传数据 hadoop fs -mkdir -p /json/input hadoop fs -put rating.json /json/input 运行 ha 阅读全文

posted @ 2019-01-04 20:56 o_0的园子阅读(453) 评论(1) 推荐(0)

大数据学习——mapreduce案例join算法

摘要：需求：用mapreduce实现select order.orderid,order.pdtid,pdts.pdt_name,oder.amount from orderjoin pdtson order.pdtid=pdts.pdtid 数据： orders.txt pdts.txt pom.xm 阅读全文

posted @ 2019-01-04 20:55 o_0的园子阅读(374) 评论(0) 推荐(0)

大数据学习——mapreduce学习topN问题

摘要：求每一个订单中成交金额最大的那一笔 top1 数据 pom.xml 创建文件夹 hadoop fs -mkdir -p /top/input 上传数据 hadoop fs -put top.txt /top/input 运行 hadoop jar TopOne.jar cn.itcast.mapre 阅读全文

posted @ 2019-01-04 20:55 o_0的园子阅读(401) 评论(0) 推荐(0)

大数据学习——mapreduce共同好友

摘要：数据 commonfriends.txt pom.xml 运行 hadoop jar CommonFriendsStepOne.jar cn.itcast.mapreduce.index.CommonFriendsStepOne 生成结果修改pom.xml文件打包并上传运行 hadoop ja 阅读全文

posted @ 2019-01-04 20:54 o_0的园子阅读(475) 评论(0) 推荐(0)

大数据学习——mapreduce倒排索引

摘要：数据 1 pom.xml 2 IndexStepOne.java 打包重命名并把该jar上传到hdfs 创建文件夹，并把a.txt b.txt c.txt传到该路径 hadoop fs -mkdir -p /index/input 运行 hadoop jar IndexStepOne.jar cn. 阅读全文

posted @ 2019-01-04 20:53 o_0的园子阅读(359) 评论(0) 推荐(0)

Java中的hashcode方法

摘要： https://www.cnblogs.com/dolphin0520/p/3681042.html 阅读全文

posted @ 2019-01-04 20:39 o_0的园子阅读(242) 评论(0) 推荐(0)

TreeMap 排序

摘要： https://www.cnblogs.com/chenmo-xpw/p/4922641.html 阅读全文

posted @ 2019-01-04 20:11 o_0的园子阅读(138) 评论(0) 推荐(0)

大数据学习——mapreduce汇总手机号上行流量下行流量总流量

摘要：新建一个maven项目项目结构如下 pom.xml FlumSum.java 新建 /flowsum/input hadoop fs -mkdir -p /flowsum/input 把数据放在 /flowsum/input 目录下 hadoop fs -put 3.txt /flowsum/in 阅读全文

posted @ 2019-01-04 15:19 o_0的园子阅读(1401) 评论(1) 推荐(0)

2019年1月3日

大数据学习——mapreduce程序单词统计

摘要：项目结构 pom.xml文件先建两个文件1.txt 2.txt 内容如下 1.txt 2.txt 在hdfs上创建文件夹 hadoop fs -mkdir -p /wordcount/input 把1.txt 2.txt放在/wordcount/input目录下 hadoop fs -put 1. 阅读全文

posted @ 2019-01-03 22:48 o_0的园子阅读(810) 评论(0) 推荐(0)

大数据学习——hadoop的RPC框架

摘要：项目结构服务端代码 test-hadoop-rpc pom.xml 客户端代码 test-hadoop-rpc-client pom.xml 阅读全文

posted @ 2019-01-03 22:47 o_0的园子阅读(433) 评论(0) 推荐(0)

大数据学习——JAVA采集程序

摘要： 1 需求从外部购买数据，数据提供方会实时将数据推送到6台FTP服务器上，我方部署6台接口采集机来对接采集数据，并上传到HDFS中提供商在FTP上生成数据的规则是以小时为单位建立文件夹(2016-03-11-10)，每分钟生成一个文件（00.dat,01.data,02.dat,........）阅读全文

posted @ 2019-01-03 21:35 o_0的园子阅读(839) 评论(0) 推荐(0)

大数据学习——点击流日志每天都10T，在业务应用服务器上，需要准实时上传至（Hadoop HDFS）上

摘要：点击流日志每天都10T，在业务应用服务器上，需要准实时上传至（Hadoop HDFS）上 1需求说明点击流日志每天都10T，在业务应用服务器上，需要准实时上传至（Hadoop HDFS）上 2需求分析一般上传文件都是在凌晨24点操作，由于很多种类的业务数据都要在晚上进行传输，为了减轻服务器的压力阅读全文

posted @ 2019-01-03 21:34 o_0的园子阅读(727) 评论(0) 推荐(0)

大数据学习——有两个海量日志文件存储在hdfs

摘要：有两个海量日志文件存储在hdfs上，其中登陆日志格式：user，ip，time，oper（枚举值：1为上线，2为下线）；访问之日格式为：ip，time，url，假设登陆日志中上下线信息完整，切同一上下线时间段内是用的ip唯一，计算访问日志中独立user数量最多的前10个url，用MapReduce 阅读全文

posted @ 2019-01-03 21:21 o_0的园子阅读(1249) 评论(0) 推荐(0)

大数据学习——hdfs客户端流式操作代码的实现

摘要： package cn.itcast.bigdata.hdfs.diceng; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.*; import org.apache.hadoop.io.IOUtils; import org.junit.Before; import org.junit.Tes... 阅读全文

posted @ 2019-01-03 20:49 o_0的园子阅读(471) 评论(0) 推荐(0)

比较spring cloud和dubbo，各自的优缺点是什么

摘要： dubbo由于是二进制的传输，占用带宽会更少springCloud是http协议传输，带宽会比较多，同时使用http协议一般会使用JSON报文，消耗会更大 dubbo的开发难度较大，原因是dubbo的jar包依赖问题很多大型工程无法解决 springcloud的接口协议约定比较自由且松散，需要有强有阅读全文

posted @ 2019-01-03 20:40 o_0的园子阅读(1043) 评论(0) 推荐(0)

大数据学习——hdfs客户端操作

摘要： package cn.itcast.hdfs; import org.apache.commons.io.IOUtils; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.*; import org.junit.Before; import org.junit.Test; import jav... 阅读全文

posted @ 2019-01-03 20:31 o_0的园子阅读(254) 评论(0) 推荐(0)

大数据学习——下载集群根目录下的文件到E盘

摘要：代码如下：此时会报空指针异常修改后代码如下：注意，出现以上的问题是没有配环境变量造成的 window下开发的说明建议在linux下进行hadoop应用的开发，不会存在兼容性问题。如在window上做客户端应用开发，需要设置以下环境： A、用老师给的windows平台下编译的hadoop安装包阅读全文

posted @ 2019-01-03 19:32 o_0的园子阅读(501) 评论(0) 推荐(0)

大数据学习——上传本地文件到集群根目录下

摘要：此时报错，权限不足：修改后的代码（伪造一个root身份）：或者是运行时加一个参数： VM-arguements： -DHADOOP——USER_NAME=root 阅读全文

posted @ 2019-01-03 19:12 o_0的园子阅读(1416) 评论(0) 推荐(0)

2019年1月2日

大数据学习——java操作hdfs环境搭建以及环境测试

摘要： 1 新建一个maven项目打印根目录下的文件的名字添加pom依赖 pom.xml 2 测试运行结果如下图阅读全文

posted @ 2019-01-02 23:42 o_0的园子阅读(639) 评论(0) 推荐(0)

大数据学习——hadoop2.x集群搭建

摘要： 1.准备Linux环境 1.0先将虚拟机的网络模式选为NAT 1.1修改主机名 vi /etc/sysconfig/network NETWORKING=yes HOSTNAME=itcast ### 1.2修改IP 两种方式：第一种：通过Linu... 阅读全文

posted @ 2019-01-02 22:24 o_0的园子阅读(176) 评论(0) 推荐(0)

大数据学习——数据流程图

摘要： 1) 数据采集：定制开发采集程序，或使用开源框架FLUME 2) 数据预处理：定制开发mapreduce程序运行于hadoop集群 3) 数据仓库技术：基于hadoop之上的Hive 4) 数据导出：基于hadoop的sqoop数据导入导出工具 5) 数据可视化：定制开发web程序或使用kettle 阅读全文

posted @ 2019-01-02 22:14 o_0的园子阅读(1559) 评论(0) 推荐(0)