上一页 1 2 3 4 5 6 7 8 ··· 13 下一页
  2019年1月22日
摘要: 在完成单点的Flume NG搭建后,下面我们搭建一个高可用的Flume NG集群,架构图如下所示: (1)节点分配 Flume的Agent和Collector分布如下表所示: 名称 Ip地址 Host 角色 Agent1 192.168.200.101 Itcast01 WebServer Coll 阅读全文
posted @ 2019-01-22 22:38 o_0的园子 阅读(444) 评论(0) 推荐(0) 编辑
摘要: 采集需求:比如业务系统使用log4j生成的日志,日志内容不断增加,需要把追加到日志文件中的数据实时采集到hdfs,使用agent串联 根据需求,首先定义以下3大要素 第一台flume agent l 采集源,即source——监控文件内容更新 : exec ‘tail -F file’ l 下沉目标 阅读全文
posted @ 2019-01-22 22:23 o_0的园子 阅读(579) 评论(0) 推荐(0) 编辑
摘要: flume 拦截器(interceptor)1、flume拦截器介绍拦截器是简单的插件式组件,设置在source和channel之间。source接收到的事件event,在写入channel之前,拦截器都可以进行转换或者删除这些事件。每个拦截器只处理同一个source接收到的事件。可以自定义拦截器。 阅读全文
posted @ 2019-01-22 21:13 o_0的园子 阅读(3671) 评论(0) 推荐(0) 编辑
摘要: https://www.cnblogs.com/fangwu/p/8157590.html 阅读全文
posted @ 2019-01-22 20:50 o_0的园子 阅读(200) 评论(0) 推荐(0) 编辑
摘要: 采集需求:比如业务系统使用log4j生成的日志,日志内容不断增加,需要把追加到日志文件中的数据实时采集到hdfs 根据需求,首先定义以下3大要素 l 采集源,即source——监控文件内容更新 : exec ‘tail -F file’ l 下沉目标,即sink——HDFS文件系统 : hdfs s 阅读全文
posted @ 2019-01-22 20:44 o_0的园子 阅读(1100) 评论(0) 推荐(0) 编辑
  2019年1月21日
摘要: 采集需求:某服务器的某特定目录下,会不断产生新的文件,每当有新文件出现,就需要把文件采集到HDFS中去 根据需求,首先定义以下3大要素 l 采集源,即source——监控文件目录 : spooldir l 下沉目标,即sink——HDFS文件系统 : hdfs sink l source和sink之 阅读全文
posted @ 2019-01-21 21:25 o_0的园子 阅读(559) 评论(0) 推荐(0) 编辑
  2019年1月18日
摘要: 1.Flume的安装非常简单,只需要解压即可,当然,前提是已有hadoop环境 上传安装包到数据源所在节点上 然后解压 tar -zxvf apache-flume-1.6.0-bin.tar.gz 2. 测试小案例 1 在 flume的conf文件下建一个文件 vi netcat-logger.c 阅读全文
posted @ 2019-01-18 21:34 o_0的园子 阅读(207) 评论(0) 推荐(0) 编辑
摘要: create table t_access_times(username string,month string,salary int)row format delimited fields terminated by ','; load data local inpath '/root/hived 阅读全文
posted @ 2019-01-18 21:09 o_0的园子 阅读(395) 评论(0) 推荐(0) 编辑
摘要: 1 内置函数 2 自定义函数UDF(user-defined function)和transform 自定义函数类别 UDF 作用于单个数据行,产生一个数据行作为输出。(数学函数,字符串函数) UDAF(用户定义聚集函数):接收多个输入数据行,并产生一个输出数据行。(count,max) UDTF( 阅读全文
posted @ 2019-01-18 21:05 o_0的园子 阅读(282) 评论(0) 推荐(0) 编辑
  2019年1月17日
摘要: 1. hive的数据类型Hive的内置数据类型可以分为两大类:(1)、基础数据类型;(2)、复杂数据类型2. hive基本数据类型基础数据类型包括:TINYINT,SMALLINT,INT,BIGINT,BOOLEAN,FLOAT,DOUBLE,STRING,BINARY,TIMESTAMP,DEC 阅读全文
posted @ 2019-01-17 22:14 o_0的园子 阅读(6384) 评论(0) 推荐(1) 编辑
摘要: inner join 只打印能匹配上的数据,没有匹配上的不输出 left join right join full outer join left outer join left semi join 相当于 select * from a where a.id exists(select b.id 阅读全文
posted @ 2019-01-17 22:07 o_0的园子 阅读(528) 评论(0) 推荐(0) 编辑
摘要: 1新建一个数据库 2创建一个外部表 3添加数据 vi student.txt 4 查询 5 group by分组 6 cluster by 分区,排序 7 sort by 8 桶表 桶表添加数据时不能通过load的形式, #指定开启分桶set hive.enforce.bucketing = tru 阅读全文
posted @ 2019-01-17 18:06 o_0的园子 阅读(3168) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2019-01-17 16:25 o_0的园子 阅读(253) 评论(0) 推荐(0) 编辑
  2019年1月16日
摘要: 2 DML操作 load overwrite like insert 3 multi insert 多重插入 4 Dynamic partition inserts 动态分区插入 5 自动分区模式 set hive.exec.dynamic.partition.mode=nonstrict; 阅读全文
posted @ 2019-01-16 16:08 o_0的园子 阅读(476) 评论(0) 推荐(0) 编辑
摘要: 1 创建一个分区表 2 添加数据 3 增加一个分区 4添加数据 5 show partitions t_partition001; 6删除分区 alter table t_partition001 drop partition(country="Japan"); 7修改表名 8表增加一列 9 替换表 阅读全文
posted @ 2019-01-16 11:42 o_0的园子 阅读(604) 评论(0) 推荐(0) 编辑
  2019年1月15日
摘要: 1 建表 2 创建一个student.txt 添加数据 3 上传 hdfs dfs -put student.txt /user/hive/warehouse/student 4 select * from student; 5 通常不会通过put方式加载数据,而是通过load的方式添加数据 loa 阅读全文
posted @ 2019-01-15 21:37 o_0的园子 阅读(473) 评论(0) 推荐(0) 编辑
摘要: Hive交互shell bin/hive Hive JDBC服务 hive也可以启动为一个服务器,来对外提供 启动方式,(假如是在itcast01上): 启动为前台:bin/hiveserver2 启动为后台:nohup bin/hiveserver2 1>/var/log/hiveserver.l 阅读全文
posted @ 2019-01-15 20:19 o_0的园子 阅读(275) 评论(0) 推荐(0) 编辑
摘要: 1上传压缩包 2 解压 tar -zxvf apache-hive-1.2.1-bin.tar.gz -C apps 3 重命名 mv apache-hive-1.2.1-bin hive 4 设置环境变量 vi /etc/profile expert HIVE_HOME=/root/apps/hi 阅读全文
posted @ 2019-01-15 18:01 o_0的园子 阅读(281) 评论(0) 推荐(0) 编辑
  2019年1月9日
摘要: 数据: login.log visit.log 实现代码: pom.xml 修改pom.xml<mainClass>com.cyf.LoginlogFormatMP</mainClass><mainClass>com.cyf.JoinWithIpMp</mainClass><mainClass>co 阅读全文
posted @ 2019-01-09 22:47 o_0的园子 阅读(1880) 评论(0) 推荐(0) 编辑
  2019年1月4日
摘要: 需求 数据 https://pan.baidu.com/s/1gPsQXVYSQEZ2OYek4HxK6A pom.xml 创建文件夹 并上传数据 hadoop fs -mkdir -p /json/input hadoop fs -put rating.json /json/input 运行 ha 阅读全文
posted @ 2019-01-04 20:56 o_0的园子 阅读(434) 评论(1) 推荐(0) 编辑
摘要: 需求: 用mapreduce实现select order.orderid,order.pdtid,pdts.pdt_name,oder.amount from orderjoin pdtson order.pdtid=pdts.pdtid 数据: orders.txt pdts.txt pom.xm 阅读全文
posted @ 2019-01-04 20:55 o_0的园子 阅读(363) 评论(0) 推荐(0) 编辑
摘要: 求每一个订单中成交金额最大的那一笔 top1 数据 pom.xml 创建文件夹 hadoop fs -mkdir -p /top/input 上传数据 hadoop fs -put top.txt /top/input 运行 hadoop jar TopOne.jar cn.itcast.mapre 阅读全文
posted @ 2019-01-04 20:55 o_0的园子 阅读(385) 评论(0) 推荐(0) 编辑
摘要: 数据 commonfriends.txt pom.xml 运行 hadoop jar CommonFriendsStepOne.jar cn.itcast.mapreduce.index.CommonFriendsStepOne 生成结果 修改pom.xml文件 打包并上传 运行 hadoop ja 阅读全文
posted @ 2019-01-04 20:54 o_0的园子 阅读(458) 评论(0) 推荐(0) 编辑
摘要: 数据 1 pom.xml 2 IndexStepOne.java 打包重命名并把该jar上传到hdfs 创建文件夹,并把a.txt b.txt c.txt传到该路径 hadoop fs -mkdir -p /index/input 运行 hadoop jar IndexStepOne.jar cn. 阅读全文
posted @ 2019-01-04 20:53 o_0的园子 阅读(339) 评论(0) 推荐(0) 编辑
摘要: https://www.cnblogs.com/dolphin0520/p/3681042.html 阅读全文
posted @ 2019-01-04 20:39 o_0的园子 阅读(229) 评论(0) 推荐(0) 编辑
摘要: https://www.cnblogs.com/chenmo-xpw/p/4922641.html 阅读全文
posted @ 2019-01-04 20:11 o_0的园子 阅读(128) 评论(0) 推荐(0) 编辑
摘要: 新建一个maven项目 项目结构如下 pom.xml FlumSum.java 新建 /flowsum/input hadoop fs -mkdir -p /flowsum/input 把数据放在 /flowsum/input 目录下 hadoop fs -put 3.txt /flowsum/in 阅读全文
posted @ 2019-01-04 15:19 o_0的园子 阅读(1328) 评论(1) 推荐(0) 编辑
  2019年1月3日
摘要: 项目结构 pom.xml文件 先建两个文件1.txt 2.txt 内容如下 1.txt 2.txt 在hdfs上创建文件夹 hadoop fs -mkdir -p /wordcount/input 把1.txt 2.txt放在/wordcount/input目录下 hadoop fs -put 1. 阅读全文
posted @ 2019-01-03 22:48 o_0的园子 阅读(793) 评论(0) 推荐(0) 编辑
摘要: 项目结构 服务端代码 test-hadoop-rpc pom.xml 客户端代码 test-hadoop-rpc-client pom.xml 阅读全文
posted @ 2019-01-03 22:47 o_0的园子 阅读(422) 评论(0) 推荐(0) 编辑
摘要: 1 需求 从外部购买数据,数据提供方会实时将数据推送到6台FTP服务器上,我方部署6台接口采集机来对接采集数据,并上传到HDFS中 提供商在FTP上生成数据的规则是以小时为单位建立文件夹(2016-03-11-10),每分钟生成一个文件(00.dat,01.data,02.dat,........) 阅读全文
posted @ 2019-01-03 21:35 o_0的园子 阅读(824) 评论(0) 推荐(0) 编辑
摘要: 点击流日志每天都10T,在业务应用服务器上,需要准实时上传至(Hadoop HDFS)上 1需求说明 点击流日志每天都10T,在业务应用服务器上,需要准实时上传至(Hadoop HDFS)上 2需求分析 一般上传文件都是在凌晨24点操作,由于很多种类的业务数据都要在晚上进行传输,为了减轻服务器的压力 阅读全文
posted @ 2019-01-03 21:34 o_0的园子 阅读(686) 评论(0) 推荐(0) 编辑
摘要: 有两个海量日志文件存储在hdfs上, 其中登陆日志格式:user,ip,time,oper(枚举值:1为上线,2为下线);访问之日格式为:ip,time,url,假设登陆日志中上下线信息完整,切同一上下线时间段内是用的ip唯一,计算访问日志中独立user数量最多的前10个url,用MapReduce 阅读全文
posted @ 2019-01-03 21:21 o_0的园子 阅读(1233) 评论(0) 推荐(0) 编辑
摘要: package cn.itcast.bigdata.hdfs.diceng; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.*; import org.apache.hadoop.io.IOUtils; import org.junit.Before; import org.junit.Tes... 阅读全文
posted @ 2019-01-03 20:49 o_0的园子 阅读(446) 评论(0) 推荐(0) 编辑
摘要: dubbo由于是二进制的传输,占用带宽会更少springCloud是http协议传输,带宽会比较多,同时使用http协议一般会使用JSON报文,消耗会更大 dubbo的开发难度较大,原因是dubbo的jar包依赖问题很多大型工程无法解决 springcloud的接口协议约定比较自由且松散,需要有强有 阅读全文
posted @ 2019-01-03 20:40 o_0的园子 阅读(1019) 评论(0) 推荐(0) 编辑
摘要: package cn.itcast.hdfs; import org.apache.commons.io.IOUtils; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.*; import org.junit.Before; import org.junit.Test; import jav... 阅读全文
posted @ 2019-01-03 20:31 o_0的园子 阅读(247) 评论(0) 推荐(0) 编辑
摘要: 代码如下: 此时会报空指针异常 修改后代码如下: 注意,出现以上的问题是没有配环境变量造成的 window下开发的说明 建议在linux下进行hadoop应用的开发,不会存在兼容性问题。如在window上做客户端应用开发,需要设置以下环境: A、用老师给的windows平台下编译的hadoop安装包 阅读全文
posted @ 2019-01-03 19:32 o_0的园子 阅读(488) 评论(0) 推荐(0) 编辑
摘要: 此时报错,权限不足: 修改后的代码(伪造一个root身份): 或者是运行时加一个参数: VM-arguements: -DHADOOP——USER_NAME=root 阅读全文
posted @ 2019-01-03 19:12 o_0的园子 阅读(1397) 评论(0) 推荐(0) 编辑
  2019年1月2日
摘要: 1 新建一个maven项目 打印根目录下的文件的名字 添加pom依赖 pom.xml 2 测试 运行结果如下图 阅读全文
posted @ 2019-01-02 23:42 o_0的园子 阅读(626) 评论(0) 推荐(0) 编辑
摘要: 1.准备Linux环境 1.0先将虚拟机的网络模式选为NAT 1.1修改主机名 vi /etc/sysconfig/network NETWORKING=yes HOSTNAME=itcast ### 1.2修改IP 两种方式: 第一种:通过Linu... 阅读全文
posted @ 2019-01-02 22:24 o_0的园子 阅读(164) 评论(0) 推荐(0) 编辑
摘要: 1) 数据采集:定制开发采集程序,或使用开源框架FLUME 2) 数据预处理:定制开发mapreduce程序运行于hadoop集群 3) 数据仓库技术:基于hadoop之上的Hive 4) 数据导出:基于hadoop的sqoop数据导入导出工具 5) 数据可视化:定制开发web程序或使用kettle 阅读全文
posted @ 2019-01-02 22:14 o_0的园子 阅读(1520) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 ··· 13 下一页