大数据学习——Hbase
摘要:1. Hbase基础 1.1 hbase数据库介绍 1、简介 hbase是bigtable的开源java版本。是建立在hdfs之上,提供高可靠性、高性能、列存储、可伸缩、实时读写nosql的数据库系统。 它介于nosql和RDBMS之间,仅能通过主键(row key)和主键的range来检索数据,仅
阅读全文
posted @
2019-01-28 16:40
o_0的园子
阅读(388)
推荐(0) 编辑
js中取绝对值的2种方法!
摘要:1、abs() var aaa=-20; var bbb=Math.abs(aaa); 2、加减法 var aaa=-20; var bbb=-aaa
阅读全文
posted @
2019-01-28 15:21
o_0的园子
阅读(22629)
推荐(1) 编辑
大数据学习——azkaban工作流调度系统
摘要:azkaban的安装部署 在/root/apps 1目录下新建azkaban文件夹 上传安装包到azkaban 2解压 3删掉安装包 4重命名 5修改配置文件 登录mysql数据库 创建azkaban数据库; 修改conf下的azkaban.properties 修改时区为亚洲上海 注:先配置好服务
阅读全文
posted @
2019-01-23 21:31
o_0的园子
阅读(570)
推荐(0) 编辑
sqoop导数据出现问题
摘要:执行下面命令的时候报错 ERROR manager.SqlManager: Error executing statement: java.sql.SQLException: Access denied for user 'root'@'mini1' (using password: YES) 这个
阅读全文
posted @
2019-01-23 19:52
o_0的园子
阅读(1153)
推荐(0) 编辑
大数据学习——sqoop导出数据
摘要:把数据从hadoop导出到关系型数据库 将数据从HDFS导出到RDBMS数据库 导出前,目标表必须存在于目标数据库中。 u 默认操作是从将文件中的数据使用INSERT语句插入到表中 u 更新模式下,是生成UPDATE语句更新表数据 语法 以下是export命令语法。 $ sqoop export (
阅读全文
posted @
2019-01-23 15:00
o_0的园子
阅读(469)
推荐(0) 编辑
大数据学习——sqoop导入数据
摘要:把数据从关系型数据库导入到hadoop 启动sqoop 导入表表数据到HDFS 下面的命令用于从MySQL数据库服务器中的emp表导入HDFS。 在/root/sqoop下执行命令,导入emp表到hdfs 在/root/sqoop下执行命令,导入emp_add表到hdfs 执行完命令会生成 emp_
阅读全文
posted @
2019-01-23 14:59
o_0的园子
阅读(1153)
推荐(0) 编辑
大数据学习——sqoop安装
摘要:1上传 sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz 2解压 3重命名 设置环境变量 4修改配置文件 5上传mysql驱动包到/root/apps/sqoop/lib目录下 6启动sqoop 启动完成
阅读全文
posted @
2019-01-23 14:57
o_0的园子
阅读(187)
推荐(0) 编辑
大数据学习——sqoop入门
摘要:下载地址 https://pan.baidu.com/s/1qWDl29L9I_KVU54c0ioNfQ fvfh 3.1 概述 sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。 导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HB
阅读全文
posted @
2019-01-23 14:19
o_0的园子
阅读(476)
推荐(0) 编辑
navicat不同数据库数据传输
摘要:复制fo的t_fo_account表结构和数据到base库 结果
阅读全文
posted @
2019-01-23 10:49
o_0的园子
阅读(1650)
推荐(0) 编辑
大数据学习——flume日志分类采集汇总
摘要:1. 案例场景 A、B两台日志服务机器实时生产日志主要类型为access.log、nginx.log、web.log 现在要求: 把A、B 机器中的access.log、nginx.log、web.log 采集汇总到C机器上然后统一收集到hdfs中。 但是在hdfs中要求的目录为: /source/
阅读全文
posted @
2019-01-22 22:52
o_0的园子
阅读(1191)
推荐(1) 编辑
大数据学习——高可用配置案例
摘要:在完成单点的Flume NG搭建后,下面我们搭建一个高可用的Flume NG集群,架构图如下所示: (1)节点分配 Flume的Agent和Collector分布如下表所示: 名称 Ip地址 Host 角色 Agent1 192.168.200.101 Itcast01 WebServer Coll
阅读全文
posted @
2019-01-22 22:38
o_0的园子
阅读(450)
推荐(0) 编辑
大数据学习——实现多agent的串联,收集数据到HDFS中
摘要:采集需求:比如业务系统使用log4j生成的日志,日志内容不断增加,需要把追加到日志文件中的数据实时采集到hdfs,使用agent串联 根据需求,首先定义以下3大要素 第一台flume agent l 采集源,即source——监控文件内容更新 : exec ‘tail -F file’ l 下沉目标
阅读全文
posted @
2019-01-22 22:23
o_0的园子
阅读(595)
推荐(0) 编辑
大数据学习——flume拦截器
摘要:flume 拦截器(interceptor)1、flume拦截器介绍拦截器是简单的插件式组件,设置在source和channel之间。source接收到的事件event,在写入channel之前,拦截器都可以进行转换或者删除这些事件。每个拦截器只处理同一个source接收到的事件。可以自定义拦截器。
阅读全文
posted @
2019-01-22 21:13
o_0的园子
阅读(3693)
推荐(0) 编辑
Notepad++ 连接远程 FTP
摘要:https://www.cnblogs.com/fangwu/p/8157590.html
阅读全文
posted @
2019-01-22 20:50
o_0的园子
阅读(201)
推荐(0) 编辑
大数据学习——采集文件到HDFS
摘要:采集需求:比如业务系统使用log4j生成的日志,日志内容不断增加,需要把追加到日志文件中的数据实时采集到hdfs 根据需求,首先定义以下3大要素 l 采集源,即source——监控文件内容更新 : exec ‘tail -F file’ l 下沉目标,即sink——HDFS文件系统 : hdfs s
阅读全文
posted @
2019-01-22 20:44
o_0的园子
阅读(1105)
推荐(0) 编辑
大数据学习——采集目录到HDFS
摘要:采集需求:某服务器的某特定目录下,会不断产生新的文件,每当有新文件出现,就需要把文件采集到HDFS中去 根据需求,首先定义以下3大要素 l 采集源,即source——监控文件目录 : spooldir l 下沉目标,即sink——HDFS文件系统 : hdfs sink l source和sink之
阅读全文
posted @
2019-01-21 21:25
o_0的园子
阅读(570)
推荐(0) 编辑
大数据学习——flume安装部署
摘要:1.Flume的安装非常简单,只需要解压即可,当然,前提是已有hadoop环境 上传安装包到数据源所在节点上 然后解压 tar -zxvf apache-flume-1.6.0-bin.tar.gz 2. 测试小案例 1 在 flume的conf文件下建一个文件 vi netcat-logger.c
阅读全文
posted @
2019-01-18 21:34
o_0的园子
阅读(210)
推荐(0) 编辑
大数据学习——面试用sql——累计报表
摘要:create table t_access_times(username string,month string,salary int)row format delimited fields terminated by ','; load data local inpath '/root/hived
阅读全文
posted @
2019-01-18 21:09
o_0的园子
阅读(398)
推荐(0) 编辑
大数据学习——hive函数
摘要:1 内置函数 2 自定义函数UDF(user-defined function)和transform 自定义函数类别 UDF 作用于单个数据行,产生一个数据行作为输出。(数学函数,字符串函数) UDAF(用户定义聚集函数):接收多个输入数据行,并产生一个输出数据行。(count,max) UDTF(
阅读全文
posted @
2019-01-18 21:05
o_0的园子
阅读(287)
推荐(0) 编辑
大数据学习——hive数据类型
摘要:1. hive的数据类型Hive的内置数据类型可以分为两大类:(1)、基础数据类型;(2)、复杂数据类型2. hive基本数据类型基础数据类型包括:TINYINT,SMALLINT,INT,BIGINT,BOOLEAN,FLOAT,DOUBLE,STRING,BINARY,TIMESTAMP,DEC
阅读全文
posted @
2019-01-17 22:14
o_0的园子
阅读(6743)
推荐(1) 编辑
大数据学习——关于hive中的各种join
摘要:inner join 只打印能匹配上的数据,没有匹配上的不输出 left join right join full outer join left outer join left semi join 相当于 select * from a where a.id exists(select b.id
阅读全文
posted @
2019-01-17 22:07
o_0的园子
阅读(533)
推荐(0) 编辑
大数据学习——hive的sql练习
摘要:1新建一个数据库 2创建一个外部表 3添加数据 vi student.txt 4 查询 5 group by分组 6 cluster by 分区,排序 7 sort by 8 桶表 桶表添加数据时不能通过load的形式, #指定开启分桶set hive.enforce.bucketing = tru
阅读全文
posted @
2019-01-17 18:06
o_0的园子
阅读(3181)
推荐(0) 编辑
大数据学习——hive显示命令
摘要:2 DML操作 load overwrite like insert 3 multi insert 多重插入 4 Dynamic partition inserts 动态分区插入 5 自动分区模式 set hive.exec.dynamic.partition.mode=nonstrict;
阅读全文
posted @
2019-01-16 16:08
o_0的园子
阅读(480)
推荐(0) 编辑
大数据学习——hive数仓DML和DDL操作
摘要:1 创建一个分区表 2 添加数据 3 增加一个分区 4添加数据 5 show partitions t_partition001; 6删除分区 alter table t_partition001 drop partition(country="Japan"); 7修改表名 8表增加一列 9 替换表
阅读全文
posted @
2019-01-16 11:42
o_0的园子
阅读(609)
推荐(0) 编辑
大数据学习——hive基本操作
摘要:1 建表 2 创建一个student.txt 添加数据 3 上传 hdfs dfs -put student.txt /user/hive/warehouse/student 4 select * from student; 5 通常不会通过put方式加载数据,而是通过load的方式添加数据 loa
阅读全文
posted @
2019-01-15 21:37
o_0的园子
阅读(478)
推荐(0) 编辑
大数据学习——hive使用
摘要:Hive交互shell bin/hive Hive JDBC服务 hive也可以启动为一个服务器,来对外提供 启动方式,(假如是在itcast01上): 启动为前台:bin/hiveserver2 启动为后台:nohup bin/hiveserver2 1>/var/log/hiveserver.l
阅读全文
posted @
2019-01-15 20:19
o_0的园子
阅读(281)
推荐(0) 编辑
大数据学习——hive安装部署
摘要:1上传压缩包 2 解压 tar -zxvf apache-hive-1.2.1-bin.tar.gz -C apps 3 重命名 mv apache-hive-1.2.1-bin hive 4 设置环境变量 vi /etc/profile expert HIVE_HOME=/root/apps/hi
阅读全文
posted @
2019-01-15 18:01
o_0的园子
阅读(283)
推荐(0) 编辑
大数据学习——日志分析
摘要:数据: login.log visit.log 实现代码: pom.xml 修改pom.xml<mainClass>com.cyf.LoginlogFormatMP</mainClass><mainClass>com.cyf.JoinWithIpMp</mainClass><mainClass>co
阅读全文
posted @
2019-01-09 22:47
o_0的园子
阅读(1885)
推荐(0) 编辑
大数据学习——mapreduce运营商日志增强
摘要:需求 数据 https://pan.baidu.com/s/1gPsQXVYSQEZ2OYek4HxK6A pom.xml 创建文件夹 并上传数据 hadoop fs -mkdir -p /json/input hadoop fs -put rating.json /json/input 运行 ha
阅读全文
posted @
2019-01-04 20:56
o_0的园子
阅读(440)
推荐(0) 编辑
大数据学习——mapreduce案例join算法
摘要:需求: 用mapreduce实现select order.orderid,order.pdtid,pdts.pdt_name,oder.amount from orderjoin pdtson order.pdtid=pdts.pdtid 数据: orders.txt pdts.txt pom.xm
阅读全文
posted @
2019-01-04 20:55
o_0的园子
阅读(365)
推荐(0) 编辑
大数据学习——mapreduce学习topN问题
摘要:求每一个订单中成交金额最大的那一笔 top1 数据 pom.xml 创建文件夹 hadoop fs -mkdir -p /top/input 上传数据 hadoop fs -put top.txt /top/input 运行 hadoop jar TopOne.jar cn.itcast.mapre
阅读全文
posted @
2019-01-04 20:55
o_0的园子
阅读(391)
推荐(0) 编辑
大数据学习——mapreduce共同好友
摘要:数据 commonfriends.txt pom.xml 运行 hadoop jar CommonFriendsStepOne.jar cn.itcast.mapreduce.index.CommonFriendsStepOne 生成结果 修改pom.xml文件 打包并上传 运行 hadoop ja
阅读全文
posted @
2019-01-04 20:54
o_0的园子
阅读(461)
推荐(0) 编辑
大数据学习——mapreduce倒排索引
摘要:数据 1 pom.xml 2 IndexStepOne.java 打包重命名并把该jar上传到hdfs 创建文件夹,并把a.txt b.txt c.txt传到该路径 hadoop fs -mkdir -p /index/input 运行 hadoop jar IndexStepOne.jar cn.
阅读全文
posted @
2019-01-04 20:53
o_0的园子
阅读(341)
推荐(0) 编辑
Java中的hashcode方法
摘要:https://www.cnblogs.com/dolphin0520/p/3681042.html
阅读全文
posted @
2019-01-04 20:39
o_0的园子
阅读(231)
推荐(0) 编辑
TreeMap 排序
摘要:https://www.cnblogs.com/chenmo-xpw/p/4922641.html
阅读全文
posted @
2019-01-04 20:11
o_0的园子
阅读(130)
推荐(0) 编辑
大数据学习——mapreduce汇总手机号上行流量下行流量总流量
摘要:新建一个maven项目 项目结构如下 pom.xml FlumSum.java 新建 /flowsum/input hadoop fs -mkdir -p /flowsum/input 把数据放在 /flowsum/input 目录下 hadoop fs -put 3.txt /flowsum/in
阅读全文
posted @
2019-01-04 15:19
o_0的园子
阅读(1349)
推荐(0) 编辑
大数据学习——mapreduce程序单词统计
摘要:项目结构 pom.xml文件 先建两个文件1.txt 2.txt 内容如下 1.txt 2.txt 在hdfs上创建文件夹 hadoop fs -mkdir -p /wordcount/input 把1.txt 2.txt放在/wordcount/input目录下 hadoop fs -put 1.
阅读全文
posted @
2019-01-03 22:48
o_0的园子
阅读(798)
推荐(0) 编辑
大数据学习——hadoop的RPC框架
摘要:项目结构 服务端代码 test-hadoop-rpc pom.xml 客户端代码 test-hadoop-rpc-client pom.xml
阅读全文
posted @
2019-01-03 22:47
o_0的园子
阅读(424)
推荐(0) 编辑
大数据学习——JAVA采集程序
摘要:1 需求 从外部购买数据,数据提供方会实时将数据推送到6台FTP服务器上,我方部署6台接口采集机来对接采集数据,并上传到HDFS中 提供商在FTP上生成数据的规则是以小时为单位建立文件夹(2016-03-11-10),每分钟生成一个文件(00.dat,01.data,02.dat,........)
阅读全文
posted @
2019-01-03 21:35
o_0的园子
阅读(828)
推荐(0) 编辑
大数据学习——点击流日志每天都10T,在业务应用服务器上,需要准实时上传至(Hadoop HDFS)上
摘要:点击流日志每天都10T,在业务应用服务器上,需要准实时上传至(Hadoop HDFS)上 1需求说明 点击流日志每天都10T,在业务应用服务器上,需要准实时上传至(Hadoop HDFS)上 2需求分析 一般上传文件都是在凌晨24点操作,由于很多种类的业务数据都要在晚上进行传输,为了减轻服务器的压力
阅读全文
posted @
2019-01-03 21:34
o_0的园子
阅读(696)
推荐(0) 编辑
大数据学习——有两个海量日志文件存储在hdfs
摘要:有两个海量日志文件存储在hdfs上, 其中登陆日志格式:user,ip,time,oper(枚举值:1为上线,2为下线);访问之日格式为:ip,time,url,假设登陆日志中上下线信息完整,切同一上下线时间段内是用的ip唯一,计算访问日志中独立user数量最多的前10个url,用MapReduce
阅读全文
posted @
2019-01-03 21:21
o_0的园子
阅读(1236)
推荐(0) 编辑
大数据学习——hdfs客户端流式操作代码的实现
摘要:package cn.itcast.bigdata.hdfs.diceng; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.*; import org.apache.hadoop.io.IOUtils; import org.junit.Before; import org.junit.Tes...
阅读全文
posted @
2019-01-03 20:49
o_0的园子
阅读(450)
推荐(0) 编辑
比较spring cloud和dubbo,各自的优缺点是什么
摘要:dubbo由于是二进制的传输,占用带宽会更少springCloud是http协议传输,带宽会比较多,同时使用http协议一般会使用JSON报文,消耗会更大 dubbo的开发难度较大,原因是dubbo的jar包依赖问题很多大型工程无法解决 springcloud的接口协议约定比较自由且松散,需要有强有
阅读全文
posted @
2019-01-03 20:40
o_0的园子
阅读(1027)
推荐(0) 编辑
大数据学习——hdfs客户端操作
摘要:package cn.itcast.hdfs; import org.apache.commons.io.IOUtils; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.*; import org.junit.Before; import org.junit.Test; import jav...
阅读全文
posted @
2019-01-03 20:31
o_0的园子
阅读(248)
推荐(0) 编辑
大数据学习——下载集群根目录下的文件到E盘
摘要:代码如下: 此时会报空指针异常 修改后代码如下: 注意,出现以上的问题是没有配环境变量造成的 window下开发的说明 建议在linux下进行hadoop应用的开发,不会存在兼容性问题。如在window上做客户端应用开发,需要设置以下环境: A、用老师给的windows平台下编译的hadoop安装包
阅读全文
posted @
2019-01-03 19:32
o_0的园子
阅读(492)
推荐(0) 编辑
大数据学习——上传本地文件到集群根目录下
摘要:此时报错,权限不足: 修改后的代码(伪造一个root身份): 或者是运行时加一个参数: VM-arguements: -DHADOOP——USER_NAME=root
阅读全文
posted @
2019-01-03 19:12
o_0的园子
阅读(1400)
推荐(0) 编辑
大数据学习——java操作hdfs环境搭建以及环境测试
摘要:1 新建一个maven项目 打印根目录下的文件的名字 添加pom依赖 pom.xml 2 测试 运行结果如下图
阅读全文
posted @
2019-01-02 23:42
o_0的园子
阅读(629)
推荐(0) 编辑
大数据学习——hadoop2.x集群搭建
摘要:1.准备Linux环境 1.0先将虚拟机的网络模式选为NAT 1.1修改主机名 vi /etc/sysconfig/network NETWORKING=yes HOSTNAME=itcast ### 1.2修改IP 两种方式: 第一种:通过Linu...
阅读全文
posted @
2019-01-02 22:24
o_0的园子
阅读(167)
推荐(0) 编辑
大数据学习——数据流程图
摘要:1) 数据采集:定制开发采集程序,或使用开源框架FLUME 2) 数据预处理:定制开发mapreduce程序运行于hadoop集群 3) 数据仓库技术:基于hadoop之上的Hive 4) 数据导出:基于hadoop的sqoop数据导入导出工具 5) 数据可视化:定制开发web程序或使用kettle
阅读全文
posted @
2019-01-02 22:14
o_0的园子
阅读(1529)
推荐(0) 编辑
大数据学习——三大组件总结
摘要:#解决海量数据的存储问题 分布式文件系统(HDFS) 1、具有分布式的集群结构 我们把这样实际存储数据的节点叫做 datanode 2、具有一个统一对外提供查询 存储 搜索 机器节点 对外跟客户端统一打交道 对内跟实际存储数据的节点打交道 3、具有备份的机制 解决了机器挂掉时候数据丢失的问题 4、具
阅读全文
posted @
2019-01-02 21:17
o_0的园子
阅读(1000)
推荐(0) 编辑