随笔档案「2019年1月」 - o_0的园子

大数据学习——Hbase

摘要：1. Hbase基础 1.1 hbase数据库介绍 1、简介 hbase是bigtable的开源java版本。是建立在hdfs之上，提供高可靠性、高性能、列存储、可伸缩、实时读写nosql的数据库系统。它介于nosql和RDBMS之间，仅能通过主键(row key)和主键的range来检索数据，仅阅读全文

posted @ 2019-01-28 16:40 o_0的园子阅读(406) 评论(0) 推荐(0)

js中取绝对值的2种方法！

摘要：1、abs() var aaa=-20; var bbb=Math.abs(aaa); 2、加减法 var aaa=-20; var bbb=-aaa 阅读全文

posted @ 2019-01-28 15:21 o_0的园子阅读(22657) 评论(0) 推荐(1)

大数据学习——azkaban工作流调度系统

摘要：azkaban的安装部署在/root/apps 1目录下新建azkaban文件夹上传安装包到azkaban 2解压 3删掉安装包 4重命名 5修改配置文件登录mysql数据库创建azkaban数据库；修改conf下的azkaban.properties 修改时区为亚洲上海注：先配置好服务阅读全文

posted @ 2019-01-23 21:31 o_0的园子阅读(581) 评论(0) 推荐(0)

sqoop导数据出现问题

摘要：执行下面命令的时候报错 ERROR manager.SqlManager: Error executing statement: java.sql.SQLException: Access denied for user 'root'@'mini1' (using password: YES) 这个阅读全文

posted @ 2019-01-23 19:52 o_0的园子阅读(1202) 评论(1) 推荐(0)

大数据学习——sqoop导出数据

摘要：把数据从hadoop导出到关系型数据库将数据从HDFS导出到RDBMS数据库导出前，目标表必须存在于目标数据库中。 u 默认操作是从将文件中的数据使用INSERT语句插入到表中 u 更新模式下，是生成UPDATE语句更新表数据语法以下是export命令语法。 $ sqoop export ( 阅读全文

posted @ 2019-01-23 15:00 o_0的园子阅读(496) 评论(0) 推荐(0)

大数据学习——sqoop导入数据

摘要：把数据从关系型数据库导入到hadoop 启动sqoop 导入表表数据到HDFS 下面的命令用于从MySQL数据库服务器中的emp表导入HDFS。在/root/sqoop下执行命令，导入emp表到hdfs 在/root/sqoop下执行命令，导入emp_add表到hdfs 执行完命令会生成 emp_ 阅读全文

posted @ 2019-01-23 14:59 o_0的园子阅读(1170) 评论(0) 推荐(0)

大数据学习——sqoop安装

摘要：1上传 sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz 2解压 3重命名设置环境变量 4修改配置文件 5上传mysql驱动包到/root/apps/sqoop/lib目录下 6启动sqoop 启动完成阅读全文

posted @ 2019-01-23 14:57 o_0的园子阅读(192) 评论(0) 推荐(0)

大数据学习——sqoop入门

摘要：下载地址 https://pan.baidu.com/s/1qWDl29L9I_KVU54c0ioNfQ fvfh 3.1 概述 sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。导入数据：MySQL，Oracle导入数据到Hadoop的HDFS、HIVE、HB 阅读全文

posted @ 2019-01-23 14:19 o_0的园子阅读(485) 评论(0) 推荐(0)

navicat不同数据库数据传输

摘要：复制fo的t_fo_account表结构和数据到base库结果阅读全文

posted @ 2019-01-23 10:49 o_0的园子阅读(1661) 评论(0) 推荐(0)

大数据学习——flume日志分类采集汇总

摘要：1. 案例场景 A、B两台日志服务机器实时生产日志主要类型为access.log、nginx.log、web.log 现在要求：把A、B 机器中的access.log、nginx.log、web.log 采集汇总到C机器上然后统一收集到hdfs中。但是在hdfs中要求的目录为： /source/ 阅读全文

posted @ 2019-01-22 22:52 o_0的园子阅读(1211) 评论(0) 推荐(1)

大数据学习——高可用配置案例

摘要：在完成单点的Flume NG搭建后，下面我们搭建一个高可用的Flume NG集群，架构图如下所示：（1）节点分配 Flume的Agent和Collector分布如下表所示：名称 Ip地址 Host 角色 Agent1 192.168.200.101 Itcast01 WebServer Coll 阅读全文

posted @ 2019-01-22 22:38 o_0的园子阅读(477) 评论(0) 推荐(0)

大数据学习——实现多agent的串联，收集数据到HDFS中

摘要：采集需求：比如业务系统使用log4j生成的日志，日志内容不断增加，需要把追加到日志文件中的数据实时采集到hdfs,使用agent串联根据需求，首先定义以下3大要素第一台flume agent l 采集源，即source——监控文件内容更新 : exec ‘tail -F file’ l 下沉目标阅读全文

posted @ 2019-01-22 22:23 o_0的园子阅读(618) 评论(0) 推荐(0)

大数据学习——flume拦截器

摘要：flume 拦截器(interceptor)1、flume拦截器介绍拦截器是简单的插件式组件，设置在source和channel之间。source接收到的事件event，在写入channel之前，拦截器都可以进行转换或者删除这些事件。每个拦截器只处理同一个source接收到的事件。可以自定义拦截器。阅读全文

posted @ 2019-01-22 21:13 o_0的园子阅读(3745) 评论(0) 推荐(0)

Notepad++ 连接远程 FTP

摘要：https://www.cnblogs.com/fangwu/p/8157590.html 阅读全文

posted @ 2019-01-22 20:50 o_0的园子阅读(208) 评论(0) 推荐(0)

大数据学习——采集文件到HDFS

摘要：采集需求：比如业务系统使用log4j生成的日志，日志内容不断增加，需要把追加到日志文件中的数据实时采集到hdfs 根据需求，首先定义以下3大要素 l 采集源，即source——监控文件内容更新 : exec ‘tail -F file’ l 下沉目标，即sink——HDFS文件系统 : hdfs s 阅读全文

posted @ 2019-01-22 20:44 o_0的园子阅读(1117) 评论(0) 推荐(0)

大数据学习——采集目录到HDFS

摘要：采集需求：某服务器的某特定目录下，会不断产生新的文件，每当有新文件出现，就需要把文件采集到HDFS中去根据需求，首先定义以下3大要素 l 采集源，即source——监控文件目录 : spooldir l 下沉目标，即sink——HDFS文件系统 : hdfs sink l source和sink之阅读全文

posted @ 2019-01-21 21:25 o_0的园子阅读(596) 评论(0) 推荐(0)

大数据学习——flume安装部署

摘要：1.Flume的安装非常简单，只需要解压即可，当然，前提是已有hadoop环境上传安装包到数据源所在节点上然后解压 tar -zxvf apache-flume-1.6.0-bin.tar.gz 2. 测试小案例 1 在 flume的conf文件下建一个文件 vi netcat-logger.c 阅读全文

posted @ 2019-01-18 21:34 o_0的园子阅读(226) 评论(0) 推荐(0)

大数据学习——面试用sql——累计报表

摘要：create table t_access_times(username string,month string,salary int)row format delimited fields terminated by ','; load data local inpath '/root/hived 阅读全文

posted @ 2019-01-18 21:09 o_0的园子阅读(408) 评论(0) 推荐(0)

大数据学习——hive函数

摘要：1 内置函数 2 自定义函数UDF(user-defined function)和transform 自定义函数类别 UDF 作用于单个数据行，产生一个数据行作为输出。（数学函数，字符串函数） UDAF（用户定义聚集函数）：接收多个输入数据行，并产生一个输出数据行。（count，max） UDTF( 阅读全文

posted @ 2019-01-18 21:05 o_0的园子阅读(300) 评论(0) 推荐(0)

大数据学习——hive数据类型

摘要：1. hive的数据类型Hive的内置数据类型可以分为两大类：(1)、基础数据类型；(2)、复杂数据类型2. hive基本数据类型基础数据类型包括：TINYINT,SMALLINT,INT,BIGINT,BOOLEAN,FLOAT,DOUBLE,STRING,BINARY,TIMESTAMP,DEC 阅读全文

posted @ 2019-01-17 22:14 o_0的园子阅读(6839) 评论(0) 推荐(1)

大数据学习——关于hive中的各种join

摘要：inner join 只打印能匹配上的数据，没有匹配上的不输出 left join right join full outer join left outer join left semi join 相当于 select * from a where a.id exists(select b.id 阅读全文

posted @ 2019-01-17 22:07 o_0的园子阅读(540) 评论(0) 推荐(0)

大数据学习——hive的sql练习

摘要：1新建一个数据库 2创建一个外部表 3添加数据 vi student.txt 4 查询 5 group by分组 6 cluster by 分区，排序 7 sort by 8 桶表桶表添加数据时不能通过load的形式， #指定开启分桶set hive.enforce.bucketing = tru 阅读全文

posted @ 2019-01-17 18:06 o_0的园子阅读(3219) 评论(0) 推荐(0)

颜色代码

摘要：阅读全文

posted @ 2019-01-17 16:25 o_0的园子阅读(278) 评论(0) 推荐(0)

大数据学习——hive显示命令

摘要：2 DML操作 load overwrite like insert 3 multi insert 多重插入 4 Dynamic partition inserts 动态分区插入 5 自动分区模式 set hive.exec.dynamic.partition.mode=nonstrict; 阅读全文

posted @ 2019-01-16 16:08 o_0的园子阅读(518) 评论(0) 推荐(0)

大数据学习——hive数仓DML和DDL操作

摘要：1 创建一个分区表 2 添加数据 3 增加一个分区 4添加数据 5 show partitions t_partition001; 6删除分区 alter table t_partition001 drop partition(country="Japan"); 7修改表名 8表增加一列 9 替换表阅读全文

posted @ 2019-01-16 11:42 o_0的园子阅读(667) 评论(0) 推荐(0)

大数据学习——hive基本操作

摘要：1 建表 2 创建一个student.txt 添加数据 3 上传 hdfs dfs -put student.txt /user/hive/warehouse/student 4 select * from student; 5 通常不会通过put方式加载数据，而是通过load的方式添加数据 loa 阅读全文

posted @ 2019-01-15 21:37 o_0的园子阅读(494) 评论(0) 推荐(0)

大数据学习——hive使用

摘要：Hive交互shell bin/hive Hive JDBC服务 hive也可以启动为一个服务器，来对外提供启动方式，（假如是在itcast01上）：启动为前台：bin/hiveserver2 启动为后台：nohup bin/hiveserver2 1>/var/log/hiveserver.l 阅读全文

posted @ 2019-01-15 20:19 o_0的园子阅读(327) 评论(0) 推荐(0)

大数据学习——hive安装部署

摘要：1上传压缩包 2 解压 tar -zxvf apache-hive-1.2.1-bin.tar.gz -C apps 3 重命名 mv apache-hive-1.2.1-bin hive 4 设置环境变量 vi /etc/profile expert HIVE_HOME=/root/apps/hi 阅读全文

posted @ 2019-01-15 18:01 o_0的园子阅读(300) 评论(0) 推荐(0)

大数据学习——日志分析

摘要：数据： login.log visit.log 实现代码： pom.xml 修改pom.xml<mainClass>com.cyf.LoginlogFormatMP</mainClass><mainClass>com.cyf.JoinWithIpMp</mainClass><mainClass>co 阅读全文

posted @ 2019-01-09 22:47 o_0的园子阅读(1912) 评论(0) 推荐(0)

大数据学习——mapreduce运营商日志增强

摘要：需求数据 https://pan.baidu.com/s/1gPsQXVYSQEZ2OYek4HxK6A pom.xml 创建文件夹并上传数据 hadoop fs -mkdir -p /json/input hadoop fs -put rating.json /json/input 运行 ha 阅读全文

posted @ 2019-01-04 20:56 o_0的园子阅读(454) 评论(1) 推荐(0)

大数据学习——mapreduce案例join算法

摘要：需求：用mapreduce实现select order.orderid,order.pdtid,pdts.pdt_name,oder.amount from orderjoin pdtson order.pdtid=pdts.pdtid 数据： orders.txt pdts.txt pom.xm 阅读全文

posted @ 2019-01-04 20:55 o_0的园子阅读(375) 评论(0) 推荐(0)

大数据学习——mapreduce学习topN问题

摘要：求每一个订单中成交金额最大的那一笔 top1 数据 pom.xml 创建文件夹 hadoop fs -mkdir -p /top/input 上传数据 hadoop fs -put top.txt /top/input 运行 hadoop jar TopOne.jar cn.itcast.mapre 阅读全文

posted @ 2019-01-04 20:55 o_0的园子阅读(403) 评论(0) 推荐(0)

大数据学习——mapreduce共同好友

摘要：数据 commonfriends.txt pom.xml 运行 hadoop jar CommonFriendsStepOne.jar cn.itcast.mapreduce.index.CommonFriendsStepOne 生成结果修改pom.xml文件打包并上传运行 hadoop ja 阅读全文

posted @ 2019-01-04 20:54 o_0的园子阅读(478) 评论(0) 推荐(0)

大数据学习——mapreduce倒排索引

摘要：数据 1 pom.xml 2 IndexStepOne.java 打包重命名并把该jar上传到hdfs 创建文件夹，并把a.txt b.txt c.txt传到该路径 hadoop fs -mkdir -p /index/input 运行 hadoop jar IndexStepOne.jar cn. 阅读全文

posted @ 2019-01-04 20:53 o_0的园子阅读(359) 评论(0) 推荐(0)

Java中的hashcode方法

摘要：https://www.cnblogs.com/dolphin0520/p/3681042.html 阅读全文

posted @ 2019-01-04 20:39 o_0的园子阅读(244) 评论(0) 推荐(0)

TreeMap 排序

摘要：https://www.cnblogs.com/chenmo-xpw/p/4922641.html 阅读全文

posted @ 2019-01-04 20:11 o_0的园子阅读(139) 评论(0) 推荐(0)

大数据学习——mapreduce汇总手机号上行流量下行流量总流量

摘要：新建一个maven项目项目结构如下 pom.xml FlumSum.java 新建 /flowsum/input hadoop fs -mkdir -p /flowsum/input 把数据放在 /flowsum/input 目录下 hadoop fs -put 3.txt /flowsum/in 阅读全文

posted @ 2019-01-04 15:19 o_0的园子阅读(1401) 评论(1) 推荐(0)

大数据学习——mapreduce程序单词统计

摘要：项目结构 pom.xml文件先建两个文件1.txt 2.txt 内容如下 1.txt 2.txt 在hdfs上创建文件夹 hadoop fs -mkdir -p /wordcount/input 把1.txt 2.txt放在/wordcount/input目录下 hadoop fs -put 1. 阅读全文

posted @ 2019-01-03 22:48 o_0的园子阅读(810) 评论(0) 推荐(0)

大数据学习——hadoop的RPC框架

摘要：项目结构服务端代码 test-hadoop-rpc pom.xml 客户端代码 test-hadoop-rpc-client pom.xml 阅读全文

posted @ 2019-01-03 22:47 o_0的园子阅读(434) 评论(0) 推荐(0)

大数据学习——JAVA采集程序

摘要：1 需求从外部购买数据，数据提供方会实时将数据推送到6台FTP服务器上，我方部署6台接口采集机来对接采集数据，并上传到HDFS中提供商在FTP上生成数据的规则是以小时为单位建立文件夹(2016-03-11-10)，每分钟生成一个文件（00.dat,01.data,02.dat,........）阅读全文

posted @ 2019-01-03 21:35 o_0的园子阅读(841) 评论(0) 推荐(0)

大数据学习——点击流日志每天都10T，在业务应用服务器上，需要准实时上传至（Hadoop HDFS）上

摘要：点击流日志每天都10T，在业务应用服务器上，需要准实时上传至（Hadoop HDFS）上 1需求说明点击流日志每天都10T，在业务应用服务器上，需要准实时上传至（Hadoop HDFS）上 2需求分析一般上传文件都是在凌晨24点操作，由于很多种类的业务数据都要在晚上进行传输，为了减轻服务器的压力阅读全文

posted @ 2019-01-03 21:34 o_0的园子阅读(731) 评论(0) 推荐(0)

大数据学习——有两个海量日志文件存储在hdfs

摘要：有两个海量日志文件存储在hdfs上，其中登陆日志格式：user，ip，time，oper（枚举值：1为上线，2为下线）；访问之日格式为：ip，time，url，假设登陆日志中上下线信息完整，切同一上下线时间段内是用的ip唯一，计算访问日志中独立user数量最多的前10个url，用MapReduce 阅读全文

posted @ 2019-01-03 21:21 o_0的园子阅读(1253) 评论(0) 推荐(0)

大数据学习——hdfs客户端流式操作代码的实现

摘要：package cn.itcast.bigdata.hdfs.diceng; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.*; import org.apache.hadoop.io.IOUtils; import org.junit.Before; import org.junit.Tes... 阅读全文

posted @ 2019-01-03 20:49 o_0的园子阅读(475) 评论(0) 推荐(0)

比较spring cloud和dubbo，各自的优缺点是什么

摘要：dubbo由于是二进制的传输，占用带宽会更少springCloud是http协议传输，带宽会比较多，同时使用http协议一般会使用JSON报文，消耗会更大 dubbo的开发难度较大，原因是dubbo的jar包依赖问题很多大型工程无法解决 springcloud的接口协议约定比较自由且松散，需要有强有阅读全文

posted @ 2019-01-03 20:40 o_0的园子阅读(1046) 评论(0) 推荐(0)

大数据学习——hdfs客户端操作

摘要：package cn.itcast.hdfs; import org.apache.commons.io.IOUtils; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.*; import org.junit.Before; import org.junit.Test; import jav... 阅读全文

posted @ 2019-01-03 20:31 o_0的园子阅读(258) 评论(0) 推荐(0)

大数据学习——下载集群根目录下的文件到E盘

摘要：代码如下：此时会报空指针异常修改后代码如下：注意，出现以上的问题是没有配环境变量造成的 window下开发的说明建议在linux下进行hadoop应用的开发，不会存在兼容性问题。如在window上做客户端应用开发，需要设置以下环境： A、用老师给的windows平台下编译的hadoop安装包阅读全文

posted @ 2019-01-03 19:32 o_0的园子阅读(506) 评论(0) 推荐(0)

大数据学习——上传本地文件到集群根目录下

摘要：此时报错，权限不足：修改后的代码（伪造一个root身份）：或者是运行时加一个参数： VM-arguements： -DHADOOP——USER_NAME=root 阅读全文

posted @ 2019-01-03 19:12 o_0的园子阅读(1416) 评论(0) 推荐(0)

大数据学习——java操作hdfs环境搭建以及环境测试

摘要：1 新建一个maven项目打印根目录下的文件的名字添加pom依赖 pom.xml 2 测试运行结果如下图阅读全文

posted @ 2019-01-02 23:42 o_0的园子阅读(640) 评论(0) 推荐(0)

大数据学习——hadoop2.x集群搭建

摘要：1.准备Linux环境 1.0先将虚拟机的网络模式选为NAT 1.1修改主机名 vi /etc/sysconfig/network NETWORKING=yes HOSTNAME=itcast ### 1.2修改IP 两种方式：第一种：通过Linu... 阅读全文

posted @ 2019-01-02 22:24 o_0的园子阅读(178) 评论(0) 推荐(0)

大数据学习——数据流程图

摘要：1) 数据采集：定制开发采集程序，或使用开源框架FLUME 2) 数据预处理：定制开发mapreduce程序运行于hadoop集群 3) 数据仓库技术：基于hadoop之上的Hive 4) 数据导出：基于hadoop的sqoop数据导入导出工具 5) 数据可视化：定制开发web程序或使用kettle 阅读全文

posted @ 2019-01-02 22:14 o_0的园子阅读(1559) 评论(0) 推荐(0)

大数据学习——三大组件总结

摘要：#解决海量数据的存储问题分布式文件系统（HDFS） 1、具有分布式的集群结构我们把这样实际存储数据的节点叫做 datanode 2、具有一个统一对外提供查询存储搜索机器节点对外跟客户端统一打交道对内跟实际存储数据的节点打交道 3、具有备份的机制解决了机器挂掉时候数据丢失的问题 4、具阅读全文

posted @ 2019-01-02 21:17 o_0的园子阅读(1044) 评论(0) 推荐(0)