摘要: MySQL server PID file could not be found! Starting MySQL...The server quit without updating PID file (/usr/local/mysql/data/rekfan.pid). 解决办法如下图所示: 阅读全文
posted @ 2017-04-16 17:28 ahu-lichang 阅读(3516) 评论(0) 推荐(0) 编辑
摘要: 1. 安装JDK 1.上传jdk-7u45-linux-x64.tar.gz到Linux上(使用WinSCP工具) 2.解压jdk到/usr/local目录 tar -zxvf jdk-7u45-linux-x64.tar.gz -C /usr/local/ 解压后放到/usr/local/下 rm 阅读全文
posted @ 2017-04-16 16:52 ahu-lichang 阅读(380) 评论(0) 推荐(0) 编辑
摘要: 1.修改主机名 vi /etc/sysconfig/network 2.修改ip地址 vi /etc/sysconfig/network-scripts/ifcfg-eth0 ONBOOT=yes 指明在系统启动时是否激活网卡,只有在激活状态的网卡才能去连接网络,进行网络通讯 BOOTPROTO=s 阅读全文
posted @ 2017-04-16 10:09 ahu-lichang 阅读(282) 评论(0) 推荐(0) 编辑
摘要: SSH免密登录机制:(见下图) 1、A先使用ssh-keygen生成一对公钥和私钥;ssh-keygen 2、将A的公钥复制给B一份,并且将其追加到B的授权文件中;ssh-copy-id B 3、接下来ssh B,就能免密登录。 为什么将A的公钥拷给B中的授权文件中就能免密登录了呢? 因为在执行ss 阅读全文
posted @ 2017-04-15 18:28 ahu-lichang 阅读(263) 评论(0) 推荐(0) 编辑
摘要: NAT虚拟网络配置(Linux能上网) 1、先设置虚拟机的虚拟网络,设置里面的子网ip和网关ip地址; 有两种方式:①setup命令(不选DHCP,因为它是动态分配IP地址的) ②vi /etc/sysconfig/network-scripts/ifcfg-eth0 IPADDR=192.168. 阅读全文
posted @ 2017-04-14 23:00 ahu-lichang 阅读(408) 评论(0) 推荐(0) 编辑
摘要: Linux详细安装步骤(CentOS_6.7_64位) 1、先安装好VMware10软件 2、验证VM是否安装成功: (有些机器在安装vmware的时候会出现一个错误:virtual XT,这需要重启电脑<按F2/按DELET/.........>进入BIOS,开启这个虚拟加速开关) (有些WIND 阅读全文
posted @ 2017-04-14 17:29 ahu-lichang 阅读(599) 评论(0) 推荐(0) 编辑
摘要: 远程登录Linux中的MySQL时,如果直接在工具中创建数据库时,有可能出现下面图中这样的错误: 这种错误是在远程登录时造成的,如果直接在Linux中本地操作没有问题(在Linux中的MySQL下,通过sql语句操作不会出现这样的错误)。 造成错误原因:远程登录,创建数据库时,出现权限不足!!! 解 阅读全文
posted @ 2017-04-13 11:00 ahu-lichang 阅读(14470) 评论(0) 推荐(0) 编辑
摘要: 日志数据分析:1.背景1.1 hm论坛日志,数据分为两部分组成,原来是一个大文件,是56GB;以后每天生成一个文件,大约是150-200MB之间;1.2 日志格式是apache common日志格式;每行记录有5部分组成:访问ip、访问时间、访问资源、访问状态、本次流量;27.19.74.143 - 阅读全文
posted @ 2017-04-11 22:45 ahu-lichang 阅读(5067) 评论(1) 推荐(0) 编辑
摘要: shell编程:对于hadoop程序员,通常需要熟悉shell编程,因为shell可以非常方便的运行程序代码。 1、shell文件格式:xxx.sh #!/bin/sh shell文件第一行必须这么写#井号后面的内容是注释echo 'abcd' echo是输出,回显 在hadoop0:mkdir s 阅读全文
posted @ 2017-04-11 10:53 ahu-lichang 阅读(735) 评论(0) 推荐(0) 编辑
摘要: date命令的帮助信息 [root@localhost source]# date --help用法:date [选项]... [+格式] 或:date [-u|--utc|--universal] [MMDDhhmm[[CC]YY][.ss]]以给定的格式显示当前时间,或是设置系统日期。 -d,- 阅读全文
posted @ 2017-04-11 09:19 ahu-lichang 阅读(271) 评论(0) 推荐(0) 编辑
摘要: 1.flume是分布式的日志收集系统,把收集来的数据传送到目的地去。2.flume里面有个核心概念,叫做agent。agent是一个java进程,运行在日志收集节点。通过agent接收日志,然后暂存起来,再发送到目的地。3.agent里面包含3个核心组件:source、channel、sink。 3 阅读全文
posted @ 2017-04-10 11:31 ahu-lichang 阅读(514) 评论(0) 推荐(0) 编辑
摘要: SQOOP是用于对数据进行导入导出的。 (1)把MySQL、Oracle等数据库中的数据导入到HDFS、Hive、HBase中 (2)把HDFS、Hive、HBase中的数据导出到MySQL、Oracle等数据库中 SQOOP的安装(在hadoop0上) 解压缩 tar -zxvf sqoop... 阅读全文
posted @ 2017-04-09 18:51 ahu-lichang 阅读(429) 评论(0) 推荐(0) 编辑
摘要: 1.Hive1.1 在hadoop生态圈中属于数据仓库的角色。他能够管理hadoop中的数据,同时可以查询hadoop中的数据。 本质上讲,hive是一个SQL解析引擎。Hive可以把SQL查询转换为MapReduce中的job来运行。 hive有一套映射工具,可以把SQL转换为MapReduce中 阅读全文
posted @ 2017-04-08 22:45 ahu-lichang 阅读(4225) 评论(0) 推荐(0) 编辑
摘要: 1.Pig是基于hadoop的一个数据处理的框架。 MapReduce是使用java进行开发的,Pig有一套自己的数据处理语言,Pig的数据处理过程要转化为MR来运行。2.Pig的数据处理语言是数据流方式的,类似于初中做的数学题。3.Pig基本数据类型:int、long、float、double、c 阅读全文
posted @ 2017-04-08 12:00 ahu-lichang 阅读(4004) 评论(0) 推荐(0) 编辑
摘要: HBase集群的搭建(在《HBase伪分布式安装》基础上搭建) 1 集群结构,主节点(hmaster)是hadoop0,从节点(region server)是hadoop1和hadoop22 修改hadoop0上的hbase的几个文件 (1)修改hbase-env.sh的最后一行export HBA 阅读全文
posted @ 2017-04-07 23:10 ahu-lichang 阅读(242) 评论(0) 推荐(0) 编辑
摘要: HBase结合MapReduce批量导入 在eclipse中将上面代码运行成功后,就可以去HBase shell中查看结果: 阅读全文
posted @ 2017-04-07 22:00 ahu-lichang 阅读(4172) 评论(0) 推荐(0) 编辑
摘要: 1 package hbase; 2 3 import org.apache.hadoop.conf.Configuration; 4 import org.apache.hadoop.hbase.HBaseConfiguration; 5 import org.apache.hadoop.hbase.HColumnDescriptor; 6 import org.apache.h... 阅读全文
posted @ 2017-04-07 21:49 ahu-lichang 阅读(547) 评论(0) 推荐(0) 编辑
摘要: HBase shell 进入到HBase shell中:/usr/local/hbase/bin/hbase shell HBase shell的DDL操作 HBase shell的DML操作 阅读全文
posted @ 2017-04-07 12:30 ahu-lichang 阅读(245) 评论(0) 推荐(0) 编辑
摘要: HBase伪分布安装(前提条件:本机或集群环境下hadoop.1.1.2已经安装成功《hadoop集群的搭建(分布式安装)》 )1 解压缩、重命名、设置环境变量vi /etc/profile export HBASE_HOME=/usr/local/hbase export PATH=.:$HBAS 阅读全文
posted @ 2017-04-06 23:15 ahu-lichang 阅读(406) 评论(0) 推荐(0) 编辑
摘要: 1.HBase(NoSQL:不是关系型数据库)的逻辑数据模型 HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase利用Hadoop HDFS作为其文件存储系统,利用 阅读全文
posted @ 2017-04-06 21:54 ahu-lichang 阅读(557) 评论(0) 推荐(0) 编辑
摘要: ZooKeeper 作用:Zookeeper 可以用来保证数据在zk集群之间的数据的事务性一致(原子操作)。 介绍:Zookeeper 是 Google 的 Chubby一个开源的实现,是 Hadoop 的分布式协调服务。 它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名 阅读全文
posted @ 2017-04-05 23:42 ahu-lichang 阅读(477) 评论(0) 推荐(0) 编辑
摘要: 集群 计算机集群是一种计算机系统,他通过一组松散集成的计算机软件和硬件连接起来高度紧密地协同完成计算工作。 集群系统中的单个计算机通常称为节点,通常通过局域网连接。 集群技术的特点: 1、通过多台计算机完成同一个工作。达到更高的效率 2、两机或多机内容、工作过程等完全一样。如果一台死机,另一台可以起 阅读全文
posted @ 2017-04-04 23:08 ahu-lichang 阅读(559) 评论(0) 推荐(0) 编辑
摘要: shuffle的过程分析 shuffle阶段其实就是之前《MapReduce的原理及执行过程》中的步骤2.1。多个map任务的输出,按照不同的分区,通过网络copy到不同的reduce节点上。 Map端: 1、在map端首先接触的是InputSplit,在InputSplit中含有DataNode中 阅读全文
posted @ 2017-04-04 16:08 ahu-lichang 阅读(9765) 评论(9) 推荐(1) 编辑
摘要: 自定义分组 job.setGroupingComparatorClass(MyGroupingComparator.class); //按照第一列进行分组,然后找出每个分组中的第二列中的最小值 为什么要自定义分组? 业务要求分组是按照第一列分组,但是NewK2的比较规则决定了不能按照第一列分。只能自 阅读全文
posted @ 2017-04-04 15:08 ahu-lichang 阅读(633) 评论(0) 推荐(0) 编辑
摘要: 自定义排序 将两列数据进行排序,第一列按照升序排列,当第一列相同时,第二列升序排列。 在map和reduce阶段进行排序时,比较的是k2。v2是不参与排序比较的。如果要想让v2也进行排序,需要把k2和v2组装成新的类,作为k2,才能参与比较。 Hadoop序列化 序列化概念: 序列化:把结构化对象转 阅读全文
posted @ 2017-04-04 13:49 ahu-lichang 阅读(1030) 评论(0) 推荐(0) 编辑
摘要: MapReduce常见算法 单词计数 数据去重 排序 Top K 选择 以求最值为例,从100万数据中选出一行最小值 投影 以求处理手机上网日志为例,从其11个字段选出了五个字段(列)来显示我们的手机上网流量 分组 相当于分区,以求处理手机上网日志为例,喊手机号和非手机号分为两组 多表连接 单表关联 阅读全文
posted @ 2017-04-03 11:57 ahu-lichang 阅读(964) 评论(0) 推荐(0) 编辑
摘要: 使用自定义partitioner来处理手机上网日志信息 为什么要使用分区? 1.根据业务需要,产生多个输出文件 2.多个reduce任务在运行,提高整体job的运行效率 将上面代码打包导出,复制到Linux中,然后在命令行下执行并查看结果,也可以在chaoren:50030中查看到作业的相关情况 阅读全文
posted @ 2017-04-01 23:24 ahu-lichang 阅读(8560) 评论(0) 推荐(0) 编辑
摘要: Combiner编程(1.5可选步骤,视情况而定!) 每一个map可能会产生大量的输出,combiner的作用就是在map端对输出先做一次合并,以减少传输到reducer的数据量。 combiner最基本是实现本地key的归并,combiner具有类似本地的reduce功能。 如果不用combine 阅读全文
posted @ 2017-04-01 21:32 ahu-lichang 阅读(6106) 评论(2) 推荐(2) 编辑
摘要: 自定义计数器的使用(记录敏感单词) 在eclipse中运行后,可以在控制台查看到结果: 阅读全文
posted @ 2017-04-01 15:49 ahu-lichang 阅读(412) 评论(0) 推荐(0) 编辑
摘要: WordCountApp命令行运行时指定参数 1、修改之前的WordCountApp.java的代码 2、修改完之后,不是在eclipse中运行,而是要打包导出,然后通过WinSCP复制到Linux中/usr/local目录下。 3、在Linux命令行中运行,运行成功后,在查看运行后的结果。 阅读全文
posted @ 2017-04-01 00:07 ahu-lichang 阅读(610) 评论(0) 推荐(0) 编辑
摘要: 使用Hadoop版本0.x实现单词统计 查看结果: 阅读全文
posted @ 2017-03-31 17:27 ahu-lichang 阅读(331) 评论(0) 推荐(0) 编辑
摘要: job提交源码分析 在eclipse中的写的代码如何提交作业到JobTracker中的哪?(1)在eclipse中调用的job.waitForCompletion(true)实际上执行如下方法 connect(); info = jobClient.submitJobInternal(conf); 阅读全文
posted @ 2017-03-30 23:19 ahu-lichang 阅读(672) 评论(0) 推荐(0) 编辑
摘要: MapReduce简介 MapReduce执行流程 MapReduce原理 MapReduce的执行步骤: 1、Map任务处理 1.1 读取HDFS中的文件。每一行解析成一个<k,v>。每一个键值对调用一次map函数。 <0,hello you> <10,hello me> 1.2 覆盖map(), 阅读全文
posted @ 2017-03-30 11:20 ahu-lichang 阅读(113779) 评论(4) 推荐(7) 编辑
摘要: 在eclipse中调用JavaAPI实现HDFS中的相关操作 1、创建一个java工程 2、右键工程,在属性里添加上hadoop解压后的相关jar包(hadoop目录下的jar包和lib目录下的jar包) 3、调用相关代码,实现相关hdfs操作 RPC 1.1 RPC (remote procedu 阅读全文
posted @ 2017-03-29 21:28 ahu-lichang 阅读(1772) 评论(0) 推荐(1) 编辑
摘要: Bad connection to FS. command aborted. exception: Call to chaoren/192.168.80.100:9000 failed on connection exception: java.net.ConnectException: Conne 阅读全文
posted @ 2017-03-29 12:18 ahu-lichang 阅读(631) 评论(0) 推荐(0) 编辑
摘要: HDFS fs 常用命令 1.对hdfs操作的命令格式是hadoop fs 1.1 -ls <path> 表示对hdfs下一级目录的查看 hadoop fs -ls hdfs://chaoren:9000/ 对HDFS的根目录进行查看(Linux下:ls /) path:这个可以使用more cor 阅读全文
posted @ 2017-03-29 12:11 ahu-lichang 阅读(312) 评论(0) 推荐(0) 编辑
摘要: Hadoop简单介绍 Hadoop:适合大数据分布式存储与计算的平台。 Hadoop两大核心项目: 1、HDFS:Hadoop分布式文件系统 HDFS的架构: 主从结构: 主节点,只有一个:namenode 1、接收用户操作请求 2、维护文件系统的目录结构 3、管理文件与block之间关系,bloc 阅读全文
posted @ 2017-03-27 22:23 ahu-lichang 阅读(270) 评论(0) 推荐(0) 编辑
摘要: Hadoop学习前准备工作 1、安装虚拟机(常用虚拟机:VirtualBox、VMWare)2、安装Linux操作系统(可以直接将打包好的Linux操作系统的镜像文件拿来用,鼠标右键打开,打开方式选择一个虚拟机即可。) 常见Linux操作系统:Redhat、centos、ubuntu3、打开虚拟机后 阅读全文
posted @ 2017-03-27 22:12 ahu-lichang 阅读(1012) 评论(0) 推荐(1) 编辑
摘要: 使用ContentProvider(内容提供者)共享数据 ContentProvider 在android中的作用是对外共享数据,也就是说你可以通过ContentProvider把应用中的数据共享给其他应用访问,其他应用可以通过ContentProvider 对你应用中的数据进行添删改查。关于数据共 阅读全文
posted @ 2017-03-26 15:10 ahu-lichang 阅读(215) 评论(0) 推荐(0) 编辑
摘要: 什么是服务? windows下的服务:没有界面、长期运行在后台的应用程序;android下的服务:应用程序的一个组件,没有界面activity,长期运行在后台; 进程:是应用程序运行的载体。进程与应用程序之间的关系: linux操作系统创建一个进程,这个进程负责运行dalvik虚拟机,Android 阅读全文
posted @ 2017-03-24 22:56 ahu-lichang 阅读(284) 评论(0) 推荐(0) 编辑