打赏

12 2016 档案

摘要:net命令可以完成非常多的任务。通过键入 net /? 可以查看net命令的详细列表。 在所有的Windows机器上,net命令使用统一的命令集合,这对于网络管理员来说是非常方便的。 使用net命令可以:(1)查看网络上的用户,(2)查看计算机的配置,(3)创建新用户,(4)创建网络共享 1、单击“ 阅读全文
posted @ 2016-12-24 09:01 大数据和AI躺过的坑 阅读(3939) 评论(0) 推荐(0) 编辑
摘要:地址解析协议ARP用于将IP地址解析成MAC地址。当把数据包从一个计算机发送到另一个计算机的时候,计算机或路由器使用ARP请求来确定下一跳的MAC地址。 MAC地址用于按跳发送数据包,直到达到最终目的地。 ARP命令是确定IP地址和MAC地址对应关系正确与否的最简单方式。 1、单击“开始” -> “ 阅读全文
posted @ 2016-12-24 08:36 大数据和AI躺过的坑 阅读(1513) 评论(0) 推荐(0) 编辑
摘要:nslookup命令可以从本地DNS服务器中查看所有的IP地址和域名信息(它就像一本互联网电话簿)。例如,想要找到www.baidu.com的IP地址就可以使用nslookup命令。 nslookup命令对于解决DNS问题也是非常有用的。 使用nslookup命令有两种模式(非交互式和交互式)。更多 阅读全文
posted @ 2016-12-24 08:28 大数据和AI躺过的坑 阅读(2293) 评论(0) 推荐(0) 编辑
摘要:netstat命令会罗列出当前所有的网络连接、连接统计以及路由表信息。默认情况下,netstat命令将罗列出本地计算机所有开启的端口情况,以及它所连接的外部计算机情况。 端口就像一所房子的房门一样。数据包被投递到一个具体的IP地址(位置)和端口(入口)上面。同房子的功能一样,必须要有地理位置和大门, 阅读全文
posted @ 2016-12-23 14:46 大数据和AI躺过的坑 阅读(2085) 评论(0) 推荐(0) 编辑
摘要:trace route(windows命令为tracert,Linux命令为traceroute)命令可以列出本地计算机与目标计算机之间所有经过的计算机信息。可以输入目标计算机的名字(如www.baidu.com)或IP地址。 tracert命令可以用于诊断路由问题、延时问题和网络瓶颈问题。 pat 阅读全文
posted @ 2016-12-23 10:18 大数据和AI躺过的坑 阅读(3417) 评论(0) 推荐(0) 编辑
摘要:ping命令能够用于判断一个主机是否可达或者是否存活。它的工作原理就像潜水艇的探测原理一样。该命令通过向目标计算机发送一个数据包,请求目标计算机回送该数据包以表明自己还存活着。同时该命令还能够知道数据包的来回需要多长时间,知道数据包的丢失情况。如果想知道一个服务器或计算机是否正在进行,该命令是非常有 阅读全文
posted @ 2016-12-23 08:19 大数据和AI躺过的坑 阅读(2320) 评论(0) 推荐(0) 编辑
摘要:Spark本身是基于内存计算的架构,数据的存储也主要分为内存和磁盘两个路径。Spark本身则根据存储位置、是否可序列化和副本数目这几个要素将数据存储分为多种存储级别。此外还可选择使用Tachyon来管理内存数据。 为了适应迭代计算,Spark将经常被重要的数据缓存到内存中以提升数据读取速度,当内存容 阅读全文
posted @ 2016-12-16 09:36 大数据和AI躺过的坑 阅读(2057) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上代码。 代码 阅读全文
posted @ 2016-12-14 00:12 大数据和AI躺过的坑 阅读(705) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上代码。 代码 阅读全文
posted @ 2016-12-14 00:05 大数据和AI躺过的坑 阅读(522) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上代码。 代码 阅读全文
posted @ 2016-12-14 00:02 大数据和AI躺过的坑 阅读(1576) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上代码。 代码 阅读全文
posted @ 2016-12-13 23:58 大数据和AI躺过的坑 阅读(827) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上代码。 代码 阅读全文
posted @ 2016-12-13 23:53 大数据和AI躺过的坑 阅读(1005) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上代码。 代码版本1 代码版本2 阅读全文
posted @ 2016-12-13 23:49 大数据和AI躺过的坑 阅读(680) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上代码。 代码版本1 代码版本2 阅读全文
posted @ 2016-12-13 23:38 大数据和AI躺过的坑 阅读(2540) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上代码。 代码版本1 在Hadoop集群里测试的代码版本 在Eclipse/MyEclipse集群里测试的代码版本 代码版本2 阅读全文
posted @ 2016-12-13 23:26 大数据和AI躺过的坑 阅读(2451) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上代码。 代码版本1 代码版本2 阅读全文
posted @ 2016-12-13 23:12 大数据和AI躺过的坑 阅读(8932) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上代码。 Hadoop MapReduce编程 API入门系列之小文件合并(二十九) 生成的结果,作为输入源。 代码 package zhouls.bigdata.myMapReduce.ParseTVDataCompressAndCounter; import java.net.URI 阅读全文
posted @ 2016-12-13 21:08 大数据和AI躺过的坑 阅读(408) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上代码。 Hadoop 自身提供了几种机制来解决相关的问题,包括HAR,SequeueFile和CombineFileInputFormat。 Hadoop 自身提供的几种小文件合并机制 Hadoop HAR 将众多小文件打包成一个大文件进行存储,并且打包后原来的文件仍然可以通过Map- 阅读全文
posted @ 2016-12-13 20:48 大数据和AI躺过的坑 阅读(4060) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上代码。 Map output bytes=247 Map output materialized bytes=275 Input split bytes=139 Combine input records=0 Combine output records=0 Reduce input 阅读全文
posted @ 2016-12-13 19:18 大数据和AI躺过的坑 阅读(862) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上代码。 MapReduce 计数器是什么? 计数器是用来记录job的执行进度和状态的。它的作用可以理解为日志。我们可以在程序的某个位置插入计数器,记录数据或者进度的变化情况。 MapReduce 计数器能做什么? MapReduce 计数器(Counter)为我们提供一个窗口,用于观察 阅读全文
posted @ 2016-12-13 11:34 大数据和AI躺过的坑 阅读(477) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上代码。 天气记录数据库 气象站数据库 气象站和天气记录合并之后的示意图如下所示。 连接操作的具体实现技术取决于数据集的规模及分区方式。如果一个数据集很大而另外一个集合很小,以至于可以分发到集群中的每一个节点之中, 则可以执行一个 MapReduce 作业,将各个气象站的天气记录放到一块 阅读全文
posted @ 2016-12-12 23:01 大数据和AI躺过的坑 阅读(804) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上代码。 一共12列,我们只需提取有用的列:第二列(犯罪类型)、第四列(一周的哪一天)、第五列(具体时间)和第七列(犯罪场所)。 思路分析 基于项目的需求,我们通过以下几步完成: 1、首先根据数据集,分别统计出不同犯罪类别在周时段内发生犯罪次数和不同区域在周时段内发生犯罪的次数。 2、然 阅读全文
posted @ 2016-12-12 22:38 大数据和AI躺过的坑 阅读(1006) 评论(0) 推荐(1) 编辑
摘要:不多说,直接上代码。 2016-12-12 21:54:04,509 INFO [org.apache.hadoop.metrics.jvm.JvmMetrics] - Initializing JVM Metrics with processName=JobTracker, sessionId=2 阅读全文
posted @ 2016-12-12 21:58 大数据和AI躺过的坑 阅读(932) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上代码。 代码 package zhouls.bigdata.myMapReduce.friend; import org.apache.hadoop.io.Text; public class Fof extends Text{//自定义Fof,表示f1和f2关系 public Fof 阅读全文
posted @ 2016-12-12 21:35 大数据和AI躺过的坑 阅读(519) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上代码。 对流量原始日志进行流量统计,将不同省份的用户统计结果输出到不同文件。 代码 package zhouls.bigdata.myMapReduce.flowsum; import java.io.DataInput;import java.io.DataOutput;import 阅读全文
posted @ 2016-12-12 20:50 大数据和AI躺过的坑 阅读(395) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上代码。 对流量原始日志进行流量统计,将不同省份的用户统计结果输出到不同文件。 代码 package zhouls.bigdata.myMapReduce.areapartition; import java.io.DataInput;import java.io.DataOutput; 阅读全文
posted @ 2016-12-12 20:22 大数据和AI躺过的坑 阅读(340) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上代码。 假如这里有一份邮箱数据文件,我们期望统计邮箱出现次数并按照邮箱的类别,将这些邮箱分别输出到不同文件路径下。 代码版本1 代码版本1 阅读全文
posted @ 2016-12-12 19:54 大数据和AI躺过的坑 阅读(1303) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上代码。 统计出每个年龄段的 男、女 学生的最高分 这里,为了空格符的差错,直接,我们有时候,像如下这样的来排数据。 代码 或者 代码 阅读全文
posted @ 2016-12-12 19:37 大数据和AI躺过的坑 阅读(970) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上代码。 代码 阅读全文
posted @ 2016-12-12 19:23 大数据和AI躺过的坑 阅读(826) 评论(1) 推荐(0) 编辑
摘要:不多说,直接上代码。 代码 IntPair.java SecondarySort.java 阅读全文
posted @ 2016-12-12 17:16 大数据和AI躺过的坑 阅读(997) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上代码。 Iteration: 1= Input path: out/shortestpath/input.txt= Output path: out/shortestpath/1 2016-12-12 16:37:05,638 INFO [org.apache.hadoop.metri 阅读全文
posted @ 2016-12-12 16:42 大数据和AI躺过的坑 阅读(938) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上代码。 代码 阅读全文
posted @ 2016-12-12 16:33 大数据和AI躺过的坑 阅读(597) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上干货! 下面,是版本1。 Hadoop MapReduce编程 API入门系列之挖掘气象数据版本1(一) 下面是版本2。 Hadoop MapReduce编程 API入门系列之挖掘气象数据版本2(九) 这篇博客,给大家,体会不一样的版本编程。 代码 欢迎大家,加入我的微信公众号:大数据 阅读全文
posted @ 2016-12-12 15:33 大数据和AI躺过的坑 阅读(550) 评论(0) 推荐(0) 编辑
摘要:推荐 MapReduce分析明星微博数据 http://git.oschina.net/ljc520313/codeexample/tree/master/bigdata/hadoop/mapreduce/05.%E6%98%8E%E6%98%9F%E5%BE%AE%E5%8D%9A%E6%95%B 阅读全文
posted @ 2016-12-12 15:18 大数据和AI躺过的坑 阅读(2639) 评论(0) 推荐(0) 编辑
摘要:推荐 MapReduce分析明星微博数据 http://git.oschina.net/ljc520313/codeexample/tree/master/bigdata/hadoop/mapreduce/05.%E6%98%8E%E6%98%9F%E5%BE%AE%E5%8D%9A%E6%95%B 阅读全文
posted @ 2016-12-12 14:43 大数据和AI躺过的坑 阅读(505) 评论(0) 推荐(0) 编辑
摘要:下面,是版本1。 Hadoop MapReduce编程 API入门系列之挖掘气象数据版本1(一) 这篇博文,包括了,实际生产开发非常重要的,单元测试和调试代码。这里不多赘述,直接送上代码。 MRUnit 框架 MRUnit是Cloudera公司专为Hadoop MapReduce写的单元测试框架,A 阅读全文
posted @ 2016-12-12 12:27 大数据和AI躺过的坑 阅读(814) 评论(0) 推荐(0) 编辑
摘要:这篇博客,给大家,体会不一样的版本编程。 代码 package zhouls.bigdata.myMapReduce.wordcount1; import java.io.IOException; import org.apache.commons.lang.StringUtils;import o 阅读全文
posted @ 2016-12-12 11:32 大数据和AI躺过的坑 阅读(508) 评论(0) 推荐(0) 编辑
摘要:这篇博客,给大家,体会不一样的版本编程。 是将map、combiner、shuffle、reduce等分开放一个.java里。则需要实现Tool。 代码 阅读全文
posted @ 2016-12-12 11:05 大数据和AI躺过的坑 阅读(473) 评论(0) 推荐(0) 编辑
摘要:这篇博客,给大家,体会不一样的版本编程。 代码 阅读全文
posted @ 2016-12-12 10:55 大数据和AI躺过的坑 阅读(404) 评论(0) 推荐(0) 编辑
摘要:这篇博客,给大家,体会不一样的版本编程。 代码 //System.setProperty("HADOOP_USER_NAME", "root");////1、MR执行环境有两种:本地测试环境,服务器环境// //本地测试环境(windows):(便于调试)// 在windows的hadoop目录bi 阅读全文
posted @ 2016-12-12 10:50 大数据和AI躺过的坑 阅读(432) 评论(0) 推荐(0) 编辑
摘要:这个很简单哈,编程的版本很多种。 代码版本1 代码版本3 代码版本2 阅读全文
posted @ 2016-12-12 10:38 大数据和AI躺过的坑 阅读(1313) 评论(0) 推荐(0) 编辑
摘要:背景: win7 旗舰版 64位+VMware 11.0 启动虚拟机时报错 问题: 已将该虚拟机配置为使用 64 位客户机操作系统。但是,无法执行 64 位操作。 此主机支持 Intel VT-x,但 Intel VT-x 处于禁用状态。 如果已在 BIOS/固件设置中禁用 Intel VT-x,或 阅读全文
posted @ 2016-12-12 10:01 大数据和AI躺过的坑 阅读(23904) 评论(0) 推荐(1) 编辑
摘要:HBase里的RowKey设计,分为随机查询的RowKey设计和连续查询的RowKey设计。 阅读全文
posted @ 2016-12-11 18:08 大数据和AI躺过的坑 阅读(656) 评论(0) 推荐(0) 编辑
摘要:在下面这篇博文里,我给各位博客们,分享了创建HBase表,但这远不止打好基础。 HBase编程 API入门系列之create(管理端而言)(8) 在关系型数据库里,表的高表和宽表是不存在的。在如HBase这样的NoSQL里,才是存在。 HBase里的长表VS宽表VS窄表 在不同场景,结合使用到底是高 阅读全文
posted @ 2016-12-11 17:51 大数据和AI躺过的坑 阅读(700) 评论(0) 推荐(0) 编辑
摘要:在下面这篇博文里,我给各位博客们,分享了创建HBase表,但这远不止打好基础。 HBase编程 API入门系列之create(管理端而言)(8) 在关系型数据库里,表的高表和宽表是不存在的。在如HBase这样的NoSQL里,才是存在。 HBase里的长表VS宽表VS窄表 HBASE宽表应用很多 比如 阅读全文
posted @ 2016-12-11 17:51 大数据和AI躺过的坑 阅读(4192) 评论(0) 推荐(0) 编辑
摘要:这里,我带领大家,学习更高级的,因为,在开发中,尽量不能去服务器上修改表。 所以,在管理端来修改HBase表。采用线程池的方式(也是生产开发里首推的) package zhouls.bigdata.HbaseProject.Pool; import java.io.IOException;impor 阅读全文
posted @ 2016-12-11 17:13 大数据和AI躺过的坑 阅读(929) 评论(0) 推荐(0) 编辑
摘要:大家,若是看过我前期的这篇博客的话,则 HBase编程 API入门之delete(客户端而言) 就知道,在这篇博文里,我是在客户端里删除HBase表的。 这里,我带领大家,学习更高级的,因为,在开发中,尽量不能客户端上删除表。 所以,在管理端来删除HBase表。采用线程池的方式(也是生产开发里首推的 阅读全文
posted @ 2016-12-11 16:28 大数据和AI躺过的坑 阅读(739) 评论(0) 推荐(0) 编辑
摘要:大家,若是看过我前期的这篇博客的话,则 HBase编程 API入门系列之put(客户端而言)(1) 就知道,在这篇博文里,我是在HBase Shell里创建HBase表的。 这里,我带领大家,学习更高级的,因为,在开发中,尽量不能去服务器上创建表。 所以,在管理端来创建HBase表。采用线程池的方式 阅读全文
posted @ 2016-12-11 15:57 大数据和AI躺过的坑 阅读(4262) 评论(0) 推荐(0) 编辑
摘要:这是从程度开发层面来说,为了方便和提高开发人员。 这个工具Bytes类,有很多很多方法,帮助我们HBase编程开发人员,提高开发。 这里,我只赘述,很常用的! hellomaizi hellomaizihello hellomaizihelloizi 这里,我只是做一个,抛砖引玉的作用,大家,一定要 阅读全文
posted @ 2016-12-11 13:03 大数据和AI躺过的坑 阅读(3245) 评论(0) 推荐(0) 编辑
摘要:HTable是一个比较重的对此,比如加载配置文件,连接ZK,查询meta表等等,高并发的时候影响系统的性能,因此引入了“池”的概念。 引入“HBase里的连接池”的目的是: 为了更高的,提高程序的并发和访问速度。 从“池”里去拿,拿完之后,放“池”即可。 转到程序里,怎么来用这个“池”呢? 即,Ta 阅读全文
posted @ 2016-12-11 12:48 大数据和AI躺过的坑 阅读(2536) 评论(0) 推荐(0) 编辑
摘要:问题详情是 2016-12-10 23:24:13,317 INFO [org.apache.hadoop.metrics.jvm.JvmMetrics] - Initializing JVM Metrics with processName=JobTracker, sessionId=2016-1 阅读全文
posted @ 2016-12-10 23:27 大数据和AI躺过的坑 阅读(5318) 评论(0) 推荐(0) 编辑
摘要:心得,写在前面的话,也许,中间会要多次执行,连接超时,多试试就好了。 2016-12-10 17:24:08,394 INFO [org.apache.hadoop.hbase.zookeeper.RecoverableZooKeeper] - Process identifier=hconnect 阅读全文
posted @ 2016-12-10 17:43 大数据和AI躺过的坑 阅读(3039) 评论(0) 推荐(0) 编辑
摘要:心得,写在前面的话,也许,中间会要多次执行,连接超时,多试试就好了。 delete.deleteColumn和delete.deleteColumns区别是: deleteColumn是删除某一个列簇里的最新时间戳版本。 delete.deleteColumns是删除某个列簇里的所有时间戳版本。 h 阅读全文
posted @ 2016-12-10 17:19 大数据和AI躺过的坑 阅读(3083) 评论(0) 推荐(0) 编辑
摘要:若是删除不存在的列修饰符,看下会是什么情况 package zhouls.bigdata.HbaseProject.Test1; import javax.xml.transform.Result; import org.apache.hadoop.conf.Configuration;import 阅读全文
posted @ 2016-12-10 16:18 大数据和AI躺过的坑 阅读(4664) 评论(0) 推荐(0) 编辑
摘要:心得,写在前面的话,也许,中间会要多次执行,连接超时,多试试就好了。 前面的基础,如下 HBase编程 API入门系列之put(客户端而言)(1) HBase编程 API入门系列之get(客户端而言)(2) hbase(main):001:0> scan 'test_table2'ROW COLUM 阅读全文
posted @ 2016-12-10 16:04 大数据和AI躺过的坑 阅读(1069) 评论(0) 推荐(0) 编辑
摘要:心得,写在前面的话,也许,中间会要多次执行,连接超时,多试试就好了。 前面是基础,如下 HBase编程 API入门系列之put(客户端而言)(1) 2016-12-10 14:37:25,665 INFO [org.apache.hadoop.hbase.zookeeper.RecoverableZ 阅读全文
posted @ 2016-12-10 14:53 大数据和AI躺过的坑 阅读(2725) 评论(0) 推荐(0) 编辑
摘要:心得,写在前面的话,也许,中间会要多次执行,连接超时,多试试就好了。 [hadoop@HadoopSlave1 conf]$ cat regionservers HadoopMasterHadoopSlave1HadoopSlave2 <configuration> <property> <name 阅读全文
posted @ 2016-12-10 11:27 大数据和AI躺过的坑 阅读(2038) 评论(0) 推荐(0) 编辑
摘要:HBase集群要求每个节点的时间必须同步。HBase对于节点的时间扭曲(time skew)容忍度很低(这和HDFS是不一样的)。 这主要是因为HBase需要使用系统时间来产生时间戳。如果系统时间不同步的话,那么每个节点产生的时间戳差异就会比较大,这就违背了时间戳设计的初衷。 HBase对于节点间的 阅读全文
posted @ 2016-12-10 08:52 大数据和AI躺过的坑 阅读(7505) 评论(0) 推荐(0) 编辑
摘要:1节点 1 week110的zookeeper的安装 + zookeeper提供少量数据的存储 3节点 hadoop-2.6.0.tar.gz的集群搭建(3节点) hadoop-2.6.0-cdh5.4.5.tar.gz(CDH)的3节点集群搭建 5节点 hadoop-2.6.0.tar.gz的集群 阅读全文
posted @ 2016-12-09 18:30 大数据和AI躺过的坑 阅读(485) 评论(0) 推荐(0) 编辑
摘要:问题详细描述如下: 2016-12-09 15:10:39,160 ERROR [org.apache.hadoop.hbase.client.ConnectionManager$HConnectionImplementation] - The node /hbase is not in ZooKe 阅读全文
posted @ 2016-12-09 15:21 大数据和AI躺过的坑 阅读(11595) 评论(0) 推荐(0) 编辑
摘要:步骤一 若是,不会HBase开发环境搭建的博文们,见我下面的这篇博客。 HBase 开发环境搭建(Eclipse\MyEclipse + Maven) 步骤一里的,需要补充的。如下: 在项目名,右键, 然后,编写pom.xml,这里不多赘述。见 HBase 开发环境搭建(Eclipse\MyEcli 阅读全文
posted @ 2016-12-08 11:24 大数据和AI躺过的坑 阅读(514) 评论(0) 推荐(0) 编辑
摘要:hbase shell中执行java方法(高手必备),务必掌握! 1、 2、 3、 4、 更多命令,见scan help。在实际工作中,多用这个!!! API参考: http://hbase.apache.org/apidocs/index.html 阅读全文
posted @ 2016-12-08 11:00 大数据和AI躺过的坑 阅读(543) 评论(0) 推荐(0) 编辑
摘要:这部分知识点,是必须要熟练玩转的! 见 5 hbase-shell + hbase的java api 的进入HBase Shell 强烈建议,先看我上面的这篇博文,是实实际际的步骤。 另外,附上一篇很不多的PPT资料。 阅读全文
posted @ 2016-12-08 10:12 大数据和AI躺过的坑 阅读(482) 评论(0) 推荐(0) 编辑
摘要:见 5 hbase-shell + hbase的java api 阅读全文
posted @ 2016-12-08 09:46 大数据和AI躺过的坑 阅读(593) 评论(0) 推荐(0) 编辑
摘要:这个,很简单,但凡是略懂大数据的,就很清楚,不多说,直接上图。 阅读全文
posted @ 2016-12-08 09:39 大数据和AI躺过的坑 阅读(422) 评论(0) 推荐(0) 编辑
摘要:这个,很简单,但凡是略懂大数据的,就很清楚,不多说,直接上图。 阅读全文
posted @ 2016-12-08 09:21 大数据和AI躺过的坑 阅读(422) 评论(0) 推荐(0) 编辑
摘要:这个,很简单,但凡是略懂大数据的,就很清楚,不多说,直接上图。 阅读全文
posted @ 2016-12-08 09:20 大数据和AI躺过的坑 阅读(429) 评论(0) 推荐(0) 编辑
摘要:HFile文件是不定长的。 HFile里才是想要的真正数据,实际存储的位置,是在HDFS上。 阅读全文
posted @ 2016-12-08 09:18 大数据和AI躺过的坑 阅读(633) 评论(0) 推荐(0) 编辑
摘要:Store在HBase里称为HStore。HStore包括MemStore和StoreFiles。 阅读全文
posted @ 2016-12-08 09:11 大数据和AI躺过的坑 阅读(829) 评论(0) 推荐(0) 编辑
摘要:HBase里的4维坐标系统(第一步定位行键 -> 第二步定位列簇 -> 第三步定位列修饰符 -> 第四步定位时间戳) HBase里的4维坐标系统(第一步定位行键 -> 第二步定位列簇 -> 第三步定位列修饰符 -> 第四步定位时间戳) 行键,相当于第一步级索引。 列簇,相当于第二步级索引。 列修饰符 阅读全文
posted @ 2016-12-07 14:12 大数据和AI躺过的坑 阅读(600) 评论(0) 推荐(0) 编辑
摘要:HBase里的4维坐标系统(第一步定位行键 -> 第二步定位列簇 -> 第三步定位列修饰符 -> 第四步定位时间戳) HBase里的4维坐标系统(第一步定位行键 -> 第二步定位列簇 -> 第三步定位列修饰符 -> 第四步定位时间戳) 实际上,HBase的存储值,即一个键值对,是 { row key 阅读全文
posted @ 2016-12-07 14:07 大数据和AI躺过的坑 阅读(2422) 评论(0) 推荐(0) 编辑
摘要:列式数据库,从数据存储方式上有别于行式数据库,所有数据按列存取。 行式数据库在做一些列分析时,必须将所有列的信息全部读取出来 而列式数据库由于其是按列存取,因此只需在特定列做I/O即可完成查询与分析,效率节省90%。 此外,列式数据库在每列上还有专门的列压缩算法进一步提高数据库性能,这是行式数据库不 阅读全文
posted @ 2016-12-07 13:36 大数据和AI躺过的坑 阅读(750) 评论(0) 推荐(0) 编辑
摘要:我们通过行键访问HBase。尽管使用扫描过滤器可以一次性指明大量的键,但是HBase仅仅能够根据行键识别出一行。 优秀的行键设计可以保证良好的HBase性能。 1、行键存在于HBase中的每一个单元格中。如果行键越长,用于存储单元格的I/O开销就会越大。通常我们采用MD5加密的定长键来代替行键。 2 阅读全文
posted @ 2016-12-07 11:28 大数据和AI躺过的坑 阅读(2252) 评论(0) 推荐(0) 编辑
摘要:有时候啊,HBase表的设计方案通常,还会考虑如下一些因素,当然,这只是考虑范围里的部分呢。 更多的行还是更多的版本?后者使用了HBase自带的功能。但是需要在列簇中定义最大版本数,这样做可能有风险。最好的做法是版本使用多行存储,这需要把时间戳作为行键的一部分,数据检索模式定义了时间戳如何定义为行键 阅读全文
posted @ 2016-12-07 11:15 大数据和AI躺过的坑 阅读(3002) 评论(0) 推荐(0) 编辑
摘要:需要遵循以下步骤: 1、客户端和Zookeeper集群建立连接。在这之前客户端需要获得一些信息(可以从HBase配置文件中读取或是直接指定)。客户端从Zookeeper集群中读取-ROOT-表的位置信息。这是客户端发起的第一次查询。 2、客户端连接-ROOT-表,并得到.META.表的位置信息。这是 阅读全文
posted @ 2016-12-07 10:59 大数据和AI躺过的坑 阅读(715) 评论(0) 推荐(0) 编辑
摘要:压缩格式:默认压缩格式是NONE。可选值有GZ、LZO、SNAPPY。 版本数:HBase默认定义为3个版本。 以秒为单位的存活时间TTL:使用对象是行中的列簇,一旦达到过期时间,HBase会删除这些行。 快大小:HBase默认的块大小是64KB,不同于HDFS默认64MB的块大小。原因是HBase 阅读全文
posted @ 2016-12-07 10:47 大数据和AI躺过的坑 阅读(1054) 评论(0) 推荐(0) 编辑
摘要:列在列簇中依照字典排序。例如,列簇是基础信息或公司域名或水果类。列是基础信息:面貌、基础信息:年龄、公司域名:org、公司域名:edu、水果类:苹果、水果类:香蕉。 列 = 列簇:列修饰符 列根据列簇分组。 列簇的特点: 1、一张表通常有一单独的列簇,而且一张表中的列簇不会超过5个。 2、列簇必须在 阅读全文
posted @ 2016-12-07 10:33 大数据和AI躺过的坑 阅读(9172) 评论(0) 推荐(0) 编辑
摘要:行是由列簇中的列组成。行根据行键依照字典顺序排序。 HBase的行使用行键标识,可以使用行键查询整行的数据。 对同一个行键的访问都会落在同样的物理节点上。如果表包含2个列簇,属于两个列簇的文件还是保存在相同的节点上。因此,行键和节点存在一一对应的关系。 阅读全文
posted @ 2016-12-07 10:27 大数据和AI躺过的坑 阅读(1847) 评论(0) 推荐(0) 编辑
摘要:此讨论并不局限于HBase,也会延伸到MongoDB和Cassandra这样的NoSQL数据库。 1、RDBMS RDBMS有以下特点: 面向视图:RDBMS表使用固定的视图,表中的数据类型也会事先定义。表的视图在创建时就已经定义,并且不容易修改。向视图中添加元素的操作会以新建表的形式实现,这一操作 阅读全文
posted @ 2016-12-07 10:24 大数据和AI躺过的坑 阅读(1463) 评论(0) 推荐(0) 编辑
摘要:Hbase与RDBMS的区别在于:HBase的Cell(每条数据记录中的数据项)是具有版本描述的(versioned),行是有序的,列(qualifier)在所属列簇(Column families)存在的情况下,由客户端自由添加。以下的几个因素是Hbase Schema设计需要考虑的问题: 1、  阅读全文
posted @ 2016-12-07 10:06 大数据和AI躺过的坑 阅读(1290) 评论(0) 推荐(0) 编辑
摘要:见 https://hbase.apache.org/apidocs/index.html 阅读全文
posted @ 2016-12-07 09:49 大数据和AI躺过的坑 阅读(629) 评论(0) 推荐(0) 编辑
摘要:虽然,从HBase的概念视图来看,每个表格是由很多行组成的,但是在物理存储上面,它是按照列来保存的,这一点在进行数据设计和程序开发的时候必须牢记。 在物理存储上面,它是按照列来保存的 需要注意的是,在概念视图上面有些列是空白的,这样的列实际上并不会被存储,当请求这些空白的单元格时,会返回null值。 阅读全文
posted @ 2016-12-07 09:43 大数据和AI躺过的坑 阅读(3301) 评论(0) 推荐(0) 编辑
摘要:其实啊,我们把HBase想象成一个大的映射关系,再者,本来,HBase存储的数据可以理解为一种key和value的映射关系,但有不是简简单单的映射关系那种,因为比如有各个时间戳版本啊。 通过行键、行键+时间戳或行键+列(列簇:列修饰符),就可以定位特定是数据。 HBase是稀疏存储数据的,因此某些列 阅读全文
posted @ 2016-12-07 09:32 大数据和AI躺过的坑 阅读(3640) 评论(0) 推荐(0) 编辑
摘要:HBase是一个类似BigTable的分布式数据库, 它是一个稀疏的长期存储的(存在硬盘上)、多维度的、排序的映射表。这张表(HBase)的索引是行关键字、列关键字和时间戳。 HBase中的数据都是字符串,没有类型。 用户在表格中存储数据,每一行都有一个可排序的主键和任意多的列。由于HBase是稀疏 阅读全文
posted @ 2016-12-07 09:20 大数据和AI躺过的坑 阅读(760) 评论(0) 推荐(0) 编辑
摘要:在 HBase里的HRegion 里,谈过,HRegion是按照表名+开始/结束主键,即表名+主键范围来区分的。由于主键范围是连续的,所以一般用开始主键就可以表示相应的HRegion了。 不过,因为我们有合并和分隔操作,此时,如果正好在执行这些操作的过程中出现死机,那么就可能存在多份表名和开始主键相 阅读全文
posted @ 2016-12-06 13:31 大数据和AI躺过的坑 阅读(5225) 评论(0) 推荐(1) 编辑
摘要:首先,要区分,HRegion服务器包含两大部分:HLog部分和HRegion部分 HBase里的HRegion服务器 HBase里的HRegion 当表的大小超过设置值的时候,HBase会自动将表划分为不同的区域,每个区域包含所有行的一个子集。对用户来说,每个表是一堆数据的集合,每个表靠主键来区分。 阅读全文
posted @ 2016-12-06 13:06 大数据和AI躺过的坑 阅读(1259) 评论(0) 推荐(0) 编辑
摘要:每台HRegion服务器都会和HMaster服务器通信,HMaster的主要任务就是告诉每个HRegion服务器它要维护哪些HRegion。 当一台新的HRegion服务器登录到HMaster服务器时,HMaster会告诉它先等待分配数据。 而当一台HRegion死机时,HMaster会把它负责的H 阅读全文
posted @ 2016-12-06 13:02 大数据和AI躺过的坑 阅读(3385) 评论(0) 推荐(0) 编辑
摘要:所有的数据库数据一般是保存在Hadoop分布式系统上面的,用户通过一系列HRegion服务器获取这些数据。一台机器上一般只运行一个HRegion服务器,而且每一分区段的HRegion也只会被一个HRegion服务器维护。 HRegion服务器包含两大部分:HLog部分和HRegion部分。 HReg 阅读全文
posted @ 2016-12-06 12:46 大数据和AI躺过的坑 阅读(3390) 评论(0) 推荐(0) 编辑
摘要:首先,明确,HRegion服务器包含两大部分:HLog和HRegion。 HLog用来存储数据日志,采用的是先写日志的方式。 当用户需要更新数据的时候,数据会被分配到对应的HRegion服务器上提交修改。数据首先被提交到HLog文件里面,在操作写入HLog之后,commit()调用才会将其返回给客户 阅读全文
posted @ 2016-12-06 12:33 大数据和AI躺过的坑 阅读(2042) 评论(0) 推荐(1) 编辑
摘要:最近,因科研需要,学习Nessus。 Nessus是一款优秀的漏洞扫描软件,在其v6 HOME版本中在线更新漏洞插件不成功,采用离线更新,成功地更新了插件,在此将更新方法进行分享。 1、Nessus软件安装包的下载 http://www.tenable.com/products/nessus/sel 阅读全文
posted @ 2016-12-05 17:53 大数据和AI躺过的坑 阅读(5180) 评论(0) 推荐(0) 编辑
摘要:Hive与JDBC示例 在使用 JDBC 开发 Hive 程序时, 必须首先开启 Hive 的远程服务接口。在hive安装目录下的bin,使用下面命令进行开启: hive -service hiveserver & //Hive低版本提供的服务是:Hiveserver hive --service 阅读全文
posted @ 2016-12-04 16:49 大数据和AI躺过的坑 阅读(2864) 评论(0) 推荐(0) 编辑
摘要:为了更好地理解Spark Streaming 子框架的处理机制,必须得要自己弄清楚这些最基本概念。 1、离散流(Discretized Stream,DStream):这是Spark Streaming对内部持续的实时数据流的抽象描述,即我们处理的一个实时数据流,在Spark Streaming中对 阅读全文
posted @ 2016-12-04 12:33 大数据和AI躺过的坑 阅读(1052) 评论(0) 推荐(0) 编辑
摘要:Spark Streaming是一种构建在Spark上的实时计算框架,它扩展了Spark处理大规模流式数据的能力。 其中包括:资源管理框架,Apache YARN、Apache Mesos;基于内存的分布式文件系统,Tachyon;随后是Spark,更上面则是实现各种功能的系统,比如机器学习MLli 阅读全文
posted @ 2016-12-04 12:16 大数据和AI躺过的坑 阅读(1150) 评论(0) 推荐(0) 编辑
摘要:通过该案例,给出一个比较完整的、复杂的数据处理案例,同时给出案例的详细解析。 人力资源系统的管理内容组织结构图 1) 人力资源系统的数据库与表的构建。 2) 人力资源系统的数据的加载。 3) 人力资源系统的数据的查询。 职工基本信息 职工姓名,职工id,职工性别,职工年龄,入职年份,职位,所在部门i 阅读全文
posted @ 2016-12-04 10:10 大数据和AI躺过的坑 阅读(1118) 评论(0) 推荐(0) 编辑
摘要:我用一个集团公司对人事信息处理场景的简单案例,来作为入门,详细分析DataFrame上的各种常用操作,包括集团子公司的职工人事信息的合并,职工的部门相关信息查询、职工信息的统计、关联职工与部门信息的统计,以及如何将各种统计得到的结果存储到外部存储系统等。 在此入门案例里,涉及的DataFrame实例 阅读全文
posted @ 2016-12-03 12:03 大数据和AI躺过的坑 阅读(1775) 评论(0) 推荐(0) 编辑
摘要:Spark SQL在Spark内核基础上提供了对结构化数据的处理,在Spark1.3版本中,Spark SQL不仅可以作为分布式的SQL查询引擎,还引入了新的DataFrame编程模型。 在Spark1.3版本中,Spark SQL不再是Alpha版本,除了提供更好的SQL标准兼容之外,还引进了新的 阅读全文
posted @ 2016-12-03 11:15 大数据和AI躺过的坑 阅读(1062) 评论(0) 推荐(0) 编辑
摘要:通过对移动互联网数据的分析,了解移动终端在互联网上的行为以及各个应用在互联网上的发展情况等信息。 具体包括对不同的应用使用情况的统计、移动互联网上的日常活跃用户(DAU)和月活跃用户(MAU)的统计,以及不同应用中的上行下行流量统计等分析。 为了简化移动互联网数据的分析,我这里是当个入门。 假设,移 阅读全文
posted @ 2016-12-03 10:50 大数据和AI躺过的坑 阅读(759) 评论(0) 推荐(0) 编辑
摘要:能有源码的辅助,加上自身的修炼,能起到很好的作用! 对于初学者,不建议,一上来看源码。 下载 http://archive.apache.org/dist/spark/spark-1.6.1/ 阅读全文
posted @ 2016-12-03 09:26 大数据和AI躺过的坑 阅读(564) 评论(0) 推荐(0) 编辑
摘要:Hadoop使用数据复制来实现容错性(I/O高) Spark使用RDD数据存储模型来实现容错性。 RDD是只读的、分区记录的集合。如果一个RDD的一个分区丢失,RDD含有如何重建这个分区的相关信息。这就避免了使用数据复制来保证容错性的要求,从而减少了对磁盘的访问。通过RDD,后续步骤如果需要相同数据 阅读全文
posted @ 2016-12-02 18:09 大数据和AI躺过的坑 阅读(422) 评论(0) 推荐(0) 编辑
摘要:打好基础,别小瞧它! spark的运行模式多种多样,在单机上既可以本地模式运行,也可以伪分布模式运行。而当以分布式的方式在集群中运行时。底层的资源调度可以使用Mesos或者Yarn,也可使用spark自带的Standalone模式。 1、Application : Application的概念和Ha 阅读全文
posted @ 2016-12-02 14:05 大数据和AI躺过的坑 阅读(1032) 评论(0) 推荐(0) 编辑
摘要:创建一个MySQL用户,并设置可以远程访问 解决方法:1、改表法: 可能是你的帐号不允许从远程登陆,只能在localhost。这个时候只要在localhost的那台电脑,登入mysql后,更改 “mysql” 数据库里的 “user” 表里的 “host” 项,从“localhost”改称“%” x 阅读全文
posted @ 2016-12-01 12:44 大数据和AI躺过的坑 阅读(574) 评论(0) 推荐(0) 编辑
摘要:hive与环境的交互,算是一个小知识点,但掌握不菲! 如何在hive里,也达到这样呢? 不需要这样啦,因为,hive是建立在hadoop之上,启动hive,相当于,就是,hadoop jar ** hive > dfs -ls /; 可以看看这篇,hive与依赖环境的交互 阅读全文
posted @ 2016-12-01 10:48 大数据和AI躺过的坑 阅读(730) 评论(0) 推荐(0) 编辑
摘要:相当一部分人,容易忽略hive脚本,其实,这在生产环境里,是非常重要的! $ hive -e "show tables" $ hive -e "show tables " >> aa $ hive -e "show tables " > aa $ hive -S -e "show tables" > 阅读全文
posted @ 2016-12-01 10:01 大数据和AI躺过的坑 阅读(793) 评论(0) 推荐(0) 编辑
摘要:这个小知识点,看似简单,用处极大。 $ hive --hiveconf hive.cli.print.current.db=true $ hive --hiveconf hive.cli.print.header=true hive参数的使用 hive > create table t5(name 阅读全文
posted @ 2016-12-01 09:40 大数据和AI躺过的坑 阅读(3192) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示