摘要: 1、安装需要的库 bs4 beautifulSoup requests lxml如果使用mongodb存取数据,安装一下pymongo插件 2、常见问题 1> lxml安装问题 如果遇到lxml无法安装问题,参考知乎上的答案: 首先,安装wheel,命令行运行:pip install wheel其次 阅读全文
posted @ 2017-01-02 23:27 learn21cn 阅读(3753) 评论(0) 推荐(0) 编辑
摘要: Observer协处理器通常在一个特定的事件(诸如Get或Put)之前或之后发生,相当于RDBMS中的触发器。Endpoint协处理器则类似于RDBMS中的存储过程,因为它可以让你在RegionServer上对数据执行自定义计算,而不是在客户端上执行计算。 本文是以上两者的简单实例,使用的环境:环境 阅读全文
posted @ 2016-12-23 02:55 learn21cn 阅读(1272) 评论(1) 推荐(0) 编辑
摘要: 1、准备工作 需要到github上下载相应的文件,地址https://github.com/google/protobuf/releases protobuf有很多不同语言的版本,因为我们需要的是jar文件,所以选择java版本下载。以下以版本3.1.0进行举例说明。 如果是在linux64环境下编 阅读全文
posted @ 2016-12-23 00:23 learn21cn 阅读(3649) 评论(0) 推荐(0) 编辑
摘要: github地址:https://github.com/google/protobuf支持多种语言,有多个语言的版本,本文采用的是在centos7下编译源码进行安装。 github上有详细的安装说明:https://github.com/google/protobuf/blob/master/src 阅读全文
posted @ 2016-12-21 04:10 learn21cn 阅读(17833) 评论(0) 推荐(0) 编辑
摘要: 一个知乎上的问题:Hbase的Region server和hadoop的datanode是否可以部署在一台服务器上?如果是的话,二者是否是一对一的关系?部署在同一台服务器上,可以减少数据跨网络传输的流量。 但不是一对一对的关系,首先,数据还hdfs中保存N份,默认是三分,也就是说数据会分布在三个da 阅读全文
posted @ 2016-12-19 06:30 learn21cn 阅读(5884) 评论(0) 推荐(0) 编辑
摘要: 1、相关环境 centos7 hadoop2.6.5 zookeeper3.4.9 jdk1.8 hbase1.2.4 本篇文章仅涉及hbase集群的搭建,关于hadoop与zookeeper的相关部署参见上篇文章http://www.cnblogs.com/learn21cn/p/6184490. 阅读全文
posted @ 2016-12-19 06:07 learn21cn 阅读(686) 评论(0) 推荐(0) 编辑
摘要: 这篇文章为Remote Development扩展出现之前所应用的技术,在Remote Development扩展出现后,可直接使用扩展,详情请参阅使用vscode进行远程开发。 以下为旧文档,仅作记录。 使用vscode访问和修改远程文件,分三步实现:在远程linux机器上安装rmate;在本地w 阅读全文
posted @ 2016-12-17 04:00 learn21cn 阅读(31384) 评论(0) 推荐(1) 编辑
摘要: 1、环境 centos7 hadoop2.6.5 zookeeper3.4.9 jdk1.8 master作为active主机,data1作为standby备用机,三台机器均作为数据节点,yarn资源管理器在master上开启,在data1上备用,data1上开启历史服务器 主要参考见下表 Data 阅读全文
posted @ 2016-12-15 19:27 learn21cn 阅读(2502) 评论(0) 推荐(0) 编辑
摘要: 1、put/checkAndPut 使用checkAndPut,需要先对数据进行验证,上面的例子中,向row1中的cf:col1写入数据"E",而验证的是row1中的cf:col5的值是否为"E",注意这一点,相当于加了条件。 2、使用get读取数据 参考结果: 3、使用scan获取数据 4、del 阅读全文
posted @ 2016-12-11 01:11 learn21cn 阅读(818) 评论(0) 推荐(0) 编辑
摘要: 1、数据样式 写入之前,需要整理以下数据的格式,之后将数据保存到hdfs中,本例使用的样式如下(用tab分开): 2、代码 假设要将以上样式的数据写入到hbase中,列族为cf,列名为colb,可以使用下面的代码(参考) 这段代码使用mapreduce程序对数据做了进一步处理,之后调用相关的api将 阅读全文
posted @ 2016-12-10 22:29 learn21cn 阅读(2595) 评论(0) 推荐(0) 编辑