上一页 1 2 3 4 5 6 7 ··· 10 下一页

2016年1月19日

Hadoop上的中文分词与词频统计实践 (有待学习 http://www.cnblogs.com/jiejue/archive/2012/12/16/2820788.html)

摘要: 解决问题的方案Hadoop上的中文分词与词频统计实践首先来推荐相关材料:http://xiaoxia.org/2011/12/18/map-reduce-program-of-rmm-word-count-on-hadoop/。小虾的这个统计武侠小说人名热度的段子很有意思,照虎画猫来实践一下。与其不... 阅读全文

posted @ 2016-01-19 21:51 1130136248 阅读(511) 评论(0) 推荐(0) 编辑

HBase数据的导入和导出

摘要: 查阅了几篇中英文资料,发现有的地方说的不是很全部,总结在此,共有两种命令行的方式来实现数据的导入导出功能,即备份和还原。1 HBase本身提供的接口其调用形式为:1)导入./hbase org.apache.hadoop.hbase.mapreduce.Driver import 表名 数据文件位... 阅读全文

posted @ 2016-01-19 11:07 1130136248 阅读(1884) 评论(0) 推荐(0) 编辑

浅谈hbase表中数据导出导入(也就是备份)

摘要: 转自:http://blog.chinaunix.net/xmlrpc.php?r=blog/article&uid=23916356&id=3321832最近因为生产环境hbase中某张表的数据要导出到测试环境(数据不多,大概200W条左右),如果用程序掉接口导入的话太慢,所以考虑直接用hbas... 阅读全文

posted @ 2016-01-19 11:06 1130136248 阅读(10216) 评论(0) 推荐(0) 编辑

2016年1月16日

学习大数据看门的几本书

摘要: Hadoop实战Hbase权威指南深入理解大叔据Hadoop硬实战Hadoop应用开发技术详解Hadoop应用开发实战详解ElasticSearch 服务器开发Lucene实战 阅读全文

posted @ 2016-01-16 16:59 1130136248 阅读(296) 评论(0) 推荐(0) 编辑

2016年1月15日

hadoop pig入门总结

摘要: 在这里贴一个pig源码的分析,做pig很长时间没做笔记,不包含任何细节,以后有机会再说吧http://blackproof.iteye.com/blog/1769219hadoop pig入门总结pig简介pig数据类型pig latin语法pig udf自定义pig derived衍生推荐书籍 p... 阅读全文

posted @ 2016-01-15 11:10 1130136248 阅读(475) 评论(0) 推荐(0) 编辑

2016年1月14日

Hadoop生态上几个技术的关系与区别:hive、pig、hbase 关系与区别

摘要: 初接触Hadoop技 术的朋友肯定会对它体系下寄生的个个开源项目糊涂了,我敢保证Hive,Pig,HBase这些开源技术会把你搞的有些糊涂,不要紧糊涂的不止你一个,如 某个菜鸟的帖子的疑问,when to use Hbase and when to use Hive?....请教了^_^没关系这里我... 阅读全文

posted @ 2016-01-14 14:30 1130136248 阅读(688) 评论(0) 推荐(0) 编辑

MapReduce,DataJoin,链接多数据源

摘要: 主要介绍用DataJoin类来链接多数据源,先看一下例子,假设二个数据源customs和orderscustomer ID Name PhomeNumber1 赵一 025-5455-5662 钱二 025-4587-5653 ... 阅读全文

posted @ 2016-01-14 11:38 1130136248 阅读(186) 评论(0) 推荐(0) 编辑

2016年1月1日

用开源软件建垂直搜索引擎 转载 http://news.cnblogs.com/n/60041/

摘要: 用Solr、Nutch等开源软件来构建电子元器件垂直搜索引擎涉及很多实现细节,本文结合实际应用系统对数据采集、中文搜索、结果输出、分页处理、整合数据库等重点问题提出了切实可行的解决方法。 用开源软件建垂直搜索引擎 ■ 董娅 周峻松 针对搜索引擎的各种开源技术是开源社区的一枝奇葩,它大大缩短了... 阅读全文

posted @ 2016-01-01 11:38 1130136248 阅读(216) 评论(0) 推荐(0) 编辑

2015年12月10日

Lucene add、updateDocument添加、更新与search查询(转)

摘要: package com.lucene;import java.io.IOException;import org.apache.lucene.analysis.standard.StandardAnalyzer;import org.apache.lucene.document.Document;i... 阅读全文

posted @ 2015-12-10 20:07 1130136248 阅读(2569) 评论(1) 推荐(0) 编辑

Lucene 简单手记http://www.cnblogs.com/hoojo/archive/2012/09/05/2671678.html

摘要: 什么是全文检索与全文检索系统?全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。全 文检索的方法主要分为按... 阅读全文

posted @ 2015-12-10 16:42 1130136248 阅读(226) 评论(0) 推荐(0) 编辑

上一页 1 2 3 4 5 6 7 ··· 10 下一页

导航