09 2014 档案

hbase 0.96 java 示例
摘要:import java.util.ArrayList;import java.util.List; import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.Cell;import org.apache.ha... 阅读全文

posted @ 2014-09-22 17:40 雨渐渐 阅读(350) 评论(0) 推荐(0) 编辑

Hbase 0.96 比 hbase 0.94的改变
摘要:转载:http://blog.csdn.net/hxpjava1/article/details/20043703环境:hadoop:hadoop-2.2.0hbase:hbase-0.96.01.org.apache.hadoop.hbase.client.Put 取消了无参的构造方法 Put... 阅读全文

posted @ 2014-09-19 18:11 雨渐渐 阅读(507) 评论(0) 推荐(0) 编辑

朴素贝叶斯文本分类java实现
摘要:package com.data.ml.classify;import java.io.File;import java.util.ArrayList;import java.util.Collections;import java.util.HashMap;import java.util.Has... 阅读全文

posted @ 2014-09-16 15:32 雨渐渐 阅读(4023) 评论(2) 推荐(0) 编辑

failed with: java.lang.NullPointerException
摘要:failed with: java.lang.NullPointerException需要在nutch的配置文件 'conf/nutch-site.xml'. 里设置如下,不然就报上面的错误了。当然在crawl-urlfilter.txt里面也要相应于 urls/url.txt里的域名进行设置。ht... 阅读全文

posted @ 2014-09-15 10:38 雨渐渐 阅读(508) 评论(0) 推荐(0) 编辑

java.io.IOException: Cannot run program "bash": error=12, Cannot allocate memory
摘要:java.io.IOException: Cannot run program "bash": error=12, Cannot allocate memory云服务器运行nutch报出的异常:解决方案:http://daimajishu.iteye.com/blog/959213最近在单机上测试H... 阅读全文

posted @ 2014-09-15 10:23 雨渐渐 阅读(1033) 评论(0) 推荐(0) 编辑

NUTCH Exception in thread "Thread-12751" java.lang.OutOfMemoryError: PermGen space
摘要:转载自 :http://greemranqq.iteye.com/blog/1705867转载自:http://www.cnblogs.com/xwdreamer/archive/2011/11/21/2296930.html修改bin/nutch 脚本加入#!/bin/bash# # The Nu... 阅读全文

posted @ 2014-09-12 09:38 雨渐渐 阅读(210) 评论(0) 推荐(0) 编辑

未登录词识别
摘要:未登录词识别:不在词典中的词---新词:杀马特---命名实体:奥克兰主要解决方案:基于规则合词,然后通过百度验证。Start Char Char 1-2-Combine #[图 n][里 f][市场 n][站 n]Start Char Char Char 1-3-Combine #Start Cha... 阅读全文

posted @ 2014-09-10 20:22 雨渐渐 阅读(2005) 评论(0) 推荐(0) 编辑

中文分词索引
摘要:基本原理词典的存储基于规则的分词词性标注未登录词识别关键词提取:TF-IDF朴素贝叶斯文本分类 阅读全文

posted @ 2014-09-10 20:12 雨渐渐 阅读(280) 评论(0) 推荐(0) 编辑

基于语言模型最优路径搜索
摘要: 阅读全文

posted @ 2014-09-10 20:10 雨渐渐 阅读(173) 评论(0) 推荐(0) 编辑

hadoop 存储空间满了
摘要:2014-09-09 17:25:44,040 WARN mapred.LocalJobRunner - job_local_0001org.apache.hadoop.util.DiskChecker$DiskErrorException: Could not find any valid lo... 阅读全文

posted @ 2014-09-09 18:00 雨渐渐 阅读(589) 评论(0) 推荐(0) 编辑

nutch 生产者队列的大小如何控制 threadcount * 50
摘要:如果topN 设置为1000万 ,不会这1000万都放到QueueFeeder(内存)中,而是从文件系统中(hdfs)中迭代不断填充QueueFeeder。队列中默认存放 threadcount * 50 。 这个类的作用是从文件系统读文件填充队列。/** * This class fee... 阅读全文

posted @ 2014-09-06 01:37 雨渐渐 阅读(314) 评论(0) 推荐(0) 编辑

nutch 采集到的数据与实际不符
摘要:现象,这个网站我总计能抽取将近500个URL,但实际只抽取了100条解析:nutch默认从一个页面解析出的链接,只取前 100 个。 db.max.outlinks.per.page 100 The maximum number of outlinks that we'll process ... 阅读全文

posted @ 2014-09-05 11:53 雨渐渐 阅读(241) 评论(0) 推荐(0) 编辑

nutch 采集效率--设置采集间隔
摘要:fetcher.max.crawl.delay 默认是30秒,这里改为 5秒修改nutch-default.xml fetcher.max.crawl.delay 5 If the Crawl-Delay in robots.txt is set to greater than this val... 阅读全文

posted @ 2014-09-05 11:20 雨渐渐 阅读(261) 评论(0) 推荐(0) 编辑

异常: http://www.ly.com/news/visa.html: java.io.IOException: unzipBestEffort returned null
摘要:nutch 运行时异常: http://www.ly.com/news/visa.html: java.io.IOException: unzipBestEffort returned null参考:http://www.tuicool.com/articles/faUB73此页面采用这个是一个分段... 阅读全文

posted @ 2014-09-04 19:34 雨渐渐 阅读(354) 评论(0) 推荐(0) 编辑

hbase 取多个版本数据
摘要:http://jiajun.iteye.com/blog/945358HBase如何存取多个版本的值?废话少说,一般情况下使用Put的这个方法保存一个版本:Java代码 /***AddthespecifiedcolumnandvaluetothisPutoperation.*@paramfamily... 阅读全文

posted @ 2014-09-03 11:17 雨渐渐 阅读(1798) 评论(0) 推荐(0) 编辑

rabbitmq 测试
摘要:用消息队列更多的是解服务之间的调用关系,调用关系异步化。把控制关系/拓扑结构放出来。# --*-- coding:utf-8 --*--import pikaimport datetimeconnection = pika.BlockingConnection(pika.ConnectionPara... 阅读全文

posted @ 2014-09-03 11:16 雨渐渐 阅读(141) 评论(0) 推荐(0) 编辑

nutch2.2.1
摘要:http://blog.csdn.net/leave00608/article/details/17442163https://svn.apache.org/repos/asf/nutch/tags/release-2.2.1/http://blog.csdn.net/hsb1132/article... 阅读全文

posted @ 2014-09-02 17:28 雨渐渐 阅读(118) 评论(0) 推荐(0) 编辑

nutch http file 截断问题
摘要:问题:列表页预计抽取 355+6 但实际只抽取到220条链接. 原因是nutch对http下载的内容的长度进行了限制。解决方案:这里将这个属性扩大10倍。vim conf/nutch-defalut.xml 修改http.content.limit属性,将其由65536 改为 655360 ht... 阅读全文

posted @ 2014-09-01 12:44 雨渐渐 阅读(241) 评论(0) 推荐(0) 编辑

导航