上一页 1 ··· 13 14 15 16 17 18 19 20 21 ··· 57 下一页

2014年9月10日

未登录词识别

摘要: 未登录词识别:不在词典中的词---新词:杀马特---命名实体:奥克兰主要解决方案:基于规则合词,然后通过百度验证。Start Char Char 1-2-Combine #[图 n][里 f][市场 n][站 n]Start Char Char Char 1-3-Combine #Start Cha... 阅读全文

posted @ 2014-09-10 20:22 雨渐渐 阅读(1998) 评论(0) 推荐(0) 编辑

中文分词索引

摘要: 基本原理词典的存储基于规则的分词词性标注未登录词识别关键词提取:TF-IDF朴素贝叶斯文本分类 阅读全文

posted @ 2014-09-10 20:12 雨渐渐 阅读(280) 评论(0) 推荐(0) 编辑

基于语言模型最优路径搜索

摘要: 阅读全文

posted @ 2014-09-10 20:10 雨渐渐 阅读(171) 评论(0) 推荐(0) 编辑

2014年9月9日

hadoop 存储空间满了

摘要: 2014-09-09 17:25:44,040 WARN mapred.LocalJobRunner - job_local_0001org.apache.hadoop.util.DiskChecker$DiskErrorException: Could not find any valid lo... 阅读全文

posted @ 2014-09-09 18:00 雨渐渐 阅读(589) 评论(0) 推荐(0) 编辑

2014年9月6日

nutch 生产者队列的大小如何控制 threadcount * 50

摘要: 如果topN 设置为1000万 ,不会这1000万都放到QueueFeeder(内存)中,而是从文件系统中(hdfs)中迭代不断填充QueueFeeder。队列中默认存放 threadcount * 50 。 这个类的作用是从文件系统读文件填充队列。/** * This class fee... 阅读全文

posted @ 2014-09-06 01:37 雨渐渐 阅读(313) 评论(0) 推荐(0) 编辑

2014年9月5日

nutch 采集到的数据与实际不符

摘要: 现象,这个网站我总计能抽取将近500个URL,但实际只抽取了100条解析:nutch默认从一个页面解析出的链接,只取前 100 个。 db.max.outlinks.per.page 100 The maximum number of outlinks that we'll process ... 阅读全文

posted @ 2014-09-05 11:53 雨渐渐 阅读(241) 评论(0) 推荐(0) 编辑

nutch 采集效率--设置采集间隔

摘要: fetcher.max.crawl.delay 默认是30秒,这里改为 5秒修改nutch-default.xml fetcher.max.crawl.delay 5 If the Crawl-Delay in robots.txt is set to greater than this val... 阅读全文

posted @ 2014-09-05 11:20 雨渐渐 阅读(260) 评论(0) 推荐(0) 编辑

2014年9月4日

异常: http://www.ly.com/news/visa.html: java.io.IOException: unzipBestEffort returned null

摘要: nutch 运行时异常: http://www.ly.com/news/visa.html: java.io.IOException: unzipBestEffort returned null参考:http://www.tuicool.com/articles/faUB73此页面采用这个是一个分段... 阅读全文

posted @ 2014-09-04 19:34 雨渐渐 阅读(353) 评论(0) 推荐(0) 编辑

2014年9月3日

hbase 取多个版本数据

摘要: http://jiajun.iteye.com/blog/945358HBase如何存取多个版本的值?废话少说,一般情况下使用Put的这个方法保存一个版本:Java代码 /***AddthespecifiedcolumnandvaluetothisPutoperation.*@paramfamily... 阅读全文

posted @ 2014-09-03 11:17 雨渐渐 阅读(1792) 评论(0) 推荐(0) 编辑

rabbitmq 测试

摘要: 用消息队列更多的是解服务之间的调用关系,调用关系异步化。把控制关系/拓扑结构放出来。# --*-- coding:utf-8 --*--import pikaimport datetimeconnection = pika.BlockingConnection(pika.ConnectionPara... 阅读全文

posted @ 2014-09-03 11:16 雨渐渐 阅读(141) 评论(0) 推荐(0) 编辑

上一页 1 ··· 13 14 15 16 17 18 19 20 21 ··· 57 下一页

导航