上一页 1 ··· 4 5 6 7 8 9 10 11 下一页
摘要: 解决办法:Setting->File Encodings->IDE Encoding选择utf-8,不要选择“system default”同时,Default encoding for properties files 也选择 UTF-8 阅读全文
posted @ 2011-08-20 22:09 loveyakamoz 阅读(6839) 评论(0) 推荐(0) 编辑
摘要: 解决 - java.lang.OutOfMemoryError: unable to create new native threadFrom:http://sesame.iteye.com/blog/622670工作中碰到过这个问题好几次了,觉得有必要总结一下,所以有了这篇文章,这篇文章分为三个部分:认识问题、分析问题、解决问题。一、认识问题:首先我们通过下面这个测试程序来认识这个问题:运行的环境(有必要说明一下,不同环境会有不同的结果):32位 Windows XP,Sun JDK 1.6.0_18, eclipse 3.4,测试程序:Java代码import java.util.conc 阅读全文
posted @ 2011-08-19 08:14 loveyakamoz 阅读(7989) 评论(0) 推荐(0) 编辑
摘要: /** * 字符串转换为java.util.Date<br> * 支持格式为 yyyy.MM.dd G 'at' hh:mm:ss z 如 '2002-1-1 AD at 22:10:59 PSD'<br> * yy/MM/dd HH:mm:ss 如 '2002/1/1 17:55:00'<br> * yy/MM/dd HH:mm:ss pm 如 '2002/1/1 17:55:00 pm'<br> * yy-MM-dd HH:mm:ss 如 '2002-1-1 17:55: 阅读全文
posted @ 2011-08-18 21:17 loveyakamoz 阅读(295994) 评论(0) 推荐(5) 编辑
摘要: 从HTML文件中抽取正文的简单方案作者:alexjc译者:恋花蝶(http://blog.csdn.net/lanphaday)原文地址:http://ai-depot.com/articles/the-easy-way-to-extract-useful-text-from-arbitrary-html/译 者导读:这篇文章主要介绍了从不同类型的HTML文件中抽取出真正有用的正文内容的一种有广泛适应性的方法。其功能类似于CSDN近期推出的“剪影”,能 够去除页眉、页脚和侧边栏的无关内容,非常实用。其方法简单有效而又出乎意料,看完后难免大呼原来还可以这样!行文简明易懂,虽然应用了人工神经网络这 阅读全文
posted @ 2011-08-18 08:45 loveyakamoz 阅读(795) 评论(0) 推荐(0) 编辑
摘要: Addedreader contributedlinks to software and API sectionFollowing up to myoverviewof article text extractors, I’ll try to compile a list of research papers, articles, web APIs, libraries and other software that I encountered during my research.Research papers and ArticlesJust to summarize the ones m 阅读全文
posted @ 2011-08-17 19:33 loveyakamoz 阅读(954) 评论(0) 推荐(0) 编辑
摘要: 转自:http://hi.baidu.com/%B0%AE%D0%C4%CD%AC%C3%CB_%B3%C2%F6%CE/blog/item/b0f24a8b0c026edffd1f1056.html基于行块分布函数的通用网页正文抽取:线性时间、不建DOM树、与HTML标签无关简述:对于Web信息检索来说,网页正文抽取是后续处理的关键。虽然使用正则表达式可以准确的抽取某一固定格式的页面,但面对形形色色的HTML,使用规则处理难免捉襟见肘。能不能高效、准确的将一个页面的正文抽取出来,并做到在大规模网页范围内通用,这是一个直接关系上层应用的难题。作者提出了《基于行块分布函数的通用网页正文抽取算法》 阅读全文
posted @ 2011-08-17 18:44 loveyakamoz 阅读(2989) 评论(0) 推荐(0) 编辑
摘要: 使用HTMLparser时碰到一个错误org.htmlparser.util.ParserException: Error in opening a connection tojava.io.IOException: Invalid argumentat java.io.WinNTFileSystem.canonicalize0(Native Method)at java.io.Win32FileSystem.canonicalize(Win32FileSystem.java:396)at java.io.File.getCanonicalPath(File.java:559)at org.h 阅读全文
posted @ 2011-08-12 20:19 loveyakamoz 阅读(2776) 评论(0) 推荐(0) 编辑
摘要: 网页编码 阅读全文
posted @ 2011-08-12 18:53 loveyakamoz 阅读(143) 评论(0) 推荐(0) 编辑
摘要: 最大熵模型(Maximum Entropy Model)是一种机器学习方法,在自然语言处理的许多领域(如词性标注、中文分词、句子边界识别、浅层句法分析及文本分类等)都有比较好的应用效果。张乐博士的最大熵模型工具包manual里有“Further Reading”,写得不错,就放到这里作为最大熵模型文献阅读指南了。 与《统计机器翻译文献阅读指南》不同,由于自己也正在努力学习Maximum Entropy Model中,没啥发言权,就不多说废话了。这些文献在Google上很容易找到,不过多数都比较长(30多页),甚至有两篇是博士论文,有100多页,希望初学读者不要被吓住了,毕竟经典的东西是值得反复 阅读全文
posted @ 2011-08-11 20:57 loveyakamoz 阅读(1938) 评论(0) 推荐(0) 编辑
摘要: 这两天在研究HtmlParser的使用,看了一天后,把自己一些常用的东西写成了这个报告。在这里感谢给我提供帮助的人,没有你们的总结,我想我也不会这么快就完成我的任务。向那些朋友致敬!另外,不知哪位可以告诉我一下,如何上传PDF文件?谢谢了 阅读全文
posted @ 2011-07-29 10:47 loveyakamoz 阅读(990) 评论(2) 推荐(0) 编辑
上一页 1 ··· 4 5 6 7 8 9 10 11 下一页