loveyakamoz

2011年8月20日

IntelliJ IDEA 9 编译时报错:“编码GBK的不可映射字符”和"未结束的字符串字面值"

摘要：解决办法：Setting->File Encodings->IDE Encoding选择utf-8，不要选择“system default”同时，Default encoding for properties files 也选择 UTF-8 阅读全文

posted @ 2011-08-20 22:09 loveyakamoz 阅读(6861) 评论(0) 推荐(0) 编辑

2011年8月19日

解决 - java.lang.OutOfMemoryError： unable to create new native thread

摘要：解决 - java.lang.OutOfMemoryError： unable to create new native threadFrom:http://sesame.iteye.com/blog/622670工作中碰到过这个问题好几次了，觉得有必要总结一下，所以有了这篇文章，这篇文章分为三个部分：认识问题、分析问题、解决问题。一、认识问题:首先我们通过下面这个测试程序来认识这个问题：运行的环境（有必要说明一下，不同环境会有不同的结果）：32位 Windows XP，Sun JDK 1.6.0_18， eclipse 3.4，测试程序：Java代码import java.util.conc 阅读全文

posted @ 2011-08-19 08:14 loveyakamoz 阅读(8020) 评论(0) 推荐(0) 编辑

2011年8月18日

java日期格式大全 format SimpleDateFormat

摘要： /** * 字符串转换为java.util.Date<br> * 支持格式为 yyyy.MM.dd G 'at' hh:mm:ss z 如 '2002-1-1 AD at 22:10:59 PSD'<br> * yy/MM/dd HH:mm:ss 如 '2002/1/1 17:55:00'<br> * yy/MM/dd HH:mm:ss pm 如 '2002/1/1 17:55:00 pm'<br> * yy-MM-dd HH:mm:ss 如 '2002-1-1 17:55: 阅读全文

posted @ 2011-08-18 21:17 loveyakamoz 阅读(296065) 评论(0) 推荐(5) 编辑

The Easy Way to Extract Useful Text from Arbitrary HTML

摘要：从HTML文件中抽取正文的简单方案作者：alexjc译者：恋花蝶（http://blog.csdn.net/lanphaday）原文地址：http://ai-depot.com/articles/the-easy-way-to-extract-useful-text-from-arbitrary-html/译者导读：这篇文章主要介绍了从不同类型的HTML文件中抽取出真正有用的正文内容的一种有广泛适应性的方法。其功能类似于CSDN近期推出的“剪影”，能够去除页眉、页脚和侧边栏的无关内容，非常实用。其方法简单有效而又出乎意料，看完后难免大呼原来还可以这样！行文简明易懂，虽然应用了人工神经网络这阅读全文

posted @ 2011-08-18 08:45 loveyakamoz 阅读(802) 评论(0) 推荐(0) 编辑

2011年8月17日

List of resources: Article text extraction from HTML documents

摘要： Addedreader contributedlinks to software and API sectionFollowing up to myoverviewof article text extractors, I’ll try to compile a list of research papers, articles, web APIs, libraries and other software that I encountered during my research.Research papers and ArticlesJust to summarize the ones m 阅读全文

posted @ 2011-08-17 19:33 loveyakamoz 阅读(958) 评论(0) 推荐(0) 编辑

基于行块分布函数的通用网页正文抽取

摘要：转自：http://hi.baidu.com/%B0%AE%D0%C4%CD%AC%C3%CB_%B3%C2%F6%CE/blog/item/b0f24a8b0c026edffd1f1056.html基于行块分布函数的通用网页正文抽取：线性时间、不建DOM树、与HTML标签无关简述：对于Web信息检索来说，网页正文抽取是后续处理的关键。虽然使用正则表达式可以准确的抽取某一固定格式的页面，但面对形形色色的HTML，使用规则处理难免捉襟见肘。能不能高效、准确的将一个页面的正文抽取出来，并做到在大规模网页范围内通用，这是一个直接关系上层应用的难题。作者提出了《基于行块分布函数的通用网页正文抽取算法》阅读全文

posted @ 2011-08-17 18:44 loveyakamoz 阅读(2993) 评论(0) 推荐(0) 编辑

2011年8月12日

org.htmlparser.util.ParserException: Error in opening a connection to

摘要：使用HTMLparser时碰到一个错误org.htmlparser.util.ParserException: Error in opening a connection tojava.io.IOException: Invalid argumentat java.io.WinNTFileSystem.canonicalize0(Native Method)at java.io.Win32FileSystem.canonicalize(Win32FileSystem.java:396)at java.io.File.getCanonicalPath(File.java:559)at org.h 阅读全文

posted @ 2011-08-12 20:19 loveyakamoz 阅读(2793) 评论(0) 推荐(0) 编辑

网页编码

摘要：网页编码阅读全文

posted @ 2011-08-12 18:53 loveyakamoz 阅读(144) 评论(0) 推荐(0) 编辑

2011年8月11日

最大熵模型文献阅读指南

摘要：最大熵模型（Maximum Entropy Model）是一种机器学习方法，在自然语言处理的许多领域（如词性标注、中文分词、句子边界识别、浅层句法分析及文本分类等）都有比较好的应用效果。张乐博士的最大熵模型工具包manual里有“Further Reading”，写得不错，就放到这里作为最大熵模型文献阅读指南了。与《统计机器翻译文献阅读指南》不同，由于自己也正在努力学习Maximum Entropy Model中，没啥发言权，就不多说废话了。这些文献在Google上很容易找到，不过多数都比较长（30多页），甚至有两篇是博士论文，有100多页，希望初学读者不要被吓住了，毕竟经典的东西是值得反复阅读全文

posted @ 2011-08-11 20:57 loveyakamoz 阅读(1948) 评论(0) 推荐(0) 编辑

2011年7月29日

HtmlParser报告

摘要：这两天在研究HtmlParser的使用，看了一天后，把自己一些常用的东西写成了这个报告。在这里感谢给我提供帮助的人，没有你们的总结，我想我也不会这么快就完成我的任务。向那些朋友致敬！另外，不知哪位可以告诉我一下，如何上传PDF文件？谢谢了阅读全文

posted @ 2011-07-29 10:47 loveyakamoz 阅读(993) 评论(2) 推荐(0) 编辑

本博客中的一些内容为网络转载，用于学习，如果涉及版权问题，请留言！谢谢

公告