摘要: 愚钝只看了php 感觉很不错。查了下目前国内关于正文提取的项目,感觉这个很全面。https://code.google.com/p/cx-extractor/cx-extractor基于行块分布函数的通用网页正文抽取:线性时间、不建DOM树、与HTML标签无关PHP 一个类库文件,一个DEMO文件。就2个。class.textExtract.phpurl = $_url; $this->blkSize = $_blkSize; } /** * Get the web page's source code * @return void *... 阅读全文
posted @ 2014-03-13 21:49 群叔 阅读(1437) 评论(0) 推荐(0) 编辑