摘要:
一、开源代码的问题在PHP爬虫(2)中介绍了开源工程Sunra.PhpSimple.HtmlDomParser。在实际工作中发现一个问题,例如http://www.163.com的网页数据怎么也抓取不下来。$url = "http://www.163.com";$content = Http::re... 阅读全文
摘要:
摘要:在PHP爬虫(1)中详细了介绍了CURL抓取HTML数据的技术。采集数据处理也是爬虫技术中非常重要的部分。处理HTML数据可以用字符串查找,也可以利用正则表达式,但采用Dom处理是最高级的方法。现在我们要抓取中国军网首页“军媒要闻要论”第一条内容,通过浏览器工具查看网页元素,通过console... 阅读全文
摘要:
在实际工作中,会碰到两个问题(1)现有系统想集成一个开发组件,而该组件的SDK却没有现有语言版本。(2)系统中的一项功能非常耗费资源,最好能利用其它机器来处理。本文介绍gearman的使用,实现PHP调用JAVA。gearman是支持网络方式调用,因此也可以用来实现任务分发。gearman的官方网站... 阅读全文
摘要:
摘要:为解决中文搜索的问题,最开始使用PHP版开源的SCWS,但是处理人名和地名时,会出现截断人名地名出现错误。开始使用NLPIR分词,在分词准确性上效果要比SCWS好。本文介绍如何在windows系统下编译JAVA,生成可以执行的jar文件。NLPIR的下载地址:http://ictclas.nl... 阅读全文
摘要:
摘要:本篇文章介绍PHP抓取网页内容技术,利用PHPcURL扩展获取网页内容,还可以抓取网页头部,设置cookie,处理302跳转。一、cURL安装采用源码安装PHP时,需要在configure时添加配置项,cdphp./configure--with-curl安装完毕,可以利用php-m命令查看,... 阅读全文