军报应用开发

2015年6月23日

摘要：一、开源代码的问题在PHP爬虫（2）中介绍了开源工程Sunra.PhpSimple.HtmlDomParser。在实际工作中发现一个问题，例如http://www.163.com的网页数据怎么也抓取不下来。$url = "http://www.163.com";$content = Http::re... 阅读全文

posted @ 2015-06-23 23:47 军报应用开发阅读(1584) 评论(1) 推荐(1)

2015年6月21日

PHP爬虫（2）DOM处理

摘要：摘要：在PHP爬虫（1）中详细了介绍了CURL抓取HTML数据的技术。采集数据处理也是爬虫技术中非常重要的部分。处理HTML数据可以用字符串查找，也可以利用正则表达式，但采用Dom处理是最高级的方法。现在我们要抓取中国军网首页“军媒要闻要论”第一条内容，通过浏览器工具查看网页元素，通过console... 阅读全文

posted @ 2015-06-21 22:00 军报应用开发阅读(4717) 评论(1) 推荐(2)

2015年6月16日

gearman服务连接php java

摘要：在实际工作中，会碰到两个问题（1）现有系统想集成一个开发组件，而该组件的SDK却没有现有语言版本。（2）系统中的一项功能非常耗费资源，最好能利用其它机器来处理。本文介绍gearman的使用，实现PHP调用JAVA。gearman是支持网络方式调用，因此也可以用来实现任务分发。gearman的官方网站... 阅读全文

posted @ 2015-06-16 09:33 军报应用开发阅读(1108) 评论(0) 推荐(0)

2015年6月12日

中科院NLPIR中文分词java版

摘要：摘要：为解决中文搜索的问题，最开始使用PHP版开源的SCWS，但是处理人名和地名时，会出现截断人名地名出现错误。开始使用NLPIR分词，在分词准确性上效果要比SCWS好。本文介绍如何在windows系统下编译JAVA，生成可以执行的jar文件。NLPIR的下载地址：http://ictclas.nl... 阅读全文

posted @ 2015-06-12 23:19 军报应用开发阅读(6980) 评论(3) 推荐(0)

2015年6月4日

PHP爬虫技术（一）

摘要：摘要：本篇文章介绍PHP抓取网页内容技术，利用PHPcURL扩展获取网页内容，还可以抓取网页头部，设置cookie，处理302跳转。一、cURL安装采用源码安装PHP时，需要在configure时添加配置项，cdphp./configure--with-curl安装完毕，可以利用php-m命令查看，... 阅读全文

posted @ 2015-06-04 22:28 军报应用开发阅读(26815) 评论(2) 推荐(2)

军报应用开发

PC端和手机端的应用与研发

公告