摘要: 做采集的时候,可以使用file_get_contents()去获取网页源代码,但是使用file_get_contents采集,速度慢,而且超时时间,不好控制。如果采集的页面不存在,需要等待的时间很长。一般来说,curl的速度最快,其次是socket,最后是file_get_contents。现在跟大... 阅读全文
posted @ 2015-10-26 15:41 chinall 阅读(1735) 评论(0) 推荐(0) 编辑
摘要: 当我们需要采集网络上的某个网页内容时,如果目标网站上的图片做了防盗链的话,我们直接采集过来的图片在自己网站上是不可用的。那么我们使用程序将目标网站上的图片下载到我们网站服务器上,然后就可调用图片了。本文将使用PHP实现采集远程图片功能。基本流程:1、获取目标网站图片地址。2、读取图片内容。3、创建要... 阅读全文
posted @ 2015-10-26 15:39 chinall 阅读(284) 评论(0) 推荐(0) 编辑
摘要: 最近要对网站做个整理,需要检测网站内哪些页面没有被百度搜索引擎收录从而进行相关的调整。由于使用site命令一条条的去看实在是看不过来,就想到了使用php程序来批量处理一下,研究了一下,发现其实很简单,下面就将作者使用php实现的检测页面是否被百度收录的功能分享一下。下面是具体代码:<?php/** ... 阅读全文
posted @ 2015-10-26 15:37 chinall 阅读(434) 评论(0) 推荐(0) 编辑
摘要: php默认有个函数similar_text()用于计算字符串之间的相似度,该函数也可以计算两个字符串的相似度(以百分比计)。不过这个函数感觉对中文计算很不准确比如:echo similar_text("吉林禽业公司火灾已致112人遇难","吉林宝源丰禽业公司火灾已致112人遇难");这两个新闻标题其... 阅读全文
posted @ 2015-10-26 15:19 chinall 阅读(895) 评论(0) 推荐(0) 编辑