百度新闻搜索结果页的采集
采集需求示例说明:具体要求如下
采集页面:http://news.baidu.com/ns?kw=& ... p;word=%C0%ED%B2%C6
http://news.baidu.com/ns?kw=&sc=news&cl=2&tn=news&ct=0&rn=20&lm=&ie=&rs2=&myselectvalue=&f=&pv=&z=&from=news&word=%C0%ED%B2%C6
需要的就是这个页面的内容。
从<div id="r">开始的20条新闻信息。
信息后面的(“8条相同新闻”)这里的文字和链接不要
百度搜索结果每页标题都是相同,需要解决(我用的是dede,相同标题不能入库)
再说明一下,需要的就是这个页面的内容。再进去的站的内容不需要。应该明白?
这个是一个网友发给我的采集说明;
针对百度搜索结果的采集,分为3种情况:
1、直接采集百度搜索结果页面的内容,得到信息的标题,链接,信息的概述;
2、采集百度搜索结果页面的内容,得到网站名、网址,并排出重复;
3、采集百度搜索结果页面,得到对应信息链接,再采集信息链接得到最终结果;
本例中说明的是第一种情况;
一、先说说百度搜索结果的翻页参数;
http://news.baidu.com/ns?bt=0&et=0&si=&rn=20&tn=newsA&ie=gb2312&ct=0&word=%C0%ED%B2%C6&pn=(*)&cl=2
pn是页码的标记,但是和其他的翻页不一样的是,他并不是按照1、2、3、4往上排的,而是0、20、40、60往上加的。
截图说明:
二、采集信息标题:
正则说明:
<td class="text"><a href="http://(*)target=_blank><span><b>[参数]</b>
三、采集信息内容:
正则说明:<font color=#6f6f6f>[参数]et=_blank>百度快照</a>
四、采集信息来源:
正则说明:<nobr>[参数]
五、采集信息出处:
正则说明:<nobr>(*) [参数]</nobr>
六、采集信息时间:
正则说明:<td class="text"><a href="[参数]"
以上采集均使用了页面循环采集的勾选项;
用火车头的采集结果效果预览请看第二楼的回帖;
如果要下载写好的规则文件请访问:http://www.dataindex.org/dicontent-834-1-1.html
[采集规则] 百度搜索结果页系列采集规则
本人博客的文章大部分来自网络转载,因为时间的关系,没有写明转载出处和作者。所以在些郑重的说明:文章只限交流,版权归作者。谢谢