百度新闻搜索结果页的采集

采集需求示例说明：具体要求如下

采集页面：http://news.baidu.com/ns?kw=& ... p;word=%C0%ED%B2%C6

http://news.baidu.com/ns?kw=&sc=news&cl=2&tn=news&ct=0&rn=20&lm=&ie=&rs2=&myselectvalue=&f=&pv=&z=&from=news&word=%C0%ED%B2%C6

需要的就是这个页面的内容。
从<div id="r">开始的20条新闻信息。
信息后面的（“8条相同新闻”）这里的文字和链接不要
百度搜索结果每页标题都是相同，需要解决（我用的是dede，相同标题不能入库）

再说明一下，需要的就是这个页面的内容。再进去的站的内容不需要。应该明白？

这个是一个网友发给我的采集说明；
针对百度搜索结果的采集，分为3种情况：
1、直接采集百度搜索结果页面的内容，得到信息的标题，链接，信息的概述；
2、采集百度搜索结果页面的内容，得到网站名、网址，并排出重复；
3、采集百度搜索结果页面，得到对应信息链接，再采集信息链接得到最终结果；

本例中说明的是第一种情况；
一、先说说百度搜索结果的翻页参数；