采集乱七八糟记录下
最近做采集新闻的东东,简单记录下
微信公众号采集
使用的是PHP的QueryList 库,composer安装就OK
- 请求参数
action 页面标识
__biz 微信公众号的唯一标识,这个可以用PC端登录微信复制链接可以看得到
scene =124 写死
- cookie 这个就比较麻烦的,获取到微信的cookie是有有效期的每个公众号的都不一样,目前测试发现有效期大概是4个小时,
其实cookie里面最重要的参数就是:
wxtokenkey=777 写死
wxuin=1146460420 当前登录微信的ID
User-Agent UA 这个是必须的了
wap_sid2 这个是最重要的参数
cookie的获取是老大弄的,这里只是简单介绍下思路,依赖的软件: 按键精灵,fidder
-
服务器数据库配置好公众号的数据比如__biz参数
-
win系统安装按键精灵,在PC版微信中,使用按键精灵个性化编程自动打开公众号的页面
-
安装fidder抓包工具,抓取微信历史页面请求,让后把Cookie同步到服务器数据库
fidder可以自定义编程的: 抓取Cookie同步到服务器
按键精灵可以可以自动编程:获取Cookie过期的公众号,重新打开历史页面便于fidder抓取Cookie
服务器采集程序负责采集,解析页面入数据库,其中发现Cookie过期更新对应公众号的Cookie的状态
- 实例代码实现
... item 一个公众号好数据
QueryList::get($page, [
'action' => 'home',
'__biz' => $item['biz'],
'scene' => 124,
], [
'headers' => [
'Accept' => 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
'User-Agent' => 'Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1',
//'Cookie'=>'wxtokenkey=777; wxuin=1146460420; devicetype=iMacMacBookPro121OSXOSX10.12.6build(16G1114); version=12030c10; lang=zh_CN; wap_sid2=CISy1qIEElxZYXdfanZra01NRS1DTGo5RndaeWNBQjEyaDhZQ3BaRHc5LVREQ1NjMFpHT1lPWFdDajVlandhaU9RLTZmWE9KemIxU3U1Q2lXXzZOMFBfVjlueGhXZjBEQUFBfjDbz87qBTgNQJVO'
//'Cookie'=>'wxtokenkey=777; wxuin=1146460420; devicetype=iMacMacBookPro121OSXOSX10.12.6build(16G1114); version=12030c10; lang=zh_CN; wap_sid2=CISy1qIEEnBFQzkyUy1oZW5fWDNBMVFUY3NlUFBsZm51NGdUbFBvVDg1SG5iZXY0UWFjb29hT2VPWXF1U3FiN3A2M2RLWktWVXFReWg5OHhjME1uUVRRa1JvNnJoeGttRHRDc3poWU9nc19sTy1Wek1uZi1Bd0FBMLPAz+oFOA1AlU4='
'Cookie' => $item['cookie'],
],
]);
列表数据的解析就很简单了,页面数据是一个json数据输出到html的,只需简单处理匹配就可以拿到数据列表
微信阅读数抓取 思路可供参考 https://www.jianshu.com/p/8794449fe335
搜狗微信文章爬取
搜狗微信爬去反爬虫比较严重,Cookie很容易被封
https://blog.csdn.net/qq_35193302/article/details/84559640
搜狗-新闻 https://news.sogou.com/news?sort=1&query=柬埔寨
搜狗-微信
https://weixin.sogou.com/weixin?type=2&&query=柬埔寨&tsn=5&ft=2019-08-14&et=2019-08-14
https://weixin.sogou.com/weixin?type=2&query=柬埔寨 搜索文章
https://weixin.sogou.com/weixin?query=柬埔寨 搜索微信公众号
type =1 搜索公众号,type=2 搜索微信的文章
ft from_time
et end_time
tsn=1 一天内
tsn=2 一周内
.....
tsn=5 自定义时间
page 页码
今天之内
https://weixin.sogou.com/weixin?query=柬埔寨&ft=2019-08-13&tsn=5&et=2019-08-13&type=2
搜狗新闻
直接爬去就行,只要不是太频繁,不会被封
https://news.sogou.com/news?sort=1&query=柬埔寨
https://www.baidu.com/s?tn=news&rtt=4&wd=柬埔寨
sort=1 时间倒序
query 关键词
百度新闻
tn=news 新闻
rtt=4 按时间
rtt=1 按焦点
wd 关键词
https://www.baidu.com/s?tn=news&rtt=4&wd=柬埔寨