采集乱七八糟记录下

最近做采集新闻的东东,简单记录下

微信公众号采集

使用的是PHP的QueryList 库,composer安装就OK

  • 请求参数
    action 页面标识

__biz 微信公众号的唯一标识,这个可以用PC端登录微信复制链接可以看得到

scene =124 写死

  • cookie 这个就比较麻烦的,获取到微信的cookie是有有效期的每个公众号的都不一样,目前测试发现有效期大概是4个小时,
    其实cookie里面最重要的参数就是:

wxtokenkey=777 写死

wxuin=1146460420 当前登录微信的ID

User-Agent UA 这个是必须的了

wap_sid2 这个是最重要的参数

cookie的获取是老大弄的,这里只是简单介绍下思路,依赖的软件: 按键精灵,fidder

  1. 服务器数据库配置好公众号的数据比如__biz参数

  2. win系统安装按键精灵,在PC版微信中,使用按键精灵个性化编程自动打开公众号的页面

  3. 安装fidder抓包工具,抓取微信历史页面请求,让后把Cookie同步到服务器数据库

fidder可以自定义编程的: 抓取Cookie同步到服务器

按键精灵可以可以自动编程:获取Cookie过期的公众号,重新打开历史页面便于fidder抓取Cookie

服务器采集程序负责采集,解析页面入数据库,其中发现Cookie过期更新对应公众号的Cookie的状态

  • 实例代码实现
... item 一个公众号好数据  

QueryList::get($page, [
                    'action' => 'home',
                    '__biz' => $item['biz'],
                    'scene' => 124,
                ], [
                    'headers' => [
                        'Accept' => 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
                        'User-Agent' => 'Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1',
                        //'Cookie'=>'wxtokenkey=777; wxuin=1146460420; devicetype=iMacMacBookPro121OSXOSX10.12.6build(16G1114); version=12030c10; lang=zh_CN; wap_sid2=CISy1qIEElxZYXdfanZra01NRS1DTGo5RndaeWNBQjEyaDhZQ3BaRHc5LVREQ1NjMFpHT1lPWFdDajVlandhaU9RLTZmWE9KemIxU3U1Q2lXXzZOMFBfVjlueGhXZjBEQUFBfjDbz87qBTgNQJVO'
                        //'Cookie'=>'wxtokenkey=777; wxuin=1146460420; devicetype=iMacMacBookPro121OSXOSX10.12.6build(16G1114); version=12030c10; lang=zh_CN; wap_sid2=CISy1qIEEnBFQzkyUy1oZW5fWDNBMVFUY3NlUFBsZm51NGdUbFBvVDg1SG5iZXY0UWFjb29hT2VPWXF1U3FiN3A2M2RLWktWVXFReWg5OHhjME1uUVRRa1JvNnJoeGttRHRDc3poWU9nc19sTy1Wek1uZi1Bd0FBMLPAz+oFOA1AlU4='
                        'Cookie' => $item['cookie'],
                    ],
                ]);

列表数据的解析就很简单了,页面数据是一个json数据输出到html的,只需简单处理匹配就可以拿到数据列表

微信阅读数抓取 思路可供参考 https://www.jianshu.com/p/8794449fe335

搜狗微信文章爬取

搜狗微信爬去反爬虫比较严重,Cookie很容易被封
https://blog.csdn.net/qq_35193302/article/details/84559640

https://weixin.sogou.com/weixin?type=2&ie=utf8&query=柬埔寨&tsn=5&ft=2019-08-13&et=2019-08-13&interation=&wxid=&usip=

搜狗-新闻 https://news.sogou.com/news?sort=1&query=柬埔寨
搜狗-微信
https://weixin.sogou.com/weixin?type=2&&query=柬埔寨&tsn=5&ft=2019-08-14&et=2019-08-14

https://weixin.sogou.com/weixin?type=2&query=柬埔寨 搜索文章

https://weixin.sogou.com/weixin?query=柬埔寨 搜索微信公众号

type =1 搜索公众号,type=2 搜索微信的文章
ft from_time
et end_time
tsn=1 一天内
tsn=2 一周内
.....
tsn=5 自定义时间
page 页码

今天之内
https://weixin.sogou.com/weixin?query=柬埔寨&ft=2019-08-13&tsn=5&et=2019-08-13&type=2

搜狗新闻

直接爬去就行,只要不是太频繁,不会被封
https://news.sogou.com/news?sort=1&query=柬埔寨
https://www.baidu.com/s?tn=news&rtt=4&wd=柬埔寨

sort=1 时间倒序
query 关键词

百度新闻

tn=news 新闻
rtt=4 按时间
rtt=1 按焦点
wd 关键词
https://www.baidu.com/s?tn=news&rtt=4&wd=柬埔寨

posted @ 2019-08-20 14:44  ncsb  阅读(204)  评论(0编辑  收藏  举报