scrapy爬取今日头条

今日头条加密http://www.cnblogs.com/xuchunlin/p/7097391.html 非常感谢！

参考网站：http://blog.csdn.net/u011475134/article/details/70198533

参考网站：http://www.jianshu.com/p/5a93673ce1c0 这位大神写的很详细，不过现在api这个接口有点变化，多了一个参数

经过测试，这个参数可以固定！

start_urls=[

'https://www.toutiao.com/api/pc/feed/?category=news_finance&utm_source=toutiao&widen=1&max_behot_time={0}&max_behot_time_tmp={0}&tadrequire=true&as={1}&cp={2}&_signature=7DQ2rwAAtiawWJlHXVZg8uw0Nr']

请求头

加密算法和js http://www.cnblogs.com/xuchunlin/p/7097391.html 感谢！

加密的js没找到，直接用大神写的解密方式

从redis获取数据重组

json数据

解析json数据

一开始使用的是，抽取"source_url"的数据，然后301重定向可以访问详细页，跑了几遍之后会有一些奇怪的url，最后发现这样的方式不行，然后重组url。

获取下一部分

下一部分，只使用10次

3.详细页解析

不是我们熟悉的html呈现，而是js的形式

解析：正则！！====>解析正文部分。

可以看到有'<>'的html里面的大于小于号

一开始是，把这些符号用正则替换

最后运行几次，有个别文章匹配方式跟这种有点不同，达不到通用，换方案！

这一段的正文，在浏览器上呈现，可以看到是一段html文字，所以想到转换，

etree呈现出来之后，我们可以提取出来，再次etree

解析

这种方式，目前运行正常

在这里只是提供一种方法，也许不是最好的，只要能达到目的就行！

也希望大家能有新的方法！

posted @ 2017-12-13 17:52 retime123 阅读(3707) 评论(5) 收藏举报

刷新页面返回顶部

recordtime

scrapy爬取今日头条

3.详细页解析

公告