2017年2月28日

scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250

摘要: scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250 scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250 前言 经过上一篇教程我们已经大致了解了Scrapy的基本情况,并写了一个简单的小demo。这次我会以爬取豆瓣电影TOP250为例进一步为大家讲解一个完整爬虫的流程。 工具和环境 阅读全文

posted @ 2017-02-28 21:59 吃咯 阅读(7014) 评论(0) 推荐(0) 编辑

requests的content与text导致lxml的解析问题

摘要: 我使用requests获取了新浪微博的源代码,通过lxml库的etree.HTML来处理一段网页源代码,从而生成一个可以被xpath解析的对象。 遇到报错: 根据报错信息推测,可能是因为不支持编码声明的Unicode字符串。Google发现这个问题在2012年就已经有人提交给作者了,但是一直没有被修 阅读全文

posted @ 2017-02-28 10:57 吃咯 阅读(835) 评论(0) 推荐(0) 编辑

导航