2017 年 2月 28 日随笔档案 - 吃咯

2017年2月28日

scrapy爬虫框架教程（二）-- 爬取豆瓣电影TOP250

摘要： scrapy爬虫框架教程（二）-- 爬取豆瓣电影TOP250 scrapy爬虫框架教程（二）-- 爬取豆瓣电影TOP250 前言经过上一篇教程我们已经大致了解了Scrapy的基本情况，并写了一个简单的小demo。这次我会以爬取豆瓣电影TOP250为例进一步为大家讲解一个完整爬虫的流程。工具和环境阅读全文

posted @ 2017-02-28 21:59 吃咯阅读(7014) 评论(0) 推荐(0) 编辑

requests的content与text导致lxml的解析问题

摘要：我使用requests获取了新浪微博的源代码，通过lxml库的etree.HTML来处理一段网页源代码，从而生成一个可以被xpath解析的对象。遇到报错：根据报错信息推测，可能是因为不支持编码声明的Unicode字符串。Google发现这个问题在2012年就已经有人提交给作者了，但是一直没有被修阅读全文

posted @ 2017-02-28 10:57 吃咯阅读(835) 评论(0) 推荐(0) 编辑

吃咯

scrapy爬虫框架教程（二）-- 爬取豆瓣电影TOP250

requests的content与text导致lxml的解析问题

导航

公告