Fork me on Gitee
摘要: 糗事百科scrapy爬虫笔记 1.response是一个'scrapy.http.response.html.HtmlResponse'对象,可以执行xpath,css语法来提取数据 2.提取出来的数据,是一个'Selector'或者是一个'SelectorList'对象,如果想要获取其中的字符串, 阅读全文
posted @ 2018-08-16 16:59 MARK+ 阅读(223) 评论(0) 推荐(0) 编辑
摘要: #settings.py文件设置 #如果网站中没有robots文件,就不会抓取任何数据 ROBOTSTXT_OBEY = False #设置请求头 DEFAULT_REQUEST_HEADERS = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; …) 阅读全文
posted @ 2018-08-16 15:10 MARK+ 阅读(220) 评论(0) 推荐(0) 编辑