随笔分类 - 爬虫
摘要:学习自: python3解析库lxml - Py.qi - 博客园 lxml官方文档 lxml官方文档——lxml中的类、方法使用,如果需要查看某些方法的具体用法,就到这个网页下 python爬虫系列--lxml(etree/parse/xpath)的使用 0、简介 lxml是Python的一个解析
阅读全文
摘要:问题:网页http://gk.chengdu.gov.cn/govInfo/detail.action?id=2653973&tn=2中有一个PDF需要下载,开发者模式下该PDF的链接为http://gk.chengdu.gov.cn/uploadfiles/07180246020404/20200
阅读全文
摘要:1、KeyError: 'Spider not found: BDS' 原因:settings.py中缺少了几项与spider名字配置相关的项: BOT_NAME = 'BDS' SPIDER_MODULES = ['County.spiders'] NEWSPIDER_MODULE = 'Coun
阅读全文
摘要:学习自Requests and Responses — Scrapy 2.5.0 documentation Request在Spider中生成,被Downloader执行,之后会得到网页的Response 1、Request 1)构造 scrapy.http.Request(*args,**kw)
阅读全文
摘要:学习自Scrapy 2.4.1 documentation 这一部分是对官方文档的学习,主要是理解翻译,来对之前的应用部分进行详细的理论补充。 1、保存爬取到的要素的方式: ①运行scrapy指令时,添加参数-o、-O;(大小写字母o而不是数字) ②写Pipelines.py进行更详细的要素输出;
阅读全文
摘要:学习自:手把手教你用Python爬取百度搜索结果并保存 - 云+社区 - 腾讯云 如何利用python模拟百度搜索,Python交流,技术交流区,鱼C论坛 指定关键字,对其进行百度搜索,保存搜索结果,记录下搜索的内容和标题 思路: 首页:https://www.baidu.com/s?wd=* (将
阅读全文
摘要:学习自:Python Scrapy 爬虫框架实例(一) - Blue·Sky - 博客园 这一节是对前两节内容的补充,涉及内容为一些额外的类与方法,来对原代码进行改进 原代码:这里并没有用前两节的代码,而是用了另一个爬虫的代码,作用是爬取千图网的图片信息。该爬虫的基本信息: 项目名:AdilCraw
阅读全文
摘要:学习自: XPath官方文档 XPath 教程 lxml+Xpath实现爬虫ck784101777的博客-CSDN博客 0、简介 XPath是一门在XML文档中查找信息的语言。 Xpath可以用于在XML文档中对元素和属性进行遍历。 XPath是W3C XSLT标准的主要元素,并且XQuery和XP
阅读全文
摘要:1、module() takes at most 2 arguments (3 given) 解决方法:导入Spider类时,是from scrapy import Spider而不是from scrapy.spiders import Spider;个人猜测可能是因为Python2和3版本差异引起
阅读全文
摘要:学习自:Scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250 - 知乎 Python Scrapy 爬虫框架实例(一) - Blue·Sky - 博客园 1、声明Item 爬虫爬取的目标是从非结构性的数据源提取结构性的数据,例如网页。Spider可以以Dict类型来返回提取的数据。然而,虽然
阅读全文
摘要:学习自: Scrapy爬虫框架教程(一)-- Scrapy入门 - 知乎 Scrapy爬虫框架,入门案例(非常详细)_ck784101777的博客-CSDN博客_scrapy爬虫案例 爬虫框架Scrapy个人总结(详细)熟悉 - 简书 本章介绍Scrapy使用时的基本要素构成。 1、简介 Scrap
阅读全文
摘要:前两天学习了Python的requests模块的相关内容,对于用GET和PSOT请求访问网页以抓取需要的内容有了初步的了解,想要再从一些复杂的网站积累些经验。最开始我采用最简单的get(url)方法想要抓取知乎热搜的标题,想着是个很简单的任务。但是耗费了我五天的时间才堪堪解决模拟登录知乎的问题,期间
阅读全文
摘要:需要用requests库 豆瓣上次更新后,就不能通过直接的requests.post()方式直接传递参数登录了。必须新建session,先GET请求,然后POST才能成功。原因未知 data参数中的四个Key-Value的顺序任意 import requests url='https://accou
阅读全文
摘要:requests。它是一个Python第三方库,处理URL资源特别方便。 GET 用with语句块通过GET访问一个网页 import requests url='https://www.python.org' with requests.get('https://www.python.org')
阅读全文
摘要:GET和POST请求后会返回一个response对象,可通过key、values等访问字典中元素的方式来访问该response对象headers中的各种属性 r=requests.get(url,headers={'User-Agent':'...'}) for key,value in r.hea
阅读全文
摘要:问题:对网页Python会议,用浏览器查看源码;尝试解析HTML,输出Python官网发布的会议时间、名称和地点 准备工作: ①打开网页后,需要提取的信息 ②按F12进入开发者模式,找到这部分的源代码 <li> <h3 class="event-title"><a href="/events/pyt
阅读全文
摘要:urllib提供了一系列用于操作URL的功能。 GET urllib的request模块可以非常方便地抓取URL内容,也就是发送一个GET请求到指定的页面,然后返回HTTP的响应: 例如,对豆瓣的一个URL https://api.douban.com/v2/book/2129650 进行抓取,并返
阅读全文
摘要:学习自:https://www.jianshu.com/p/4c3e228940c8 使用参数、关键字访问服务器 访问网络的两种方法: 1、GET 利用参数给服务器传递信息 参数data为dict类型,然后用parse.urlencode()编码为str类型,用编码后的data+baseURL构成完
阅读全文