随笔分类 -  爬虫

摘要:学习自: python3解析库lxml - Py.qi - 博客园 lxml官方文档 lxml官方文档——lxml中的类、方法使用,如果需要查看某些方法的具体用法,就到这个网页下 python爬虫系列--lxml(etree/parse/xpath)的使用 0、简介 lxml是Python的一个解析 阅读全文
posted @ 2021-04-18 11:20 ShineLe 阅读(603) 评论(0) 推荐(0) 编辑
摘要:问题:网页http://gk.chengdu.gov.cn/govInfo/detail.action?id=2653973&tn=2中有一个PDF需要下载,开发者模式下该PDF的链接为http://gk.chengdu.gov.cn/uploadfiles/07180246020404/20200 阅读全文
posted @ 2021-04-09 17:52 ShineLe 阅读(4578) 评论(0) 推荐(0) 编辑
摘要:1、KeyError: 'Spider not found: BDS' 原因:settings.py中缺少了几项与spider名字配置相关的项: BOT_NAME = 'BDS' SPIDER_MODULES = ['County.spiders'] NEWSPIDER_MODULE = 'Coun 阅读全文
posted @ 2021-04-08 16:49 ShineLe 阅读(287) 评论(0) 推荐(0) 编辑
摘要:学习自Requests and Responses — Scrapy 2.5.0 documentation Request在Spider中生成,被Downloader执行,之后会得到网页的Response 1、Request 1)构造 scrapy.http.Request(*args,**kw) 阅读全文
posted @ 2021-04-06 19:51 ShineLe 阅读(851) 评论(0) 推荐(0) 编辑
摘要:学习自Scrapy 2.4.1 documentation 这一部分是对官方文档的学习,主要是理解翻译,来对之前的应用部分进行详细的理论补充。 1、保存爬取到的要素的方式: ①运行scrapy指令时,添加参数-o、-O;(大小写字母o而不是数字) ②写Pipelines.py进行更详细的要素输出; 阅读全文
posted @ 2021-04-05 23:54 ShineLe 阅读(194) 评论(0) 推荐(0) 编辑
摘要:学习自:手把手教你用Python爬取百度搜索结果并保存 - 云+社区 - 腾讯云 如何利用python模拟百度搜索,Python交流,技术交流区,鱼C论坛 指定关键字,对其进行百度搜索,保存搜索结果,记录下搜索的内容和标题 思路: 首页:https://www.baidu.com/s?wd=* (将 阅读全文
posted @ 2021-04-05 21:58 ShineLe 阅读(4901) 评论(0) 推荐(1) 编辑
摘要:学习自:Python Scrapy 爬虫框架实例(一) - Blue·Sky - 博客园 这一节是对前两节内容的补充,涉及内容为一些额外的类与方法,来对原代码进行改进 原代码:这里并没有用前两节的代码,而是用了另一个爬虫的代码,作用是爬取千图网的图片信息。该爬虫的基本信息: 项目名:AdilCraw 阅读全文
posted @ 2021-04-05 15:39 ShineLe 阅读(177) 评论(0) 推荐(0) 编辑
摘要:学习自: XPath官方文档 XPath 教程 lxml+Xpath实现爬虫ck784101777的博客-CSDN博客 0、简介 XPath是一门在XML文档中查找信息的语言。 Xpath可以用于在XML文档中对元素和属性进行遍历。 XPath是W3C XSLT标准的主要元素,并且XQuery和XP 阅读全文
posted @ 2021-03-30 18:51 ShineLe 阅读(183) 评论(0) 推荐(0) 编辑
摘要:1、module() takes at most 2 arguments (3 given) 解决方法:导入Spider类时,是from scrapy import Spider而不是from scrapy.spiders import Spider;个人猜测可能是因为Python2和3版本差异引起 阅读全文
posted @ 2021-03-30 10:50 ShineLe 阅读(341) 评论(0) 推荐(0) 编辑
摘要:学习自:Scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250 - 知乎 Python Scrapy 爬虫框架实例(一) - Blue·Sky - 博客园 1、声明Item 爬虫爬取的目标是从非结构性的数据源提取结构性的数据,例如网页。Spider可以以Dict类型来返回提取的数据。然而,虽然 阅读全文
posted @ 2021-03-29 23:46 ShineLe 阅读(604) 评论(0) 推荐(0) 编辑
摘要:学习自: Scrapy爬虫框架教程(一)-- Scrapy入门 - 知乎 Scrapy爬虫框架,入门案例(非常详细)_ck784101777的博客-CSDN博客_scrapy爬虫案例 爬虫框架Scrapy个人总结(详细)熟悉 - 简书 本章介绍Scrapy使用时的基本要素构成。 1、简介 Scrap 阅读全文
posted @ 2021-03-26 22:02 ShineLe 阅读(555) 评论(0) 推荐(0) 编辑
摘要:前两天学习了Python的requests模块的相关内容,对于用GET和PSOT请求访问网页以抓取需要的内容有了初步的了解,想要再从一些复杂的网站积累些经验。最开始我采用最简单的get(url)方法想要抓取知乎热搜的标题,想着是个很简单的任务。但是耗费了我五天的时间才堪堪解决模拟登录知乎的问题,期间 阅读全文
posted @ 2020-10-21 19:58 ShineLe 阅读(1547) 评论(1) 推荐(2) 编辑
摘要:需要用requests库 豆瓣上次更新后,就不能通过直接的requests.post()方式直接传递参数登录了。必须新建session,先GET请求,然后POST才能成功。原因未知 data参数中的四个Key-Value的顺序任意 import requests url='https://accou 阅读全文
posted @ 2020-10-17 16:05 ShineLe 阅读(406) 评论(0) 推荐(0) 编辑
摘要:requests。它是一个Python第三方库,处理URL资源特别方便。 GET 用with语句块通过GET访问一个网页 import requests url='https://www.python.org' with requests.get('https://www.python.org') 阅读全文
posted @ 2020-10-16 13:01 ShineLe 阅读(78) 评论(0) 推荐(0) 编辑
摘要:GET和POST请求后会返回一个response对象,可通过key、values等访问字典中元素的方式来访问该response对象headers中的各种属性 r=requests.get(url,headers={'User-Agent':'...'}) for key,value in r.hea 阅读全文
posted @ 2020-10-16 12:52 ShineLe 阅读(1286) 评论(0) 推荐(0) 编辑
摘要:问题:对网页Python会议,用浏览器查看源码;尝试解析HTML,输出Python官网发布的会议时间、名称和地点 准备工作: ①打开网页后,需要提取的信息 ②按F12进入开发者模式,找到这部分的源代码 <li> <h3 class="event-title"><a href="/events/pyt 阅读全文
posted @ 2020-10-13 11:01 ShineLe 阅读(2052) 评论(0) 推荐(0) 编辑
摘要:urllib提供了一系列用于操作URL的功能。 GET urllib的request模块可以非常方便地抓取URL内容,也就是发送一个GET请求到指定的页面,然后返回HTTP的响应: 例如,对豆瓣的一个URL https://api.douban.com/v2/book/2129650 进行抓取,并返 阅读全文
posted @ 2020-10-12 16:22 ShineLe 阅读(121) 评论(0) 推荐(0) 编辑
摘要:学习自:https://www.jianshu.com/p/4c3e228940c8 使用参数、关键字访问服务器 访问网络的两种方法: 1、GET 利用参数给服务器传递信息 参数data为dict类型,然后用parse.urlencode()编码为str类型,用编码后的data+baseURL构成完 阅读全文
posted @ 2020-10-12 15:59 ShineLe 阅读(2058) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示