python - 随笔分类(第2页) - 创客未来

爬虫_scrapy_CrawlSpider

摘要：CrawlSpider （1）继承自scrapy.Spider （2）独门秘籍 CrawlSpider可以定义规则，再解析html内容的时候，可以根据连接规则提取出指定的链接，然后再向这些链接发送请求。所以，如果有需要跟进链接的需求，意思就是爬取了网页之后，需要提取链接再次爬取，使用CrawlSp 阅读全文

posted @ 2022-05-31 13:13 创客未来阅读(28) 评论(0) 推荐(0) 编辑

爬虫_scrapy_多级页面的数据爬取

摘要：本案例以爬取电影天堂第一级页面的电影名称和点击链接后二级页面的img地址，并将第一级的名称和第二级页面的图片地址一起写入json文件，涉及到多级页面数据的组合。创建项目和页面命令这里就不说了，可以参考我之前的文章，这里主要说明核心代码。 1.spiders下的mv.py代码 import scra 阅读全文

posted @ 2022-05-31 09:20 创客未来阅读(1051) 评论(0) 推荐(0) 编辑

爬虫_scrapy_多管道爬取多页面数据

摘要：本案例以爬取当当网的书名和图片，利用多个管道执行下载，一个管道执行写json文件，一个管道执行下载图片并保存本地 1.创建项目 scrapy startproject scrapy_dangdang 2.创建一个爬虫文件爬取地址：http://category.dangdang.com/cp01. 阅读全文

posted @ 2022-05-30 16:21 创客未来阅读(407) 评论(0) 推荐(0) 编辑

爬虫_scrapy shell

摘要：什么是scrapy shell ？ scrapy终端，是一个交互终端，供您在未启动spider的情况下尝试及调试您的爬取代码/其本意是用来测试提取数据的代码，不过您可以将其作为正常的python终端，在上面测试任何的python代码。该终端是用来测试xpath或css表达式，查看他们的工作方式及从阅读全文

posted @ 2022-05-30 13:28 创客未来阅读(31) 评论(0) 推荐(0) 编辑

爬虫_scrapy_项目结构目录和基本方法

摘要：1.scrapy的项目结构 scrapy项目的结构项目名字项目名字 spiders文件夹（存储的是爬虫文件） init.py(默认文件) 自定义的爬虫文件（核心功能文件*） init items 定义数据结构的地方，爬取的数据都包含那些 middleware 中间件例如：代理 pipeline 阅读全文

posted @ 2022-05-30 11:14 创客未来阅读(269) 评论(0) 推荐(0) 编辑

爬虫_scrapy_基本使用

摘要：1.scrapy是什么？ Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。 2.安装scrapy pip install scrapy -i https://pypi.douban.com/simple 常见报错及解阅读全文

posted @ 2022-05-27 16:34 创客未来阅读(56) 评论(0) 推荐(0) 编辑

爬虫_request_cookie登录（隐藏域和验证码）

摘要：#通过登录然后进入到主页面 # 通过找登录接口我们发现登录的时候需要的参数很多 # __VIEWSTATE: Q9zeukk7PE5h9KCMT1uBtHMfNp6+Kfkwk5KywR928SJ/NJwdBGx04xq662yh/fA3/UuhXe7hlF0C19KQ3PHIFzj37k4o/UH 阅读全文

posted @ 2022-05-27 15:52 创客未来阅读(204) 评论(0) 推荐(0) 编辑

爬虫_requests

摘要：1.基本使用 1.1 文档官方文档： http://cn.python-requests.org/zh_CN/latest/ 快速上手： http://cn.python-requests.org/zh_CN/latest/user/quickstart.html 1.2.安装 pip insta 阅读全文

posted @ 2022-05-26 16:53 创客未来阅读(32) 评论(0) 推荐(0) 编辑

爬虫_selenium_Chrome handless

摘要：Chrome-headless 模式，Google针对Chrome浏览器59版本新增加的一种模式，可以让你不打开UI界面的情况下使用Chrome浏览器，所以运行效果于Chrome保持完美一致。 from selenium import webdriver from selenium.webdrive 阅读全文

posted @ 2022-05-26 16:08 创客未来阅读(169) 评论(0) 推荐(0) 编辑

爬虫_selenium_Phantomjs(停更了)

摘要：1.什么是Phantomjs？（1）是一个无界面的浏览器（2）支持页面元素查找，js的执行等（3）由于不进行css和gui渲染，运行效率要比真实的浏览器要快很多 2.如何使用Phantomjs? 获取PhantomJS.exe文件路径path browser=webdriver.Phantom 阅读全文

posted @ 2022-05-26 15:54 创客未来阅读(46) 评论(0) 推荐(0) 编辑

爬虫_selenium_访问元素信息及交互

摘要：1.访问元素信息获取元素属性 .get_attribute('class') 获取元素文本 .text 获取标签名 .tag_name from selenium import webdriver from selenium.webdriver.common.by import By path = 阅读全文

posted @ 2022-05-26 15:43 创客未来阅读(52) 评论(0) 推荐(0) 编辑

爬虫_selenium_元素定位

摘要：元素定位：自动化要做的就是模拟鼠标和键盘来操作这些元素，点击、输入等等。操作这些元素前首先要找到它们，webDriver提供很多定位元素的方法方法： 1. find_element_by_id # 根据id来找到对象 button = browser.find_element_by_id('su' 阅读全文

posted @ 2022-05-26 11:18 创客未来阅读(67) 评论(0) 推荐(0) 编辑

爬虫_selenium_基本使用

摘要：1.什么是selenium？（1）selenium是一个用于web应用程序测试工具（2）selenium测试直接运行在浏览器中，就像真正的用户在操作一样（3）支持通过各种driver（FirfoxDirver,IternetExploreDriver,OperaDriver,ChromeDri 阅读全文

posted @ 2022-05-25 16:17 创客未来阅读(56) 评论(0) 推荐(0) 编辑

爬虫_解析_BeautifulSoup

摘要：1.基本简介 BeautifulSoup简称：bs4 BeautifulSoup，和lxml一样，是一个html的解析器，主要功能也是解析和提取数据优缺点：效率没有lxml的效率高，接口设计人性化，使用方便 2.安装以及创建 2.1安装 pip install bs4 2.2导入 from bs4 阅读全文

posted @ 2022-05-25 15:45 创客未来阅读(57) 评论(0) 推荐(0) 编辑

爬虫_解析_JsonPath

摘要：1.Json Path介绍看它的名字你就能知道，这Json Path和JSON文档有关系，正如XPath之于XML文档一样，JsonPath为Json文档提供了解析能力，通过使用JsonPath，你可以方便的查找节点、获取想要的数据，JsonPath是Json版的XPath。 JsonPath只能阅读全文

posted @ 2022-05-25 13:10 创客未来阅读(160) 评论(0) 推荐(0) 编辑

爬虫_解析_xpath

摘要：1.xpath插件安装（1) 打开chrome浏览器（2）点击右上角小圆点（3）更多工具（4）扩展程序（5）拖拽xpath插件到扩展程序中（6）如果crx文件失效，需要将后缀修改为zip （7）再次拖拽（8）关闭浏览器重新打开（9）Ctrl + shift + x （10）出现小黑框阅读全文

posted @ 2022-05-24 16:37 创客未来阅读(75) 评论(0) 推荐(0) 编辑

爬虫_urllib_handler处理器

摘要：为什么要学习handler？如果定制更高级的请求头，随着业务逻辑的复杂请求对象的定制已经满足不了我们的需求（动态cookie和代理不能使用请求对象的定制） 1.Handler处理器的基本使用 #Handler的基本使用 import urllib.request url = 'http://www 阅读全文

posted @ 2022-05-24 13:21 创客未来阅读(56) 评论(0) 推荐(0) 编辑

爬虫_urllib的Cookie登录

摘要：适用场景：数据采集的时候需要经过登录然后进入到某个页面案例目的是跳过登录直接进入个人信息页面经过分析： 1.请求的url地址为：https://weibo.cn/2954041765/info 2.请求方式为：get 代码如下： #适用的场景：数据采集的时候需要绕过登录然后进入到某个页面 # i 阅读全文

posted @ 2022-05-24 09:39 创客未来阅读(163) 评论(0) 推荐(0) 编辑

爬虫_urllib_URLError和HTTPError（异常处理）

摘要：简介 1.HTTPError类是URLError类的子类 2.http错误：http错误是针对浏览器无法连接到服务器而增加出来的错误提示。引导并告诉浏览者该页面是哪里出现了问题 3.通过urllib发送请求的时候，有可能会发送失败，这个时候如果想让你的代码更加健壮性，可以通过try-except进行阅读全文

posted @ 2022-05-23 14:51 创客未来阅读(420) 评论(0) 推荐(0) 编辑

爬虫_urllib中ajax的post请求

摘要：下载肯德基官网中餐厅的数据。经过分析： 1.请求接口的地址：http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=cname 2.请求方式：post 3.请求参数：全部代码： #获取肯德基官网数据 # import urllib.parse 阅读全文

posted @ 2022-05-23 14:23 创客未来阅读(57) 评论(0) 推荐(0) 编辑

创客未来

随笔分类 - python

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论