随笔分类 - Python Crawle
1
摘要:关于email模块的使用 爬取天气预报并发到指定人的QQ邮箱(使用新浪邮箱) 天气预报: https://tianqi.so.com/weather/ # coding: utf-8 import smtplib from email.mime.text import MIMEText from e
阅读全文
摘要:DecryptLogin 项目地址: https://github.com/CharlesPikachu/DecryptLogin 项目中文文档: https://httpsgithubcomcharlespikachudecryptlogin.readthedocs.io/zh/latest/ S
阅读全文
摘要:如何使用 只需要将代码中的headurl替换以下格式,其中你只需要改变以下链接的阴影部分,阴影部分为你的博客园链接。 类似: https://www.cnblogs.com/-wenli/default.html?page= 原理 使用requests爬取网页,再使用BeautifulSoup解析网
阅读全文
摘要:Flask开发系列之Flask+redis实现IP代理池 代理池的要求 多站抓取,异步检测:多站抓取:指的是我们需要从各大免费的ip代理网站,把他们公开的一些免费代理抓取下来;一步检测指的是:把这些代理通过异步请求的方式,利用这些代理请求网站:如果能正常请求就证明代理可用,如果不能正常请求就证明代理
阅读全文
摘要:Python爬虫之设置selenium webdriver等待 ajax技术出现使异步加载方式呈现数据的网站越来越多,当浏览器在加载页面时,页面上的元素可能并不是同时被加载完成,这给定位元素的定位增加了困难。 如果因为在加载某个元素时延迟而造成ElementNotVisibleException(不
阅读全文
摘要:Python爬虫之selenium高级功能 原文地址 表单操作 元素拖拽 页面切换 弹窗处理 表单操作 表单里面会有文本框、密码框、下拉框、登陆框等。 这些涉及与页面的交互,比如输入、删除、点击等。 前提是找到页面中的元素。 例如下面有一个表单输入框: 获取这个元素的方法: 注意:使用 xpath
阅读全文
摘要:Python爬虫之urllib.parse 转载地址 Python 中的 urllib.parse 模块提供了很多解析和组建 URL 的函数。 解析url 解析url( urlparse() ) urlparse() 函数可以将 URL 解析成 ParseResult 对象。对象中包含了六个元素,分
阅读全文
摘要:简单爬虫框架实现 目录 框架流程 调度器 url管理器 网页下载器 网页解析器 数据处理器 使用文档保存文本信息 使用文件保存图片,视频文件等,可进行扩展 具体演示效果 演示url:http://www.dili360.com/gallery/ 演示过程: 数据处理:
阅读全文
摘要:python爬虫之反爬虫(随机user-agent,获取代理ip,检测代理ip可用性) 目录 随机User-Agent 获取代理ip 检测代理ip可用性 随机User-Agent fake_useragent库,伪装请求头 from fake_useragent import UserAgent u
阅读全文
摘要:python爬虫之下载文件的方式以及下载实例 目录 第一种方法:urlretrieve方法下载 第二种方法:request download 第三种方法:视频文件、大型文件下载 实战演示 第一种方法:urlretrieve方法下载 程序示例: 补充知识: 第二种方法:request download
阅读全文
摘要:Python爬虫之selenium的使用 一、简介 二、安装 三、使用 一、简介 Selenium 是自动化测试工具。它支持各种浏览器,包括 Chrome,Safari,Firefox 等主流界面式浏览器,如果你在这些浏览器里面安装一个 Selenium 的插件,那么便可以方便地实现Web界面的测试
阅读全文
摘要:python爬虫之分析Ajax请求抓取抓取今日头条街拍美图 一、分析网站 1.进入浏览器,搜索今日头条,在搜索栏搜索街拍,然后选择图集这一栏。 2.按F12打开开发者工具,刷新网页,这时网页回弹到综合这一栏,点击图集,在开发者工具中查看 XHR这个选项卡。 3.具体分析url,请求参数 当我们在请求
阅读全文
摘要:Python爬虫之PyQuery使用 PyQuery简介 pyquery能够通过选择器精确定位 DOM 树中的目标并进行操作。pyquery相当于jQuery的python实现,可以用于解析HTML网页等。它的语法与jQuery几乎完全相同,对于使用过jQuery的人来说很熟悉,也很好上手。 初始化
阅读全文
摘要:Python爬虫之Beautiful Soup解析库的使用 Beautiful Soup-介绍 Python第三方库,用于从HTML或XML中提取数据官方:http://www.crummv.com/software/BeautifulSoup/ 安装:pip install beautifulso
阅读全文
摘要:requests+正则表达式抓取猫眼电影top100 一.首先我们先分析下网页结构 可以看到第一页的URL和第二页的URL的区别在于offset的值,第一页为0,第二页为10,以此类推。 二.<dd>标签的结构(含有电影相关信息) 三、源代码 四、运行结果如下: requests+正则表达式抓取瓜子
阅读全文
摘要:正则表达式的使用 re.match(pattern,string,flags=0) re.match尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none 参数介绍:pattern:正则表达式string:匹配的目标字符串flags:匹配模式 正则表达式的匹配
阅读全文
摘要:mongodb安装和配置 1.下载:https://www.mongodb.com 2.解压到盘的根目录下,本人解压到D盘根目录 3.在软件根目录下新建一个文件夹data 4.再新建两个文件夹db、logs,在logs下再新建log1.log 5.打开mangodb: 第一种方法 在bin目录下,按
阅读全文
摘要:Requests Requests模块 Requests模块是一个用于网络访问的模块,其实类似的模块有很多,比如urllib,urllib2,httplib,httplib2,他们基本都提供相似的功能。 在上一篇我们已经使用urllib模块 而Requests会比urllib更加方便,可以节约我们大
阅读全文
摘要:urllib模块 urllib模块简介: urllib提供了一系列用于操作URL的功能。包含urllib.request,urllib.error,urllib.parse,urllib.robotparser四个子模块 urllib.request打开和浏览url中内容 urllib.error包
阅读全文
1