随笔分类 -  爬虫

摘要:前提 想要python通过使用selenium操作浏览器搞些事情,就必须有两个前提条件: 1.下载selenium 模块 2. 安装selenium的浏览器驱动 webdriver selenium模块的下载 pip install selenium pip install -i https://p 阅读全文
posted @ 2021-01-10 08:39 流年中渲染了微笑 阅读(103) 评论(0) 推荐(0) 编辑
摘要:import time from selenium import webdriver from selenium.webdriver import ChromeOptions from selenium.webdriver.common.keys import Keys from getpass i 阅读全文
posted @ 2020-02-14 21:35 流年中渲染了微笑 阅读(223) 评论(0) 推荐(0) 编辑
摘要:scrapy框架之持久化操作 基于终端指令的持久化存储 基于管道的持久化存储 1 基于终端指令的持久化存储 保证爬虫文件的parse方法中有可迭代类型对象(通常为列表or字典)的返回,该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作。 以爬取糗事百科(https://www.qius 阅读全文
posted @ 2019-01-08 10:57 流年中渲染了微笑 阅读(205) 评论(0) 推荐(0) 编辑
摘要:一 什么是scrapy框架 官方解释 自己理解 二 scrapy框架的安装 三 基本使用 步骤: 1 创建工程 2 进去第二层目录--创建爬虫应该程序 3 编写爬虫文件 4 修改setting文件 5 执行爬虫 具体: 1 创建工程 2 进去第二层目录--创建爬虫应该程序 3 编写爬虫文件--在执行 阅读全文
posted @ 2019-01-03 09:36 流年中渲染了微笑 阅读(246) 评论(0) 推荐(0) 编辑
摘要:selenuim和phantonJs处理网页动态加载数据的爬取 一 图片懒加载 自己理解 就是在打开一个页面的时候,图片数量特别多,图片加载会增加服务器的压力,所以我们在这个时候,就会用到 懒加载,,网页解析是从上往下的。在解析的过程里,如果遇见资源了,浏览器会再次请求的。但是一个网页可能存在很多请 阅读全文
posted @ 2019-01-02 15:42 流年中渲染了微笑 阅读(419) 评论(0) 推荐(0) 编辑
摘要:基于requests模块的cookie操作 引言:有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取某个人“人人网”个人主页数据)时,如果使用之前requests模块常规操作时,往往达不到我们想要的目的 例如:我们要得到如下的形式 但是,我们通过之前所学习的知识 得到的是, 呀 呀 呀 阅读全文
posted @ 2018-12-24 21:33 流年中渲染了微笑 阅读(684) 评论(0) 推荐(0) 编辑
摘要:数据解析三种方式 正则解析 Xpath解析 BeautifulSoup解析 一 正则解析 1 常用正则表达式回顾 单字符: . : 除换行以外所有字符 [] :[aoe] [a-w] 匹配集合中任意一个字符 \d :数字 [0-9] \D : 非数字 \w :数字、字母、下划线、中文 \W : 非\ 阅读全文
posted @ 2018-12-24 11:53 流年中渲染了微笑 阅读(796) 评论(0) 推荐(0) 编辑
摘要:一 requests模块 概念: python中原生的基于网络请求的模块,模拟浏览器进行请求发送,获取页面数据 安装: pip install requests 二 requests使用的步骤 1 指定url 2 基于requests模块请求发送 3 获取响应对象中的数据值(text) 4 持久化储 阅读全文
posted @ 2018-12-19 19:51 流年中渲染了微笑 阅读(256) 评论(0) 推荐(0) 编辑
摘要:(〇)如何安装Anaconda (一)爬虫的介绍 (二)requests模块的使用 (三)三种数据解析方式学习 (四)requests模块的cookies 和 代理操作 (五)selenuim和phantonJs处理网页动态加载数据的爬取 (六)scrapy框架 (6.1)scrapy框架简介和基础 阅读全文
posted @ 2018-11-12 19:58 流年中渲染了微笑 阅读(211) 评论(0) 推荐(0) 编辑
摘要:爬虫(一)爬虫的介绍 什么是爬虫 爬虫就是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程。 哪些语言可以实现爬虫 1.php:可以实现爬虫。php被号称是全世界最优美的语言(当然是其自己号称的,就是王婆卖瓜的意思),但是php在实现爬虫中支持多线程和多进程方面做的不好。 2.java: 阅读全文
posted @ 2018-11-07 15:20 流年中渲染了微笑 阅读(291) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示