随笔分类 -  爬虫

基于python3
摘要:一. 常用定位方法 1.根据文本值定位元素 查找文本值为DNS的div元素 text1 = html.xpath("//div[text()='DNS']") text2 = html.xpath("//div[text()='DNS']/text()") #获取这个div对象的文本值 2.不选择某 阅读全文
posted @ 2023-03-17 17:26 坚强的小蚂蚁 阅读(204) 评论(0) 推荐(0) 编辑
摘要:1. div内的ID定位及滚动js = 'document.getElementById("zhizi_mask").scrollTop=10000'driver.execute_script(js) 2. div内的classname定位及滚动,注意getElements返回的是个列表所以[0]j 阅读全文
posted @ 2023-02-06 13:33 坚强的小蚂蚁 阅读(1004) 评论(0) 推荐(0) 编辑
摘要:方法1鼠标点击网页某个坐标from selenium.webdriver.common.action_chains import ActionChains driver.get(start_url)onChains(driver).move_by_offset(971, 437).click().p 阅读全文
posted @ 2023-02-06 09:57 坚强的小蚂蚁 阅读(143) 评论(0) 推荐(0) 编辑
摘要:1. 使用chrome时 from selenium import webdriver options = webdriver.ChromeOptions() options.add_argument('ignore-certificate-errors') browser = webdriver. 阅读全文
posted @ 2021-06-21 17:56 坚强的小蚂蚁 阅读(5310) 评论(0) 推荐(1) 编辑
摘要:1. 微信文章动态爬取的一个例子 import time from selenium import webdriver driver = webdriver.Chrome() driver.get("https://mp.weixin.qq.com/s/FCsJMGlWvwfR18YtLSLKtQ" 阅读全文
posted @ 2021-06-21 15:57 坚强的小蚂蚁 阅读(2080) 评论(0) 推荐(0) 编辑
摘要:ubuntu安装phantomjs https://blog.csdn.net/bobozai86/article/details/100056503 下载地址 https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-2.1.1-linux 阅读全文
posted @ 2020-11-25 09:37 坚强的小蚂蚁 阅读(594) 评论(0) 推荐(0) 编辑
摘要:以伯乐在线文章为爬取目标blog.jobbole.com,发现在"最新文章"选项中可看到所有文章 一般来说,可以用scrapy中自带的xpath或者css来提取数据,定义在spiders/jobbole.py中的def parse(self, response) import scrapy clas 阅读全文
posted @ 2018-09-11 17:47 坚强的小蚂蚁 阅读(6677) 评论(0) 推荐(1) 编辑
摘要:生成项目 scrapy startproject image360 cd Image360 && scrapy genspider images images.so.com 一. 构造请求 1. 在setting.py中增加MAX_PAGE=5,表示爬取5页 2. 在images.py中定义star 阅读全文
posted @ 2018-08-02 17:20 坚强的小蚂蚁 阅读(241) 评论(0) 推荐(0) 编辑
摘要:一. 功能说明 Downloader Middleware有三个核心的方法 process_request(request, spider) process_response(request, response, spider) process_exception(request, exceptio 阅读全文
posted @ 2018-08-02 11:48 坚强的小蚂蚁 阅读(180) 评论(0) 推荐(0) 编辑
摘要:一. 基本概念 1. Selector是一个可独立使用的模块,我们可以用Selector类来构建一个选择器对象,然后调用它的相关方法如xpaht(), css()等来提取数据,如下 from scrapy import Selector body= '<html><head><title>Hello 阅读全文
posted @ 2018-08-01 17:39 坚强的小蚂蚁 阅读(4651) 评论(0) 推荐(0) 编辑
摘要:使用爬取http://quotes.toscrape.com/内容,网站内容很简单 一. 使用scrapy创建项目 二. 修改items.py和quotes.py items.py用来保存爬取的数据,和字典的使用方法一样 网页源文件中只需提取上面定义的3个字段 quotes.py 其中的parse函 阅读全文
posted @ 2018-08-01 12:08 坚强的小蚂蚁 阅读(261) 评论(0) 推荐(0) 编辑
摘要:redis库提供了两个类:Redis和StrictRedis来实现Redis的命令操作,前者是为了兼容老版本库的集中方法,一般就用StrictRedis 一. redis基本操作 二. 键的一些判断和操作方法 三. 字符串操作 四. 列表操作 阅读全文
posted @ 2018-07-22 10:56 坚强的小蚂蚁 阅读(199) 评论(0) 推荐(0) 编辑
摘要:mongodb基本命令 1. 插入数据 注意 1. 插入一条和插入多条不能同时写入,否则会ID冲突的报错 2. 在mongoDB中,每条数据都有一个_id属性来唯一标识。如果没有显示指明该属性,mongodb会自动产生一个ObjectId类型的_id属性 2. 查询 2.1 比较符号 2.2 功能符 阅读全文
posted @ 2018-07-19 17:26 坚强的小蚂蚁 阅读(948) 评论(0) 推荐(0) 编辑
摘要:一. json 1:基本概念 1.1 Json和Javascript JSON, 全称JavaScript Object Notation,它通过对象和数组的组合来表示数据。在JavaScript中一切都是对象,因此,任何支持的类型都可以通过JSON来表示,常用的类型有数据和对象。 JavaScri 阅读全文
posted @ 2018-07-17 17:35 坚强的小蚂蚁 阅读(5941) 评论(0) 推荐(1) 编辑
摘要:1. 连接mysql 2. 创建表 3. 插入数据 4. 更新数据 4.1:普通更新 4.2:去重更新 如果主键存在就更新,不存在就新增 分析理解 5. 删除数据 6. 查询数据 阅读全文
posted @ 2018-07-16 14:51 坚强的小蚂蚁 阅读(734) 评论(0) 推荐(0) 编辑
摘要:方案1:一次性爬取全部淘宝美食信息 1. spider.py文件如下 2. config.py 方案2:上面这种方法经测试可正常运行,但是会一次性爬取全部数据,数据量较大且不能灵活控制抓取内容,下面代码基本实现方法如下 1. 把搜索的关键字直接放在url中 2. 分页抓取商品信息 3. 使用chro 阅读全文
posted @ 2018-07-09 09:21 坚强的小蚂蚁 阅读(929) 评论(0) 推荐(0) 编辑
摘要:参考网站:https://blog.csdn.net/Young_Child/article/details/78571422 在爬的过程中遇到的问题: 1、被ban:更改header的User-Agent,伪装成浏览器浏览,如果还被ban可以使用代理,这个网站只需要伪装头再加上time.sleep 阅读全文
posted @ 2018-07-06 14:09 坚强的小蚂蚁 阅读(1033) 评论(0) 推荐(0) 编辑
摘要:完整代码经测试可成功运行,目的是抓取头条网输入街拍后的图片,涉及的知识点如下 1. md5加密使用方法 方法1:不创建实例对象,直接使用 >>> from hashlib import md5 >>> md5('hong'.encode('utf-8')).hexdigest() '88163c52 阅读全文
posted @ 2018-07-06 13:20 坚强的小蚂蚁 阅读(487) 评论(0) 推荐(0) 编辑
摘要:代码如下 使用pyquery简单实现 阅读全文
posted @ 2018-07-04 09:07 坚强的小蚂蚁 阅读(224) 评论(0) 推荐(0) 编辑
摘要:1. 一个简单的使用例子 from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.common.keys import Keys from selenium. 阅读全文
posted @ 2018-07-02 16:32 坚强的小蚂蚁 阅读(310) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示