爬虫 - 随笔分类 - 坚强的小蚂蚁

xpath定位方法

摘要：一. 常用定位方法 1.根据文本值定位元素查找文本值为DNS的div元素 text1 = html.xpath("//div[text()='DNS']") text2 = html.xpath("//div[text()='DNS']/text()") #获取这个div对象的文本值 2.不选择某阅读全文

posted @ 2023-03-17 17:26 坚强的小蚂蚁阅读(249) 评论(0) 推荐(0)

selenium控制div内滚动条

摘要：1. div内的ID定位及滚动js = 'document.getElementById("zhizi_mask").scrollTop=10000'driver.execute_script(js) 2. div内的classname定位及滚动,注意getElements返回的是个列表所以[0]j 阅读全文

posted @ 2023-02-06 13:33 坚强的小蚂蚁阅读(1066) 评论(0) 推荐(0)

selenium获取元素定位值

摘要：方法1鼠标点击网页某个坐标from selenium.webdriver.common.action_chains import ActionChains driver.get(start_url)onChains(driver).move_by_offset(971, 437).click().p 阅读全文

posted @ 2023-02-06 09:57 坚强的小蚂蚁阅读(174) 评论(0) 推荐(0)

selenium忽略链接不安全页面提示的方法

摘要：1. 使用chrome时 from selenium import webdriver options = webdriver.ChromeOptions() options.add_argument('ignore-certificate-errors') browser = webdriver. 阅读全文

posted @ 2021-06-21 17:56 坚强的小蚂蚁阅读(5785) 评论(0) 推荐(1)

selenium控制浏览器滚动条缓慢下拉到最底

摘要：1. 微信文章动态爬取的一个例子 import time from selenium import webdriver driver = webdriver.Chrome() driver.get("https://mp.weixin.qq.com/s/FCsJMGlWvwfR18YtLSLKtQ" 阅读全文

posted @ 2021-06-21 15:57 坚强的小蚂蚁阅读(2121) 评论(0) 推荐(0)

ubuntu安装phantomjs

摘要：ubuntu安装phantomjs https://blog.csdn.net/bobozai86/article/details/100056503 下载地址 https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-2.1.1-linux 阅读全文

posted @ 2020-11-25 09:37 坚强的小蚂蚁阅读(617) 评论(0) 推荐(0)

scrapy实战2，使用内置的xpath，re和css提取值

摘要：以伯乐在线文章为爬取目标blog.jobbole.com，发现在"最新文章"选项中可看到所有文章一般来说，可以用scrapy中自带的xpath或者css来提取数据，定义在spiders/jobbole.py中的def parse(self, response) import scrapy clas 阅读全文

posted @ 2018-09-11 17:47 坚强的小蚂蚁阅读(6709) 评论(0) 推荐(1)

item pipeline 实例：爬取360摄像图片

摘要：生成项目 scrapy startproject image360 cd Image360 && scrapy genspider images images.so.com 一. 构造请求 1. 在setting.py中增加MAX_PAGE=5，表示爬取5页 2. 在images.py中定义star 阅读全文

posted @ 2018-08-02 17:20 坚强的小蚂蚁阅读(251) 评论(0) 推荐(0)

scrapy之 downloader middleware

摘要：一. 功能说明 Downloader Middleware有三个核心的方法 process_request(request, spider) process_response(request, response, spider) process_exception(request, exceptio 阅读全文

posted @ 2018-08-02 11:48 坚强的小蚂蚁阅读(195) 评论(0) 推荐(0)

scrapy 中用selector来提取数据的用法

摘要：一. 基本概念 1. Selector是一个可独立使用的模块，我们可以用Selector类来构建一个选择器对象，然后调用它的相关方法如xpaht(), css()等来提取数据，如下 from scrapy import Selector body= '<html><head><title>Hello 阅读全文

posted @ 2018-08-01 17:39 坚强的小蚂蚁阅读(4672) 评论(0) 推荐(0)

scrapy入门例子

摘要：使用爬取http://quotes.toscrape.com/内容，网站内容很简单一. 使用scrapy创建项目二. 修改items.py和quotes.py items.py用来保存爬取的数据，和字典的使用方法一样网页源文件中只需提取上面定义的3个字段 quotes.py 其中的parse函阅读全文

posted @ 2018-08-01 12:08 坚强的小蚂蚁阅读(278) 评论(0) 推荐(0)

Redis存储

摘要：redis库提供了两个类：Redis和StrictRedis来实现Redis的命令操作，前者是为了兼容老版本库的集中方法，一般就用StrictRedis 一. redis基本操作二. 键的一些判断和操作方法三. 字符串操作四. 列表操作阅读全文

posted @ 2018-07-22 10:56 坚强的小蚂蚁阅读(215) 评论(0) 推荐(0)

mangodb的存储

摘要：mongodb基本命令 1. 插入数据注意 1. 插入一条和插入多条不能同时写入，否则会ID冲突的报错 2. 在mongoDB中，每条数据都有一个_id属性来唯一标识。如果没有显示指明该属性，mongodb会自动产生一个ObjectId类型的_id属性 2. 查询 2.1 比较符号 2.2 功能符阅读全文

posted @ 2018-07-19 17:26 坚强的小蚂蚁阅读(959) 评论(0) 推荐(0)

json和csv文件存储

摘要：一. json 1：基本概念 1.1 Json和Javascript JSON, 全称JavaScript Object Notation，它通过对象和数组的组合来表示数据。在JavaScript中一切都是对象，因此，任何支持的类型都可以通过JSON来表示，常用的类型有数据和对象。 JavaScri 阅读全文

posted @ 2018-07-17 17:35 坚强的小蚂蚁阅读(6035) 评论(0) 推荐(1)

python中mysql的存储

摘要：1. 连接mysql 2. 创建表 3. 插入数据 4. 更新数据 4.1：普通更新 4.2：去重更新如果主键存在就更新，不存在就新增分析理解 5. 删除数据 6. 查询数据阅读全文

posted @ 2018-07-16 14:51 坚强的小蚂蚁阅读(744) 评论(0) 推荐(0)

爬虫实战4：用selenium爬取淘宝美食

摘要：方案1：一次性爬取全部淘宝美食信息 1. spider.py文件如下 2. config.py 方案2：上面这种方法经测试可正常运行，但是会一次性爬取全部数据，数据量较大且不能灵活控制抓取内容，下面代码基本实现方法如下 1. 把搜索的关键字直接放在url中 2. 分页抓取商品信息 3. 使用chro 阅读全文

posted @ 2018-07-09 09:21 坚强的小蚂蚁阅读(938) 评论(0) 推荐(0)

爬虫实战3：使用request,bs4爬动态加载图片

摘要：参考网站：https://blog.csdn.net/Young_Child/article/details/78571422 在爬的过程中遇到的问题: 1、被ban：更改header的User-Agent，伪装成浏览器浏览，如果还被ban可以使用代理，这个网站只需要伪装头再加上time.sleep 阅读全文

posted @ 2018-07-06 14:09 坚强的小蚂蚁阅读(1055) 评论(0) 推荐(0)

爬虫实战2：爬头条网美图--Ajax图片加载处理

摘要：完整代码经测试可成功运行，目的是抓取头条网输入街拍后的图片，涉及的知识点如下 1. md5加密使用方法方法1：不创建实例对象，直接使用 >>> from hashlib import md5 >>> md5('hong'.encode('utf-8')).hexdigest() '88163c52 阅读全文

posted @ 2018-07-06 13:20 坚强的小蚂蚁阅读(501) 评论(0) 推荐(0)

爬虫实战1：使用requests和正则爬取电影信息

摘要：代码如下使用pyquery简单实现阅读全文

posted @ 2018-07-04 09:07 坚强的小蚂蚁阅读(244) 评论(0) 推荐(0)

爬虫7：selenium

摘要：1. 一个简单的使用例子 from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.common.keys import Keys from selenium. 阅读全文

posted @ 2018-07-02 16:32 坚强的小蚂蚁阅读(321) 评论(0) 推荐(0)

坚强的小蚂蚁

每天都要有收获

随笔分类 - 爬虫

公告