随笔档案「2021年4月」 - Ccdjun

网络爬虫之异步协程

摘要：引言：异步协程本质就是一条线程中多个任务遇到阻塞操作就自动挂起并继续执行下一个任务，等待阻塞操作完成之后再回去执行完剩余的操作。涉及的模块:aiohttp,asyncio。协程的作用：减轻了操作系统的负担用来规避IO操作,就达到了我们将一条线程中的io操作降到最低的目的一条线程如果开了多个协阅读全文

posted @ 2021-04-20 21:50 Ccdjun 阅读(157) 评论(0) 推荐(0)

使用Scrapy框架爬取Boss招聘信息

摘要：免责声明：本文仅供学习学习参考使用，不能用于恶意攻击网站。考虑到安全性以及法律问题本人仅仅提供部分代码以及破解思路。思路: 首先Boss采用的反爬虫机制是IP封禁，以及所有内容都是动态加载的。既然是动态加载的都需要借助selenium和驱动或者splash。这里我所使用的是selenium。对于I 阅读全文

posted @ 2021-04-20 20:32 Ccdjun 阅读(263) 评论(0) 推荐(0)

网络爬虫之IP封禁解决以及搭建代理IP池

摘要：引言：之前就提到过常见的反爬虫机制就有IP封禁，就是当你访问频率超过一个阀值服务器就会拒绝服务。这时网页就会提示“您的IP访问频率太高”，或者跳出一个验证码让我们输入，之后才能解封，但是一会后又会出现这种情况。这时我们就可以通过代理IP来进行请求就可以完美解决这个问题。但是通常各大网站上提供的代理I 阅读全文

posted @ 2021-04-17 23:48 Ccdjun 阅读(942) 评论(0) 推荐(0)

网络爬虫之Cookies解决

摘要：引言：在介绍Cookies前我们需要了解HTTP的一个特点叫做无状态。什么是无状态就是当你访问动态网站也就是需要登陆的网站时HTTP对事务处理是没有记忆能力的。就比如你想访问某个网站上个人信息的页面。直接发请求是访问不到的。必须在登陆状态下才能访问到。而Cookies里保存了登陆的凭证，有了他只需要阅读全文

posted @ 2021-04-17 01:08 Ccdjun 阅读(1588) 评论(0) 推荐(0)

高性能异步爬虫

摘要：引言：前面介绍的都是对单个网页的爬取，假如你想同时对多个网页进行爬取呢？这是你肯定会想到构建一个url列表然后循环遍历访问，首先我们知道无论是get请求还是post请求，都是同步阻塞操作。因为程序都是从上往下依次执行的，你给一个网站发起请求就必然等待接受到结果才会对下一个网站发起请求。这样是不是大大阅读全文

posted @ 2021-04-15 23:50 Ccdjun 阅读(84) 评论(0) 推荐(0)

Python csv存储

摘要：对比其他语言来说，python中的文件句柄操作是即简洁又简便。常用保存形式有TXT,JSON,CSV。本文就介绍了CSV文件存储写入: 这里先看一个最简单的例子 import csv with open('./data.csv',mode='w') as csvfile: writer = csv 阅读全文

posted @ 2021-04-14 23:26 Ccdjun 阅读(2219) 评论(0) 推荐(0)

深浅copy的区别

摘要：浅copy: 在python中默认做浅copy，浅copy即copy一个外壳其中的id与原对象中的id相同。也就是说除了两对象的id不同，原对象和新对象中的元素的id相同即内存地址相同。所以对原对象中的可变元素的增删改会影响新对象。 import copy l1 = [1,2,3,[4,]] l2 阅读全文

posted @ 2021-04-12 21:18 Ccdjun 阅读(121) 评论(0) 推荐(0)

RedisDump安装以及常见错误

摘要：安装redisdump大部分问题都出在版本的问题，redis-dump是将redis和json互转的工具；redis-dump是基于ruby开发，需要ruby环境，而且新版本的redis-dump要求2.3.0及以上的ruby版本，centos中yum只能安装2.0版本的ruby。需要先安装ruby 阅读全文

posted @ 2021-04-11 21:56 Ccdjun 阅读(555) 评论(0) 推荐(0)

网络爬虫之数据库连接

摘要：爬取的数据一般需要提交给数据库，这里就介绍了三个主流数据库的连接(mysql,redis,mongodb),如果你的数据库服务器都放在liunx系统上首先要修改一下配置文件将bind 127.0.0.1修改为bind 0.0.0.0这样才能访问数据库。并且需要查看linux防火墙设置。如果开启要将其阅读全文

posted @ 2021-04-09 22:37 Ccdjun 阅读(390) 评论(0) 推荐(0)

使用selenium模拟登陆12306以及滑块验证

摘要：selenium是一个自动化测试工具，利用它可以驱动浏览器执行特定的动作，如点击，下拉等操作，同时还可以获取浏览器当前呈现的页面源码，做到可见即可爬。常常被运用于爬取javascript动态渲染的页面。下面是其简单用法：通过浏览器发起请求获取响应页面源码数据然后利用xpath进行数据提取 fro 阅读全文

posted @ 2021-04-07 22:55 Ccdjun 阅读(901) 评论(0) 推荐(0)

网络爬虫之requests模块

摘要：python3中用于模拟发起网络请求的模块有两个urllib模块和requests模块，由于requests模块相对于urllib模块来说更加简单便捷高效本文就只介绍requests模块。环境安装： pip install requests GET请求： HTTP中最常见的请求之一就是GET请求，阅读全文

posted @ 2021-04-04 23:40 Ccdjun 阅读(129) 评论(0) 推荐(0)

网络爬虫简介

摘要：什么是爬虫：通过编写程序，模拟浏览器上网，然后让其去互联网上抓取数据的过程。爬虫究竟是合法还是违法的：在法律中是不被禁止具有违法风险爬虫也分为善意爬虫和恶意爬虫爬虫带来的风险可以体现在两方面：干扰了被访问者的正常运营或者是抓取到了法律保护的特定类型的数据或者信息。例如：用户信息，身份号，阅读全文

posted @ 2021-04-01 22:03 Ccdjun 阅读(230) 评论(0) 推荐(0)

04 2021 档案

公告