随笔分类 -  python爬虫

基于python的爬虫相关知识
摘要:user-agent和proxy代码: # -*- coding:utf-8 -*- import random import re import urllib2 import urllib import time count=0 user_agent_list=[ 'Mozilla/5.0 (Wi 阅读全文
posted @ 2024-09-21 14:40 silence_cho 阅读(15) 评论(0) 推荐(0) 编辑
摘要:1数据如下: 2.数据清洗: #数据清洗,对颜色和尺寸数据进行标准化设置 #天猫数据清洗,颜色 ALTER TABLE t_sales ADD color_std VARCHAR(128) NOT NULL AFTER color; UPDATE t_sales SET color_std = '黑 阅读全文
posted @ 2024-09-21 14:21 silence_cho 阅读(37) 评论(0) 推荐(0) 编辑
摘要:上次爬取网易云音乐,折腾js调试了好久,难受。。。。今天继续练练手,研究下知乎登陆,让痛苦更猛烈些。 1.简单分析 很容易就发现登陆的url=“https://www.zhihu.com/api/v3/oauth/sign_in”,post方法提交,需要的请求头和表单数据如下两图,请求头中有一个特殊 阅读全文
posted @ 2019-04-14 11:42 silence_cho 阅读(2921) 评论(1) 推荐(0) 编辑
摘要:selenium是使用javascript编写,主要用来进行web应用程序测试,在python爬虫中可以用来进行动态网页爬取,解决爬虫中的javascript渲染(执行js语句)。总结记录下,以备后面学习 1. selenium基本使用 安装:pip install selenium 查看支持的浏览 阅读全文
posted @ 2019-04-07 20:59 silence_cho 阅读(549) 评论(0) 推荐(0) 编辑
摘要:之前都是爬取网页中的文本信息,没有爬取过视频和音频文件,所以爬取了下b站和网易云音乐,记录下整个过程,留着学习。 1. 爬取b站视频 1.1 网页分析 最近python机器学习比较火热,那就爬取点机器学习的视频吧。首先打开b站网页,输入“python机器”进行搜索,返回页面中,审查元素可以发现每个视 阅读全文
posted @ 2019-04-07 16:55 silence_cho 阅读(19441) 评论(0) 推荐(2) 编辑
摘要:做一个租房信息的网站,要爬取58同城上南京品牌公馆的房源信息,因为数字被重新编码了,折腾了一天,记录一下整个过程,留着后面使用。 1,网页分析和字体文件反爬 简单看了下url(https://nj.58.com/pinpaigongyu/pn/1/),比较简单,替换下网址中页码数,就可以一直翻页并进 阅读全文
posted @ 2019-01-06 12:36 silence_cho 阅读(1526) 评论(0) 推荐(0) 编辑
摘要:当有大量url需要下载时,串行爬取速度较慢,需要使用多线程、多进程进行爬取,以及部署分布式爬虫等 1.多线程爬虫 下面代码中三个线程时,爬取61个url,花费16-25s;五个线程时,花费41-55s。(线程间的切换也消耗时间) 2.多进程爬虫 2.1 多进程 下面代码中两个进程,爬取61个url, 阅读全文
posted @ 2018-12-27 21:58 silence_cho 阅读(449) 评论(0) 推荐(0) 编辑
摘要:对于网页上的有些内容,需要进行一定的交互操作,才能拿到相应的数据,例如常见的ajax请求等。为了抓取ajax请求的结果,可以通过ajax请求的url,抓取返回结果,也可以利用Selenium模块来模拟网页ajax。简单记录下一段学习过程。 1.问题分析 如下面我爱我家的网页中(https://wh. 阅读全文
posted @ 2018-12-24 22:18 silence_cho 阅读(988) 评论(0) 推荐(0) 编辑
摘要:通过Resquest或urllib2抓取下来的网页后,一般有三种方式进行数据提取:正则表达式、beautifulsoup和lxml,留下点学习心得,后面慢慢看。 1. 正则表达式 参考文档: 正则表达式30分钟入门教程 python3 re模块 看完文档后理解正则表达式的基本概念就行,然后知道贪婪匹 阅读全文
posted @ 2018-12-23 16:17 silence_cho 阅读(1156) 评论(0) 推荐(0) 编辑
摘要:对于爬取下来的网页进行缓存,可以方便下次访问,无需再次下载。实现过程可以分为两大块,一是实现下载器,二是实现缓存器。 1. 下载器: 下载器功能:下载时先查看缓存中是否保存url对应的文件,不存在时再去访问网页端,并将结果加入到缓存中,下载器代码如下: 在爬取网页时,使用下载器代码如下: 2. 缓存 阅读全文
posted @ 2018-12-21 21:47 silence_cho 阅读(954) 评论(0) 推荐(0) 编辑
摘要:1,相关知识 robots.txt: 一些网站会定义robots.txt文件(https://www.example.com/robots.txt),规定了网页爬取的相关限制,查看其内容,遵守规则可以避免过早IP被封。 下面为知乎robots.txt部分内容(https://www.zhihu.co 阅读全文
posted @ 2018-12-19 19:27 silence_cho 阅读(1357) 评论(0) 推荐(0) 编辑
摘要:1.Scrapy整体框架 Scrapy采用了Twisted异步网络来处理请求,整体框架如下: Scrapy Engine爬虫引擎:协调整个框架组件间的数据交互,是框架的核心 Schedule调度器:接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL的优先队列, 阅读全文
posted @ 2018-11-10 09:06 silence_cho 阅读(657) 评论(0) 推荐(0) 编辑
摘要:用python写爬虫时,有两个很好用第三方模块requests库和beautifulsoup库,简单学习了下模块用法: 1,requests模块 Python标准库中提供了:urllib、urllib2、httplib等模块以供Http请求,使用起来较为麻烦。requests是基于Python开发的 阅读全文
posted @ 2018-10-28 12:25 silence_cho 阅读(1958) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示