python爬虫 - 随笔分类 - silence_cho

爬虫知识点

摘要：user-agent和proxy代码： # -*- coding:utf-8 -*- import random import re import urllib2 import urllib import time count=0 user_agent_list=[ 'Mozilla/5.0 (Wi 阅读全文

posted @ 2024-09-21 14:40 silence_cho 阅读(15) 评论(0) 推荐(0) 编辑

分析和爬取天猫，京东数据

摘要：1数据如下： 2.数据清洗： #数据清洗，对颜色和尺寸数据进行标准化设置 #天猫数据清洗，颜色 ALTER TABLE t_sales ADD color_std VARCHAR(128) NOT NULL AFTER color; UPDATE t_sales SET color_std = '黑阅读全文

posted @ 2024-09-21 14:21 silence_cho 阅读(37) 评论(0) 推荐(0) 编辑

(八）爬虫之js调试（登陆知乎）

摘要：上次爬取网易云音乐，折腾js调试了好久，难受。。。。今天继续练练手，研究下知乎登陆，让痛苦更猛烈些。 1.简单分析很容易就发现登陆的url=“https://www.zhihu.com/api/v3/oauth/sign_in”，post方法提交，需要的请求头和表单数据如下两图，请求头中有一个特殊阅读全文

posted @ 2019-04-14 11:42 silence_cho 阅读(2921) 评论(1) 推荐(0) 编辑

(六)爬虫之使用selenium

摘要：selenium是使用javascript编写，主要用来进行web应用程序测试，在python爬虫中可以用来进行动态网页爬取，解决爬虫中的javascript渲染（执行js语句）。总结记录下，以备后面学习 1. selenium基本使用安装：pip install selenium 查看支持的浏览阅读全文

posted @ 2019-04-07 20:59 silence_cho 阅读(549) 评论(0) 推荐(0) 编辑

(七) 爬虫之爬取视频和音频文件

摘要：之前都是爬取网页中的文本信息，没有爬取过视频和音频文件，所以爬取了下b站和网易云音乐，记录下整个过程，留着学习。 1. 爬取b站视频 1.1 网页分析最近python机器学习比较火热，那就爬取点机器学习的视频吧。首先打开b站网页，输入“python机器”进行搜索，返回页面中，审查元素可以发现每个视阅读全文

posted @ 2019-04-07 16:55 silence_cho 阅读(19441) 评论(0) 推荐(2) 编辑

58同城南京品牌公馆数据爬取

摘要：做一个租房信息的网站，要爬取58同城上南京品牌公馆的房源信息，因为数字被重新编码了，折腾了一天，记录一下整个过程，留着后面使用。 1，网页分析和字体文件反爬简单看了下url（https://nj.58.com/pinpaigongyu/pn/1/），比较简单，替换下网址中页码数，就可以一直翻页并进阅读全文

posted @ 2019-01-06 12:36 silence_cho 阅读(1526) 评论(0) 推荐(0) 编辑

（五）爬虫之并发下载

摘要：当有大量url需要下载时，串行爬取速度较慢，需要使用多线程、多进程进行爬取，以及部署分布式爬虫等 1.多线程爬虫下面代码中三个线程时，爬取61个url，花费16-25s；五个线程时，花费41-55s。（线程间的切换也消耗时间） 2.多进程爬虫 2.1 多进程下面代码中两个进程，爬取61个url，阅读全文

posted @ 2018-12-27 21:58 silence_cho 阅读(449) 评论(0) 推荐(0) 编辑

（四）爬虫之动态网页

摘要：对于网页上的有些内容，需要进行一定的交互操作，才能拿到相应的数据，例如常见的ajax请求等。为了抓取ajax请求的结果，可以通过ajax请求的url，抓取返回结果，也可以利用Selenium模块来模拟网页ajax。简单记录下一段学习过程。 1.问题分析如下面我爱我家的网页中（https://wh. 阅读全文

posted @ 2018-12-24 22:18 silence_cho 阅读(988) 评论(0) 推荐(0) 编辑

（二）爬虫之数据提取

摘要：通过Resquest或urllib2抓取下来的网页后，一般有三种方式进行数据提取：正则表达式、beautifulsoup和lxml，留下点学习心得，后面慢慢看。 1. 正则表达式参考文档：正则表达式30分钟入门教程 python3 re模块看完文档后理解正则表达式的基本概念就行，然后知道贪婪匹阅读全文

posted @ 2018-12-23 16:17 silence_cho 阅读(1156) 评论(0) 推荐(0) 编辑

（三）爬虫之添加缓存

摘要：对于爬取下来的网页进行缓存，可以方便下次访问，无需再次下载。实现过程可以分为两大块，一是实现下载器，二是实现缓存器。 1. 下载器：下载器功能：下载时先查看缓存中是否保存url对应的文件，不存在时再去访问网页端，并将结果加入到缓存中，下载器代码如下：在爬取网页时，使用下载器代码如下： 2. 缓存阅读全文

posted @ 2018-12-21 21:47 silence_cho 阅读(954) 评论(0) 推荐(0) 编辑

（一）爬虫之网页下载

摘要：1，相关知识 robots.txt: 一些网站会定义robots.txt文件（https://www.example.com/robots.txt），规定了网页爬取的相关限制，查看其内容，遵守规则可以避免过早IP被封。下面为知乎robots.txt部分内容（https://www.zhihu.co 阅读全文

posted @ 2018-12-19 19:27 silence_cho 阅读(1357) 评论(0) 推荐(0) 编辑

Scrapy学习

摘要：1.Scrapy整体框架 Scrapy采用了Twisted异步网络来处理请求，整体框架如下： Scrapy Engine爬虫引擎：协调整个框架组件间的数据交互，是框架的核心 Schedule调度器：接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL的优先队列, 阅读全文

posted @ 2018-11-10 09:06 silence_cho 阅读(657) 评论(0) 推荐(0) 编辑

requests和BeautifulSoup模块的使用

摘要：用python写爬虫时，有两个很好用第三方模块requests库和beautifulsoup库，简单学习了下模块用法： 1，requests模块 Python标准库中提供了：urllib、urllib2、httplib等模块以供Http请求，使用起来较为麻烦。requests是基于Python开发的阅读全文

posted @ 2018-10-28 12:25 silence_cho 阅读(1958) 评论(0) 推荐(0) 编辑

silence_cho

随笔分类 - python爬虫

公告

搜索

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论