随笔分类 - 爬虫
python爬虫随机生成headers里的user agent
摘要:安装模块 pip install fake_useragent 生成user agent import requests from fake_useragent import UserAgent ua = UserAgent() headers = {'User-Agent': ua.random}
阅读全文
scrapy爬虫下载音频文件并储存到本地
摘要:玩爬虫,怎么能少了scrapy框架呢。scrapy框架被称为是复杂并好用的爬虫框架。 当初学框架的时候是一头雾水,一旦实战成功过后,感觉瞬间打通了任督二脉,很有成就感。 接下来,将对scrapy框架爬虫代码编写流程做简要说明: 目录 一、新建工程 二、新建spider 三、定义所需爬取字段 四、解析
阅读全文
python selenium爬虫滑块验证
摘要:思路: 1、获取带滑块的图片 2、获取不带滑块、完整的图片 3、比较两张图片中不一样的地方,找到滑块的坐标 4、通过滑块坐标来拖动浏览器 代码: import random import time from PIL import Image from io import BytesIO import
阅读全文
python-socket编程
摘要:socket针对tcp编程, 用于客户端和服务端之间的数据交互。 1、基本代码框架如下: 特点: 1)双向通信功能:服务端、客户端都可以发送和接收数据 2)accept和recv是阻塞的 2、一个客户端通信的代码 1)服务端 ''' 总结: 1、服务端要先启动,不然客户端启动后,找不到服务端的地址,
阅读全文
爬虫--计算机网络技术基础
摘要:1、引言 1)、为什么要懂计算机网络 遇到爬虫问题,更容易分析并解决。 比如:更容易理解模拟登陆、反爬、非浏览器客户端数据爬取等 2)、对于爬虫,计算机网络中主要学习的是:网络协议 了解数据交互、传输的原理 3)、推荐书籍: a)计算机网络(自顶向下方法) b)TCP/IP协议族 2、一个完整的网络
阅读全文
python爬取京东小爱音响评论
摘要:import requests from bs4 import BeautifulSoup as bs import re import pandas as pd from sqlalchemy import create_engine from pandas.io.sql import to_sq
阅读全文
python爬取链家租房信息
摘要:import requests as rq from bs4 import BeautifulSoup import json import time import pandas as pd home_url = 'https://bj.lianjia.com/zufang' headers = {
阅读全文
npr_news英语新闻听力——每日更新
摘要:自己爬取的,每天都在听,最近听力进步了很多,大部分都能听懂了,happy for myself. 资源如下图所示: 分享给有缘人,链接: 链接: https://pan.baidu.com/s/15JIqGV6wV2ELl9z59SnPsg 密码: 0s1g ********************
阅读全文
python 爬虫下载英语听力新闻(npr news)为mp3格式
摘要:想通过听实时新闻来提高英语听力,学了那么多年的英语,不能落下啊,不然白费背了那么多年的单词。 npr news是美国国家公共电台,发音纯正,音频每日更新,以美国为主,世界新闻为辅,比如最近我国武汉发生的新型冠状病毒肺炎,每天都有涉及China,Wuhan,Coronavirus等词。 自己动手丰衣足
阅读全文