时光哥哥

2021年3月11日

摘要： 1.找到我们要爬取的歌曲主页 2.获取歌曲songmid 3.进入到歌曲播放页找到音频地址 4.查看音频地址需要的参数 5.查找vkey参数是怎么来的我们再来看返回下载地址和vkey参数的请求地址都需要什么参数呢？ 6.到这里加密参数我们已经弄清楚了，可以开始写代码了。注意！！：网页版的qq音乐它阅读全文

posted @ 2021-03-11 11:46 时光哥哥阅读(1701) 评论(0) 推荐(0) 编辑

2021年3月10日

python爬取网易云歌曲

摘要：只需要吧这个id替换掉代码中的id就可以了 # http://music.163.com/song/media/outer/url?id=为网易云的下载连接更换id即可 from lxml import etree import requests import json from concurren 阅读全文

posted @ 2021-03-10 14:06 时光哥哥阅读(282) 评论(0) 推荐(0) 编辑

2021年3月5日

使用python刷CSDN和博客园访问量

摘要： python刷CSDN访问量 import requests import re import time payload = "" # 请求头 headers = { "Accept": "*/*", "Accept-Encoding": "gzip, deflate, br", "Accept-L 阅读全文

posted @ 2021-03-05 11:53 时光哥哥阅读(232) 评论(0) 推荐(0) 编辑

2021年2月17日

Django+Scrapy结合使用并爬取数据入库

摘要： 1. 在django项目根目录位置创建scrapy项目，django_12是django项目，ABCkg是scrapy爬虫项目，app1是django的子应用 2.在Scrapy的settings.py中加入以下代码 import os import sys sys.path.append(os.p 阅读全文

posted @ 2021-02-17 22:37 时光哥哥阅读(460) 评论(0) 推荐(0) 编辑

2021年2月14日

Python常用的标准库以及第三方库有哪些？

摘要： 20个必不可少的Python库也是基本的第三方库读者您好。今天我将介绍20个属于我常用工具的Python库，我相信你看完之后也会觉得离不开它们。他们是： Requests.Kenneth Reitz写的最富盛名的http库。每个Python程序员都应该有它。 Scrapy.如果你从事爬虫相关的工作阅读全文

posted @ 2021-02-14 16:15 时光哥哥阅读(390) 评论(0) 推荐(0) 编辑

异步编程-协程

摘要： Python异步编程前言现在是 Python3.5 以后已经进入异步时代 Python由于GIL（全局锁）的存在，不能发挥多核的优势，其性能一直饱受诟病。然而在IO密集型的网络编程里，异步处理比同步处理能提升成百上千倍的效率，弥补了Python性能方面的短板. python3.0时代，标准库里的阅读全文

posted @ 2021-02-14 16:00 时光哥哥阅读(51) 评论(0) 推荐(0) 编辑

scrapy框架之递归解析和post请求

摘要： 1.递归爬取解析多页页面数据 - 需求：将糗事百科所有页码的作者和段子内容数据进行爬取切持久化存储 - 需求分析：每一个页面对应一个url，则scrapy工程需要对每一个页码对应的url依次发起请求，然后通过对应的解析方法进行作者和段子内容的解析。实现方案： 1.将每一个页码对应的url存放到爬虫阅读全文

posted @ 2021-02-14 15:42 时光哥哥阅读(22) 评论(0) 推荐(0) 编辑

增量式爬虫

摘要：增量式爬虫引言：当我们在浏览相关网页的时候会发现，某些网站定时会在原有网页数据的基础上更新一批数据，例如某电影网站会实时更新一批最近热门的电影。小说网站会根据作者创作的进度实时更新最新的章节数据等等。那么，类似的情景，当我们在爬虫的过程中遇到时，我们是不是需要定时更新程序以便能爬取到网站中最近更阅读全文

posted @ 2021-02-14 15:40 时光哥哥阅读(52) 评论(0) 推荐(0) 编辑

2021年1月31日

scrapy抓取贝壳找房租房数据

摘要：地址：https://jn.zu.ke.com/zufang 1，首先确定要爬取的数据 2，查看数据来源数据直接在网页中展示，不是动态加载，也不需要cookie，更没有什么反爬（之所以写这篇文章是因为我对scrapy框架不了解，正在学习中，加深一下印象） 3.找下一页的数据，寻找url规律可以看阅读全文

posted @ 2021-01-31 20:04 时光哥哥阅读(723) 评论(1) 推荐(0) 编辑

2021年1月11日

python 执行js PyExecJS

摘要： pip install PyExecJS 查看执行JS的环境 print(execjs.get().name) 返回值：JScript windows 默认执行JS的环境返回值：Node.js (V8) 自己安装的NodeJS环境安装NodeJS 下载： http://nodejs.cn/dow 阅读全文

posted @ 2021-01-11 15:40 时光哥哥阅读(153) 评论(0) 推荐(0) 编辑

公告