2020 年 4月随笔档案 - TrueDZ

爬取拉勾网

摘要：爬取的url：https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput= 爬取职位名称，薪水，公司，待遇这些抓包，找到信息加载为一个post请求返回查看他携带的数据，里面是关键字(python)和页数(

706

5

0

爬取有道翻译

摘要：url：http://fanyi.youdao.com/ f12抓包有4个加密参数 ctrl + shift +f，搜索salt，找到他的加密过程可以看到r代表当前时间，i为当前时间 +上一个随机整数 t为版本信息，所以t这个参数其实是一直不变的，直接复制上就行 sign:明显是将两端字符串和

327

2

0

fiddler怎么抓包手机

摘要：我最近在群里面看很多人问fiddler怎么抓手机的包，那就写一个吧第一步打开Tools，点击options 然后按如下设置就可以了，询问是否安装证书点yes 设置好后在手机wifi里设置代理ip 代理主机名这样获取：打开cmd，输入命令ipconfig /all 端口号必须和你fiddler，这里

451

0

爬取up主的所有视频弹幕

摘要：前时间爬了一个视频的弹幕，只爬一个视频没意义，所以我们来爬所有的。完整代码在最后。这里我以科技美学为例啊（因为每天都看）主页链接：https://space.bilibili.com/3766866/video 我们先来尝试获取某一个视频的弹幕，打开这个url，f12，进入开发者模式视频链接：h

569

0

用wordcloud做一张简单词云图

摘要：第一步，生成一张最简单的词云图 1 from wordcloud import WordCloud 2 import matplotlib.pyplot as plt 3 #读取一个文本 4 txt = open('1.txt',encoding='utf-8').read() 5 #创建一个wor

852

0

爬取B站用户资料

摘要：https://space.bilibili.com/1 https://space.bilibili.com/2 点击这两个url，你会发现b站不同用户主页只有最后面的那个数字是不同的，我试了下大概有5亿多注册的，我们来获取他的关注，粉丝，获赞，播放这类基本信息第一步请求该url 1 url =

1755

1

2

用爬虫实现AI换脸，颜值评分

摘要：自己写人脸识别算法的都是大神，作为一名小白我们可以去调用那些现成的API接口。比如旷世就对外提供接口。而且还免费，只要注册一个账号就可以用了先直接上代码吧！ import requests,json,lxml,osfrom lxml import etree from urllib import

954

0

爬取淘宝“手机信息”

摘要：打开淘宝，我们搜索手机，返回以下界面接下来我们来爬取这些数据第一步我们先获取网页html html = requests.get(url,headers=headers) print(html.text) 将结果打印后发现所需要的信息在网页代码中没有，所以它应该是动态加载的，这里再network

795

2

0

TrueDZ

04 2020 档案

公告

常用链接

最新随笔

我的标签

积分与排名

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论