摘要: 记录下书中的例子 1.1文本和词汇 首先得下载 import nltk nltk.download() 下载器的Collections选项卡下,选择book然后下载 如果下载缓慢或者报错,建议找百度云的包效果是一样的 进入IDLE,输入from nltk.book import *,出现以下结果代表 阅读全文
posted @ 2020-05-02 10:52 TrueDZ 阅读(249) 评论(0) 推荐(0) 编辑
摘要: 爬取的url:https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput= 爬取职位名称,薪水,公司,待遇这些 抓包,找到信息加载为一个post请求返回 查看他携带的数据,里面是关键字(python)和页数( 阅读全文
posted @ 2020-04-30 10:50 TrueDZ 阅读(698) 评论(5) 推荐(0) 编辑
摘要: url:http://fanyi.youdao.com/ f12抓包 有4个加密参数 ctrl + shift +f,搜索salt,找到他的加密过程 可以看到r代表当前时间,i为当前时间 +上一个随机整数 t为版本信息,所以t这个参数其实是一直不变的,直接复制上就行 sign:明显是将 两端字符串和 阅读全文
posted @ 2020-04-24 09:58 TrueDZ 阅读(300) 评论(2) 推荐(0) 编辑
摘要: 我最近在群里面看很多人问fiddler怎么抓手机的包,那就写一个吧 第一步打开Tools,点击options 然后按如下设置就可以了,询问是否安装证书点yes 设置好后在手机wifi里设置代理ip 代理主机名这样获取:打开cmd,输入命令ipconfig /all 端口号必须和你fiddler,这里 阅读全文
posted @ 2020-04-22 11:21 TrueDZ 阅读(437) 评论(0) 推荐(0) 编辑
摘要: 前时间爬了一个视频的弹幕,只爬一个视频没意义,所以我们来爬所有的。完整代码在最后。 这里我以科技美学为例啊(因为每天都看)主页链接:https://space.bilibili.com/3766866/video 我们先来尝试获取某一个视频的弹幕,打开这个url,f12,进入开发者模式 视频链接:h 阅读全文
posted @ 2020-04-16 16:02 TrueDZ 阅读(522) 评论(0) 推荐(0) 编辑
摘要: 第一步,生成一张最简单的词云图 1 from wordcloud import WordCloud 2 import matplotlib.pyplot as plt 3 #读取一个文本 4 txt = open('1.txt',encoding='utf-8').read() 5 #创建一个wor 阅读全文
posted @ 2020-04-16 11:36 TrueDZ 阅读(828) 评论(0) 推荐(0) 编辑
摘要: https://space.bilibili.com/1 https://space.bilibili.com/2 点击这两个url,你会发现b站不同用户主页只有最后面的那个数字是不同的,我试了下大概有5亿多注册的,我们来获取他的关注,粉丝,获赞,播放这类基本信息 第一步请求该url 1 url = 阅读全文
posted @ 2020-04-12 10:25 TrueDZ 阅读(1689) 评论(1) 推荐(2) 编辑
摘要: 自己写人脸识别算法的都是大神,作为一名小白我们可以去调用那些现成的API接口。比如旷世就对外提供接口。 而且还免费,只要注册一个账号就可以用了 先直接上代码吧! import requests,json,lxml,osfrom lxml import etree from urllib import 阅读全文
posted @ 2020-04-02 20:29 TrueDZ 阅读(927) 评论(0) 推荐(0) 编辑
摘要: 打开淘宝,我们搜索手机,返回以下界面 接下来我们来爬取这些数据 第一步我们先获取网页html html = requests.get(url,headers=headers) print(html.text) 将结果打印后发现所需要的信息在网页代码中没有,所以它应该是动态加载的,这里再network 阅读全文
posted @ 2020-04-02 17:58 TrueDZ 阅读(784) 评论(2) 推荐(0) 编辑
摘要: 一。代码不同导致 问题是这样的,在游览器中我们写的xpath完美匹配到了我们想要的内容,可是在python代码中运行的时候返回值缺为空 这代表我们的匹配规制实质上是失败了的,但这是为什么呢? 于是我使用get请求,并打印我得到的html代码,和网页代码比较后终于找到问题的原因 可以看到这里的clas 阅读全文
posted @ 2020-03-27 21:31 TrueDZ 阅读(1460) 评论(0) 推荐(0) 编辑