两行代码爬取微博热搜,并实现邮件提醒功能,妈妈再也不用担心我吃不到瓜了 爬虫基础
前言
首先说一下,并不是标题党哈,想看,两行代码就在下面,不过只是爬取微博热搜内容,而后我们会再进行邮件提醒功能
两行代码
r = requests.get("https://weibo.com/ajax/statuses/hot_band", headers=header)
print(r.json()["data"]["band_list"])
这里的header按照浏览器设置一下就好,欧克了,现在热搜的榜单你已经拿到了,如下图
可以看出来,热搜榜单确实拿到了,不过需要我们把榜单的内容进行解析一下,已经知道怎么解析的兄弟们,可以自己动手试试了,但走之前别忘记来个三连。不知道怎么搞的兄弟们,咱么继续往下看
微博热搜内容解析
分析拿取到的内容
很明显我们拿到的是一个数组对象,数组存储的json对象就是一条热搜,而热搜的内容就在word中,如下图所示,只要拿到这个word内容就可以了
具体代码实现
获取热搜信息
将获取热搜榜单内容封装成一个方法,方便以后多次调用
def getJson(url):
r = requests.get(url, headers=header)
return r.json()["data"]["band_list"]
解析出热搜榜单内容并判断是否我关注的内容上了热搜
bands = getJson("https://weibo.com/ajax/statuses/hot_band")
// 对热搜榜单列表进行遍历
for i in range(len(bands)):
// 这里的word就是存储的热搜具体内容
word = str(bands[i]["word"])
// 判断word中有没有阿富汗这个关键词,有的话就直接发送邮件提醒
if (word.__contains__("阿富汗")):
EmaiUtil.sendEmail("your email@xxx.com", "该吃瓜了,热搜内容是=》"+word)
邮件发送工具类
import smtplib
from email.mime.text import MIMEText
def sendEmail(to, info):
# 构造纯文本邮件内容
msg = MIMEText(info)
# 发送者邮箱
sender = ''
# 发送者的登陆用户名和授权码
user = '' //发送者邮箱
password = '' //授权码
# 发送者邮箱的SMTP服务器地址 这里用的是qq邮箱
smtpserver = 'smtp.qq.com'
# 接收者的邮箱地址
receiver = [] # receiver 可以是一个list
receiver.append(to)
smtp = smtplib.SMTP() # 实例化SMTP对象
smtp.connect(smtpserver, 25) # (缺省)默认端口是25 也可以根据服务器进行设定
smtp.login(user, password) # 登陆smtp服务器
smtp.sendmail(sender, receiver, msg.as_string()) # 发送邮件 ,这里有三个参数
smtp.quit()
这里说一下,这个授权码怎么拿到,以qq邮箱为例,来到qq邮箱=>设置=>账户,来到如下页面,开启该功能
按照提示完成操作之后,然后就会出现下图
打码的内容就是你的授权码。
每分钟获取一次热搜信息,并判断是否发送邮件提醒
完整代码如下
while 1:
bands = getJson("https://weibo.com/ajax/statuses/hot_band")
for i in range(len(bands)):
word = str(bands[i]["word"])
if (word.__contains__("阿富汗")):
EmaiUtil.sendEmail("your email@xxx.com", "该吃瓜了,热搜内容是=》"+word)
time.sleep(60)
成果
可以看到吃瓜小助手已经开始提醒我吃瓜了
这样就完成了热搜提醒功能,还是很简单的,适合刚入门爬虫的人练练手。
可能会有兄弟有疑惑这个接口地址咋来的“https://weibo.com/ajax/statuses/hot_band”
喏,就在这,Chrome牛批
就到这了,溜了溜了
还有其他爬虫文章,有兴趣的话可以来看一看
聊天没有表情包被嘲讽,程序员直接用python爬取了十万张表情包
侵权立删