摘要: 一、设计方案 1.爬虫名称:爬取百度热榜 2.爬取内容:爬取网页热搜排名,标题,热度值。 3.方案概述:访问网页得到状态码200,分析网页源代码,找出所需要的的标签,逐个提取标签保存到相同路径csv文件中,读取改文件,进行数据清洗,数据模型分析,数据可视化处理,绘制分布图,用最小二乘法分析两个变量间 阅读全文
posted @ 2020-04-02 18:24 叶燕燕 阅读(3075) 评论(0) 推荐(1) 编辑
摘要: 1 import requests 2 from bs4 import BeautifulSoup 3 import pandas as pd 4 #获取html网页 5 url = 'http://top.baidu.com/buzz.php?p=top10&tdsourcetag=s_pctim 阅读全文
posted @ 2020-03-20 19:37 叶燕燕 阅读(464) 评论(0) 推荐(0) 编辑