03 2023 档案
摘要:需求:爬取豆瓣电影短评评论文本内容 目标:将爬取的文本存入 excel 中 爬虫步骤: 1.拼接分页网址,循环请求分页数据,获取HTML代码 2.分析获取到的HTML代码,解析出所需要的数据,提取内容 3.存储爬取到的数据 准备工作: 1.开发工具 pycharm 2.模块 requests、bs4
阅读全文
摘要:需求: 在 js 中将两个网址信息拼接在一起。 如下代码如下: String.prototype.endsWith = function (end) { return this.length > 0 && this.indexOf(end) + end.length == this.length;
阅读全文
摘要:需求: 从全国高校官方网站中爬取教师信息,包括姓名、介绍待信息。 目标: 将从各高校官网中爬取到的教师信息存入 excel 或 csv 中。 准备工作: 爬取目标的高校官网网址 具体操作如下: 1.经过分析,大部分高校网站的页面使用的是 GET 请求,部分使用了 POST 请求,其中有一部分网站使用
阅读全文
摘要:需求: 从中华人民共和国国家标准之国民经济行业分类文件中读取解析出国民经济行业分类和代码。 目标: 从标准 PDF 文件中读取出行业分类中的门类、大类、中类、小类、类别名称信息。 准备工作: 1.python 开发环境 2.国民经济行业分类.pdf 代码: 第一步:从 pdf 中先找到需要的数据在哪
阅读全文