2023 年 3月随笔档案 - 逸乐太子

使用python爬取豆瓣电影短评评论内容

摘要：需求：爬取豆瓣电影短评评论文本内容目标：将爬取的文本存入 excel 中爬虫步骤： 1.拼接分页网址，循环请求分页数据，获取HTML代码 2.分析获取到的HTML代码，解析出所需要的数据，提取内容 3.存储爬取到的数据准备工作： 1.开发工具 pycharm 2.模块 requests、bs4 阅读全文

posted @ 2023-03-17 22:10 逸乐太子阅读(817) 评论(0) 推荐(0) 编辑

使用 js 实现 urljoin 方法

摘要：需求：在 js 中将两个网址信息拼接在一起。如下代码如下： String.prototype.endsWith = function (end) { return this.length > 0 && this.indexOf(end) + end.length == this.length; 阅读全文

posted @ 2023-03-15 23:16 逸乐太子阅读(117) 评论(0) 推荐(0) 编辑

使用 Python 爬取高校教师信息

摘要：需求：从全国高校官方网站中爬取教师信息，包括姓名、介绍待信息。目标：将从各高校官网中爬取到的教师信息存入 excel 或 csv 中。准备工作：爬取目标的高校官网网址具体操作如下： 1.经过分析，大部分高校网站的页面使用的是 GET 请求，部分使用了 POST 请求，其中有一部分网站使用阅读全文

posted @ 2023-03-15 23:11 逸乐太子阅读(478) 评论(3) 推荐(0) 编辑

python从PDF文件中读取国民经济行业分类

摘要：需求：从中华人民共和国国家标准之国民经济行业分类文件中读取解析出国民经济行业分类和代码。目标：从标准 PDF 文件中读取出行业分类中的门类、大类、中类、小类、类别名称信息。准备工作： 1.python 开发环境 2.国民经济行业分类.pdf 代码：第一步：从 pdf 中先找到需要的数据在哪阅读全文

posted @ 2023-03-15 22:50 逸乐太子阅读(147) 评论(8) 推荐(0) 编辑

逸乐太子

世界那么大，我想去看看。

03 2023 档案

公告

积分与排名

随笔分类

随笔档案

最新评论