2021 年 1月 4 日随笔档案 - hefany

2021年1月4日

摘要： beautiful soup 的简单介绍目的：使用beautifulsoup提取爬下来的数据通常多为网页数据，html文本在这里做个简单的介绍 <></> 这种形式的叫做双标签 <p></p> p标签， p 标签的名字，其他同理可推 <p class = "one"> ...</p> cla 阅读全文

posted @ 2021-01-04 20:47 hefany 阅读(71) 评论(0) 推荐(0) 编辑

12、爬虫实践1：静态网页数据爬取

摘要：爬虫实践：静态网页爬取目标网址：https://movie.douban.com/top250 爬取数据目标：电影排名，电影名称，评分，评价数量页面分析每页显示25条数据，共计10页，一共250条数据。检查网页源码：所需要的数据在网页源码均有检查网页链接：第一页：https://m 阅读全文

posted @ 2021-01-04 18:57 hefany 阅读(442) 评论(0) 推荐(0) 编辑

11、爬虫的数据提取1

摘要： python 爬虫数据提取常见的爬虫数据提取有三种方式：正则表达式，beautifulsoup模块， lxml模块正则表达式正则表达式手册具体内容请点击连接，仔细阅读。需要提及的是，与正则表达式匹配数据源类型是：str beautifulsoup beautifulsoup官方手册在使用阅读全文

posted @ 2021-01-04 16:32 hefany 阅读(97) 评论(0) 推荐(0) 编辑

10、利用requests获取数据1

摘要： python requests 在开始之前，先对本次内容做如下规划：第一部分：介绍爬虫的伪装第二部分：介绍常见页面爬取方式 ... 其他，更加高深的内容，在后期学习中持续更新第一部分：爬虫的伪装爬虫伪装的最高境界就是一个搜索引擎，至少本人是这样的认为的。伪装代码利用无界面浏览器，sele 阅读全文

posted @ 2021-01-04 13:33 hefany 阅读(151) 评论(0) 推荐(0) 编辑

hefany

公告