爬虫 - 随笔分类 - 奶酥

06bs4解析

摘要：bs4解析环境的安装：在cmd中输入： pip install bs4 pip install lxml bs4的解析原理：实例化一个BeautifulSoup的对象，并且将即将被解析的页面源码数据加载到该对象中。调用BeautifulSoup对象中的相关属性和方法进行标签定位和数据提取/ 阅读全文

posted @ 2022-01-20 21:39 奶酥阅读(101) 评论(0) 推荐(0) 编辑

05数据解析—正则

摘要：回顾 1、爬虫 2、爬虫的分类：通用爬虫聚焦爬虫增量式爬虫:监测 3、反爬机制反反爬策略 4、robots，UA监测：UA伪装 5、http和https概念：服务器和客户端进行数据交互的某种形式。 6、常用的头信息: User-Agent：请求载体的身份标识 Connection：clo 阅读全文

posted @ 2022-01-19 21:15 奶酥阅读(70) 评论(0) 推荐(0) 编辑

自主学习：02词云图制作

摘要：词云图制作之前爬了网易云歌曲成都的评论，就想着做一个词云图，搞一下。下载相关库 1、jieba库 jieba库是一个中文分词库。在pycharm的setting中，找到project interpreter，加号，manager repositories，更改下下载路径。原路径下载太慢了，最后阅读全文

posted @ 2022-01-14 14:09 奶酥阅读(212) 评论(0) 推荐(0) 编辑

自主学习：01爬取网易云评论

摘要：爬取网易云评论我们用pycharm来完成这个代码，因为我不太熟悉，用Jupiter写的话经常报错，我受不了看到我编译了十几次还报错。实现过程： 1、下载selenium包这次的程序涉及到一个selenium包，这是一个Web自动化工具。下载selenium包如果用jupyter写的话，打开阅读全文

posted @ 2022-01-14 14:04 奶酥阅读(222) 评论(0) 推荐(0) 编辑

04实例：爬取药监总局企业详情信息

摘要：爬取药监总局企业详情信息国家药监局化妆品许可证：http://scxk.nmpa.gov.cn:81/xk/ json格式化工具：https://www.bejson.com/ 思考：如何判定一张页面中是否存在动态加载的数据抓包工具进行局部搜索如果判定出页面中有动态加载的数据如何进行数据的定位阅读全文

posted @ 2022-01-11 15:40 奶酥阅读(551) 评论(0) 推荐(0) 编辑

03requests模块基本使用

摘要：requests模块概念：基于网络请求的模块，作用是用来模拟浏览器发起请求。编码流程：指定url 基于requests模块发起请求获取响应对象中的数据值持久化存储环境安装： pip install requests 实例学习：基于requests模块的get请求需求：爬取搜狗指定词条阅读全文

posted @ 2022-01-10 17:19 奶酥阅读(150) 评论(0) 推荐(0) 编辑

*解决Jupyter Notebook无智能提示

摘要：解决Jupyter Notebook无智能提示看到视频里up主的Jupyter有智能提示，我的没有，所以特地去搞了一下 1、打开Anaconda Prompt 2.在弹出命令框依次输入以下4个命令 pip install jupyter_contrib_nbextensions jupyter c 阅读全文

posted @ 2022-01-09 15:52 奶酥阅读(882) 评论(0) 推荐(0) 编辑

02http和https

摘要：http 概念：clinet和Server进行数据交互的某种形式常用的头信息： User-Agent：请求载体的身份标识 Connection:close 请求，连接中断，与服务器失去联系，与网站无关 content-type:响应 https 概念：安全的http协议（加密）证书：对称密钥加阅读全文

posted @ 2022-01-06 20:12 奶酥阅读(60) 评论(0) 推荐(0) 编辑

01Jupyter基本应用

摘要：（提前下载Anacoda） Anaconda 集成环境:基于数据分析和机器学习的开发环境 jupyter 超级终端，是Anaconda集成环境中提供的一种基于浏览器的可视化开发工具使用jupyter 在目录下打开cmd D:\PLearn>jupyter notebook 新建python3文件，阅读全文

posted @ 2022-01-06 20:09 奶酥阅读(81) 评论(0) 推荐(0) 编辑

奶酥

随笔分类 - 爬虫

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

最新评论