随笔分类 -  爬虫

爬虫学习
摘要:bs4解析 环境的安装: 在cmd中输入: pip install bs4 pip install lxml bs4的解析原理: 实例化一个BeautifulSoup的对象,并且将即将被解析的页面源码数据加载到该对象中。 调用BeautifulSoup对象中的相关属性和方法进行标签定位和数据提取/ 阅读全文
posted @ 2022-01-20 21:39 奶酥 阅读(101) 评论(0) 推荐(0) 编辑
摘要:回顾 1、爬虫 2、爬虫的分类: 通用爬虫 聚焦爬虫 增量式爬虫:监测 3、反爬机制 ​ 反反爬策略 4、robots,UA监测:UA伪装 5、http和https概念:服务器和客户端进行数据交互的某种形式。 6、常用的头信息: User-Agent:请求载体的身份标识 Connection:clo 阅读全文
posted @ 2022-01-19 21:15 奶酥 阅读(70) 评论(0) 推荐(0) 编辑
摘要:词云图制作 之前爬了网易云歌曲成都的评论,就想着做一个词云图,搞一下。 下载相关库 1、jieba库 jieba库是一个中文分词库。 在pycharm的setting中,找到project interpreter,加号,manager repositories,更改下下载路径。原路径下载太慢了,最后 阅读全文
posted @ 2022-01-14 14:09 奶酥 阅读(212) 评论(0) 推荐(0) 编辑
摘要:爬取网易云评论 我们用pycharm来完成这个代码,因为我不太熟悉,用Jupiter写的话经常报错,我受不了看到我编译了十几次还报错。 实现过程: 1、下载selenium包 这次的程序涉及到一个selenium包,这是一个Web自动化工具。 下载selenium包 如果用jupyter写的话,打开 阅读全文
posted @ 2022-01-14 14:04 奶酥 阅读(222) 评论(0) 推荐(0) 编辑
摘要:爬取药监总局企业详情信息 国家药监局化妆品许可证:http://scxk.nmpa.gov.cn:81/xk/ json格式化工具:https://www.bejson.com/ 思考:如何判定一张页面中是否存在动态加载的数据 抓包工具进行局部搜索 如果判定出页面中有动态加载的数据如何进行数据的定位 阅读全文
posted @ 2022-01-11 15:40 奶酥 阅读(551) 评论(0) 推荐(0) 编辑
摘要:requests模块 概念:基于网络请求的模块,作用是用来模拟浏览器发起请求。 编码流程: 指定url 基于requests模块发起请求 获取响应对象中的数据值 持久化存储 环境安装: pip install requests 实例学习: 基于requests模块的get请求 需求:爬取搜狗指定词条 阅读全文
posted @ 2022-01-10 17:19 奶酥 阅读(150) 评论(0) 推荐(0) 编辑
摘要:解决Jupyter Notebook无智能提示 看到视频里up主的Jupyter有智能提示,我的没有,所以特地去搞了一下 1、打开Anaconda Prompt 2.在弹出命令框依次输入以下4个命令 pip install jupyter_contrib_nbextensions jupyter c 阅读全文
posted @ 2022-01-09 15:52 奶酥 阅读(882) 评论(0) 推荐(0) 编辑
摘要:http 概念:clinet和Server进行数据交互的某种形式 常用的头信息: User-Agent:请求载体的身份标识 Connection:close 请求,连接中断,与服务器失去联系,与网站无关 content-type:响应 https 概念:安全的http协议(加密) 证书: 对称密钥加 阅读全文
posted @ 2022-01-06 20:12 奶酥 阅读(60) 评论(0) 推荐(0) 编辑
摘要:(提前下载Anacoda) Anaconda 集成环境:基于数据分析和机器学习的开发环境 jupyter 超级终端,是Anaconda集成环境中提供的一种基于浏览器的可视化开发工具 使用jupyter 在目录下打开cmd D:\PLearn>jupyter notebook 新建python3文件, 阅读全文
posted @ 2022-01-06 20:09 奶酥 阅读(81) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示