摘要: 爬取药监总局中相关企业的详情信息 http://scxk.nmpa.gov.cn:81/xk/ 需求分析 确定页面中相关数据是否为动态加载 相关的企业信息为动态加载 通过抓包工具全局搜索定位到动态加载数据的数据包,提取到相关的url和请求参数 post:http://scxk.nmpa.gov.cn 阅读全文
posted @ 2020-09-13 08:26 straightup 阅读(378) 评论(0) 推荐(0) 编辑
摘要: requests模块初识 什么是requests模块? python中封装好的一个基于网络请求的模块 requests模块的作用是什么? 模拟浏览器发请求 requests模块的环境安装: pip install requests requests模块的编码流程: 1.指定url(输入网址) 2.发 阅读全文
posted @ 2020-09-13 08:20 straightup 阅读(377) 评论(0) 推荐(0) 编辑
摘要: 什么是爬虫? - 就是通过编写程序模拟浏览器上网,然后让其去互联网上爬取数据的过程 爬虫的分类: 通用爬虫 抓取一整张网页的数据 聚焦爬虫 抓取页面的局部数据 增量式爬虫 用来监测网站数据更新的情况,以便爬取到网站最新更新出来的数据 反爬机制 针对门户网站,阻止爬虫爬取 反反爬策略 针对爬虫程序员, 阅读全文
posted @ 2020-09-13 07:51 straightup 阅读(98) 评论(0) 推荐(0) 编辑