摘要: 需求 爬取药监总局中相关企业的详情信息http://125.35.6.84:81/xk/ 需求分析 确定页面中企业相关数据是否为动态加载? 相关的企业信息是动态加载出来的 通过抓包工具实现全局搜索,定位动态加载数据对应的数据包! post:http://125.35.6.84:81/xk/itown 阅读全文
posted @ 2019-12-11 11:55 5魁首啊666 阅读(744) 评论(0) 推荐(0) 编辑
摘要: requests 什么是requests模块 python中封装好的一个基于网络请求的模块 作用 用来模拟浏览器发送请求 环境安装 编码流程 指定 url 发起请求 获取响应数据 持久化存储 爬取搜狗首页的页面源码数据 上述代码执行后发现: 1.出现了乱码 2.数据量级不对 UA检测:门户网站通过检 阅读全文
posted @ 2019-12-11 11:50 5魁首啊666 阅读(169) 评论(0) 推荐(0) 编辑
摘要: 什么是爬虫? 就是通过编写程序模拟浏览器上网,然后让其取互联网上爬取数据的过程 关键字 : 模拟(request模块),抓取 什么是HTTP? 我的服务器端和客户端进行数据交互的某种形式 爬虫的分类 通用爬虫 : 抓取互联网中的一整张页面 聚焦爬虫 : 抓取互联网页面中局部的,指定的数据 增量式爬虫 阅读全文
posted @ 2019-12-11 11:17 5魁首啊666 阅读(62) 评论(0) 推荐(0) 编辑