2019 年 12月 11 日随笔档案 - 5魁首啊666

2019年12月11日

摘要：需求爬取药监总局中相关企业的详情信息http://125.35.6.84:81/xk/ 需求分析确定页面中企业相关数据是否为动态加载？相关的企业信息是动态加载出来的通过抓包工具实现全局搜索，定位动态加载数据对应的数据包！ post：http://125.35.6.84:81/xk/itown 阅读全文

posted @ 2019-12-11 11:55 5魁首啊666 阅读(744) 评论(0) 推荐(0) 编辑

requests模块的基本用法

摘要： requests 什么是requests模块 python中封装好的一个基于网络请求的模块作用用来模拟浏览器发送请求环境安装编码流程指定 url 发起请求获取响应数据持久化存储爬取搜狗首页的页面源码数据上述代码执行后发现： 1.出现了乱码 2.数据量级不对 UA检测：门户网站通过检阅读全文

posted @ 2019-12-11 11:50 5魁首啊666 阅读(169) 评论(0) 推荐(0) 编辑

爬虫初识

摘要：什么是爬虫? 就是通过编写程序模拟浏览器上网,然后让其取互联网上爬取数据的过程关键字 : 模拟(request模块),抓取什么是HTTP? 我的服务器端和客户端进行数据交互的某种形式爬虫的分类通用爬虫 : 抓取互联网中的一整张页面聚焦爬虫 : 抓取互联网页面中局部的,指定的数据增量式爬虫阅读全文

posted @ 2019-12-11 11:17 5魁首啊666 阅读(62) 评论(0) 推荐(0) 编辑

5魁首啊666

公告