爬虫内容回顾整理
记录一下,加深印象。。。
一. request
1. get用于获取数据,post用于提交数据
post 请求的数据会包含在 from data 里面,隐藏起来,适合一些登录页面的请求,比较安全,或者需要你输入参数进入的页面。
get 的请求直接出现在url连接中,可以直接看到,此时删除后面的参数,对网页的构造并没什么影响。
类似这种url构造,删除微博后面的一些参数,对网页吗本身没有影响。
提交表单。
二
类似微博,发微博这个页面,或者是赶集啊58上面的一些浏览次数,都是通过js渲染过后的结果,即我所抓取下来的页面不是服务器直接发送给我的数据,而是通过浏览器渲染后的数据(html网页),
那么要解决JavaScript渲染的问题,拿到服务器直接发送给我的数据
服务器直接发送的实时数据在network里面找
mongodb 主要是键值,字典的形式,我现在主要用的是这个
posted on 2018-01-06 11:33 java小萌新(づ ̄3 ̄) 阅读(115) 评论(0) 编辑 收藏 举报