爬虫内容回顾整理

 

记录一下,加深印象。。。

 

一. request

 

1. get用于获取数据,post用于提交数据

post 请求的数据会包含在 from data 里面,隐藏起来,适合一些登录页面的请求,比较安全,或者需要你输入参数进入的页面。

get 的请求直接出现在url连接中,可以直接看到,此时删除后面的参数,对网页的构造并没什么影响。

类似这种url构造,删除微博后面的一些参数,对网页吗本身没有影响。

 提交表单。

二   

 

 类似微博,发微博这个页面,或者是赶集啊58上面的一些浏览次数,都是通过js渲染过后的结果,即我所抓取下来的页面不是服务器直接发送给我的数据,而是通过浏览器渲染后的数据(html网页),

那么要解决JavaScript渲染的问题,拿到服务器直接发送给我的数据

服务器直接发送的实时数据在network里面找

 

 

mongodb  主要是键值,字典的形式,我现在主要用的是这个

posted on 2018-01-06 11:33  java小萌新(づ ̄3 ̄)  阅读(115)  评论(0编辑  收藏  举报

导航