crawler 听课笔记 碎碎念 2 一些爬虫须知的基本常识和流程

html的宗旨:      <标签 属性=”属性的值“></标签>        只是对于文本的一种解释划分吧

dom的宗旨:      就是一个大数组,处理方便,效率低

xml                      <node attr=value>...</node>          html是它的子集,树结构    主要注意节点关系

json                      类似xml,对JavaScript友好

mysql                  show database显示当前服务i上数据库

        create database dbname创建一个新数据库

        use dbname使用指定的数据库

        show tables显示当前数据库的所有表

         desc tbname 显示表数据

爬虫工作流程

种子url放入队列  获取url抓取内容  解析内容,需要进一步抓取的放入工作队列  存储解析后的内容

抓取策略

广度优先  深度优先  pagerank(给自己的网页打分)  大站优先策略 

去重

Hash表  bloom过滤器(把一个网页的哈希值转换为01结构,然后和过滤器做与或操作,有的话一定重复了,没有的话就可能报错,可以再做一次操作)

爬虫质量

质量 性能 分布式 可扩展性 更新 新鲜性 可收缩性 有效性

更多

map/reduce  布隆过滤器

爬虫规范与原则 robots协议

 

  

posted @ 2018-09-22 16:37  星涅爱别离  阅读(156)  评论(0编辑  收藏  举报