crawler 听课笔记 碎碎念 2 一些爬虫须知的基本常识和流程
html的宗旨: <标签 属性=”属性的值“></标签> 只是对于文本的一种解释划分吧
dom的宗旨: 就是一个大数组,处理方便,效率低
xml <node attr=value>...</node> html是它的子集,树结构 主要注意节点关系
json 类似xml,对JavaScript友好
mysql show database显示当前服务i上数据库
create database dbname创建一个新数据库
use dbname使用指定的数据库
show tables显示当前数据库的所有表
desc tbname 显示表数据
爬虫工作流程
种子url放入队列 获取url抓取内容 解析内容,需要进一步抓取的放入工作队列 存储解析后的内容
抓取策略
广度优先 深度优先 pagerank(给自己的网页打分) 大站优先策略
去重
Hash表 bloom过滤器(把一个网页的哈希值转换为01结构,然后和过滤器做与或操作,有的话一定重复了,没有的话就可能报错,可以再做一次操作)
爬虫质量
质量 性能 分布式 可扩展性 更新 新鲜性 可收缩性 有效性
更多
map/reduce 布隆过滤器
爬虫规范与原则 robots协议
风雨兼程,前程可待!