摘要:
爬取工具 chromedriver Selenium PhantomJS:基于nodejs,无界面服务器,适合大规模爬虫集群部署 图片 http://wx2.sinaimg.cn/thumb150/4b7a8989ly1fcws2sryvrj22p81sub2a.jpg re.findall('/[ 阅读全文
摘要:
PageRank 计算每个网页的PageRank值,根据此值大小对网页重要性排序 动态排序 主从服务器维持心跳 根据重排条件,启动重排流程 通知爬虫暂停爬取 爬虫在心跳回复中收到暂停通知,暂停爬取并通知主机 主机等待所有爬虫暂停 主机开始重排网页 重排结束,设置标志位 心跳回复收到回复指令,继续爬取 阅读全文
摘要:
表单 <form>...</form>创建HTML表单 用于向服务器提交数据 登录方式 form-data x-www-form-urlencoded ajax以json方式提交数据 登录是为了得到 cookie 登录成功后 Header 会有设置 cookie 的相关信息 把服务器返回的 cook 阅读全文
摘要:
为什么用 快 反爬虫 多线程 复杂性 资源、数据的安全性:锁保护 原子性:数据操作是天然互斥的 同步等待:wait()、notify()、notifyall() 死锁:多个线程对资源互锁 容灾:任何线程出错,程序都会停止 Python 多线程 支持多线程 直接映射到native线程(Java多线程由 阅读全文