上一页 1 2 3 4 5 6 ··· 59 下一页
摘要: 爬取工具 chromedriver Selenium PhantomJS:基于nodejs,无界面服务器,适合大规模爬虫集群部署 图片 http://wx2.sinaimg.cn/thumb150/4b7a8989ly1fcws2sryvrj22p81sub2a.jpg re.findall('/[ 阅读全文
posted @ 2023-01-31 21:41 cxc1357 阅读(22) 评论(0) 推荐(0) 编辑
摘要: PageRank 计算每个网页的PageRank值,根据此值大小对网页重要性排序 动态排序 主从服务器维持心跳 根据重排条件,启动重排流程 通知爬虫暂停爬取 爬虫在心跳回复中收到暂停通知,暂停爬取并通知主机 主机等待所有爬虫暂停 主机开始重排网页 重排结束,设置标志位 心跳回复收到回复指令,继续爬取 阅读全文
posted @ 2023-01-31 21:41 cxc1357 阅读(54) 评论(0) 推荐(0) 编辑
摘要: 表单 <form>...</form>创建HTML表单 用于向服务器提交数据 登录方式 form-data x-www-form-urlencoded ajax以json方式提交数据 登录是为了得到 cookie 登录成功后 Header 会有设置 cookie 的相关信息 把服务器返回的 cook 阅读全文
posted @ 2023-01-31 21:37 cxc1357 阅读(63) 评论(0) 推荐(0) 编辑
摘要: 为什么用 快 反爬虫 多线程 复杂性 资源、数据的安全性:锁保护 原子性:数据操作是天然互斥的 同步等待:wait()、notify()、notifyall() 死锁:多个线程对资源互锁 容灾:任何线程出错,程序都会停止 Python 多线程 支持多线程 直接映射到native线程(Java多线程由 阅读全文
posted @ 2023-01-31 21:36 cxc1357 阅读(69) 评论(0) 推荐(0) 编辑
摘要: 参考 https://blog.csdn.net/weixin_52796927/article/details/121664227 阅读全文
posted @ 2022-11-22 23:20 cxc1357 阅读(71) 评论(0) 推荐(0) 编辑
摘要: 参考 https://blog.csdn.net/msq16021/article/details/118992379 阅读全文
posted @ 2022-11-22 22:56 cxc1357 阅读(298) 评论(0) 推荐(0) 编辑
摘要: 参考 http://cn.voidcc.com/question/p-suijpyvv-on.html https://blog.csdn.net/willingtolove/article/details/109967372 阅读全文
posted @ 2022-09-17 11:50 cxc1357 阅读(86) 评论(0) 推荐(0) 编辑
摘要: 参考 https://blog.csdn.net/fivemillion/article/details/126050669 阅读全文
posted @ 2022-09-15 21:48 cxc1357 阅读(34) 评论(0) 推荐(0) 编辑
摘要: 参考 https://blog.csdn.net/weixin_45798684/article/details/109297232 阅读全文
posted @ 2022-09-15 21:47 cxc1357 阅读(15) 评论(0) 推荐(0) 编辑
摘要: 场景 重新搭集群,新更换了NameNode,导致DataNode无法启动 原因 DataNode 中记录的 NameNode 信息改变 解决 修改目录 /root/training/hadoop-2.7.3/tmp/dfs/data/current 删除或修改为一致 参考 https://blog. 阅读全文
posted @ 2022-06-16 09:03 cxc1357 阅读(20) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 59 下一页