摘要: yum install glibc-common yum install -y langpacks-zh_CN vim /etc/locale.conf # 修改这个文件 LANG=zh_CN.utf8 阅读全文
posted @ 2020-07-31 00:00 ken桑带你飞 阅读(2132) 评论(0) 推荐(0) 编辑
摘要: 1 核心概念(非常简单) 大家想象一棵树 分支就是 同一个树关节 长两个分叉 每一个树关节 就是一个commit commit 是纵向纬度的版本 分支(branch) 是横向纬度的版本 (发挥想象力 自己想想) github.com 存储代码 以及版本 分支 等等信息的网站 2 操作心法 时刻留意着 阅读全文
posted @ 2020-07-27 21:38 ken桑带你飞 阅读(118) 评论(0) 推荐(0) 编辑
摘要: nginx 配置 listen 80 default_server; server_name xxxx; index index.php index.html; 优先 index.php root /home/wwwroot/xxx/public/; add_header X-Frame-Optio 阅读全文
posted @ 2018-02-13 16:23 ken桑带你飞 阅读(1171) 评论(0) 推荐(0) 编辑
摘要: 从英文来看是调度程序 我们看看是怎么调度 首先爬虫队列有两个 一个是保存在内存中 没有历史记录 重新开始 42行 self.mqs = self.pqclass(self._newmq) 另外一个是存在硬盘的队列 用于断点续传 大家看 43 行 self._dq() if self.dqdir el 阅读全文
posted @ 2018-01-12 06:59 ken桑带你飞 阅读(147) 评论(0) 推荐(0) 编辑
摘要: 步骤 1 pip install scrapyd pip install scrapy-client 步骤 2 修改 scrapy.cfg [deploy:targetName]url = http://localhost:6800/project = projectName 步骤 3 scrapy 阅读全文
posted @ 2017-12-27 13:05 ken桑带你飞 阅读(173) 评论(0) 推荐(0) 编辑
摘要: 首先更大家说下 正式部署上线的爬虫会有分布式爬虫的需求 而且原本scrapy 的seen (判断重复url的池 不知道用啥词 已抓url吧 ) 保存在磁盘 url 队列 也是保存在磁盘 (保存在磁盘 对爬虫效率会极大影响) 如果是断点重爬 声明 jobdir 百分百是保存在磁盘 不申明jobdir 阅读全文
posted @ 2017-12-23 07:06 ken桑带你飞 阅读(342) 评论(0) 推荐(0) 编辑
摘要: logstats.py 爬虫启动时 打印抓取网页数 item数 memdebug.py 爬虫结束 统计还被引用的内存 也就是说gc 回收不了的内存 memusage.py 监控爬虫 内存占用 一旦超过 MEMUSAGE_LIMIT_MB 就stop spider 如果启动email 还会发送邮件 抓 阅读全文
posted @ 2017-12-15 01:45 ken桑带你飞 阅读(180) 评论(0) 推荐(0) 编辑
摘要: downloadermiddlewares 文件夹是下载中间件 其中 process_request 还没请求时的处理函数 process_response 请求之后的处理函数 chunked.py 简单说就是传输网页数据非常大的 或者 数据长度不确定用到 参考 http://blog.csdn.n 阅读全文
posted @ 2017-12-14 04:14 ken桑带你飞 阅读(215) 评论(0) 推荐(0) 编辑
只有注册用户登录后才能阅读该文。 阅读全文
posted @ 2017-12-14 02:00 ken桑带你飞 阅读(6) 评论(0) 推荐(0) 编辑
摘要: 大家先看看 http://www.cnblogs.com/attitudeY/p/7078559.html 下面我做一些补充 最新版本1.1 已经支持 下载路径保存到 item 48行 DEFAULT_IMAGES_RESULT_FIELD = 'images' 作为保存下载地址key 同时我们会有 阅读全文
posted @ 2017-12-14 00:46 ken桑带你飞 阅读(266) 评论(0) 推荐(0) 编辑