ken桑带你飞 - 博客园

2020年7月31日

摘要： yum install glibc-common yum install -y langpacks-zh_CN vim /etc/locale.conf # 修改这个文件 LANG=zh_CN.utf8 阅读全文

posted @ 2020-07-31 00:00 ken桑带你飞阅读(2159) 评论(0) 推荐(0)

2020年7月27日

摘要： 1 核心概念(非常简单) 大家想象一棵树分支就是同一个树关节长两个分叉每一个树关节就是一个commit commit 是纵向纬度的版本分支(branch) 是横向纬度的版本 (发挥想象力自己想想) github.com 存储代码以及版本分支等等信息的网站 2 操作心法时刻留意着阅读全文

posted @ 2020-07-27 21:38 ken桑带你飞阅读(122) 评论(0) 推荐(0)

2018年2月13日

laravel 上线部署最佳实践

摘要： nginx 配置 listen 80 default_server; server_name xxxx; index index.php index.html; 优先 index.php root /home/wwwroot/xxx/public/; add_header X-Frame-Optio 阅读全文

posted @ 2018-02-13 16:23 ken桑带你飞阅读(1191) 评论(0) 推荐(0)

2018年1月12日

ken桑带你读源码之scrapy scrapy\core\scheduler.py

摘要：从英文来看是调度程序我们看看是怎么调度首先爬虫队列有两个一个是保存在内存中没有历史记录重新开始 42行 self.mqs = self.pqclass(self._newmq) 另外一个是存在硬盘的队列用于断点续传大家看 43 行 self._dq() if self.dqdir el 阅读全文

posted @ 2018-01-12 06:59 ken桑带你飞阅读(155) 评论(0) 推荐(0)

2017年12月27日

scrapyd 部署

摘要：步骤 1 pip install scrapyd pip install scrapy-client 步骤 2 修改 scrapy.cfg [deploy:targetName]url = http://localhost:6800/project = projectName 步骤 3 scrapy 阅读全文

posted @ 2017-12-27 13:05 ken桑带你飞阅读(183) 评论(0) 推荐(0)

2017年12月23日

ken桑带你读源码之 scrapy_redis

摘要：首先更大家说下正式部署上线的爬虫会有分布式爬虫的需求而且原本scrapy 的seen (判断重复url的池不知道用啥词已抓url吧 ) 保存在磁盘 url 队列也是保存在磁盘 (保存在磁盘对爬虫效率会极大影响) 如果是断点重爬声明 jobdir 百分百是保存在磁盘不申明jobdir 阅读全文

posted @ 2017-12-23 07:06 ken桑带你飞阅读(350) 评论(0) 推荐(0)

2017年12月15日

ken桑带你读源码之scrapy scrapy\extensions

摘要： logstats.py 爬虫启动时打印抓取网页数 item数 memdebug.py 爬虫结束统计还被引用的内存也就是说gc 回收不了的内存 memusage.py 监控爬虫内存占用一旦超过 MEMUSAGE_LIMIT_MB 就stop spider 如果启动email 还会发送邮件抓阅读全文

posted @ 2017-12-15 01:45 ken桑带你飞阅读(188) 评论(0) 推荐(0)

2017年12月14日

ken桑带你读源码之scrapy downloadermiddlewares

摘要： downloadermiddlewares 文件夹是下载中间件其中 process_request 还没请求时的处理函数 process_response 请求之后的处理函数 chunked.py 简单说就是传输网页数据非常大的或者数据长度不确定用到参考 http://blog.csdn.n 阅读全文

posted @ 2017-12-14 04:14 ken桑带你飞阅读(222) 评论(0) 推荐(0)

ken桑带你读源码之scrapy scrapy\spidermiddlewares

只有注册用户登录后才能阅读该文。阅读全文

posted @ 2017-12-14 02:00 ken桑带你飞阅读(6) 评论(0) 推荐(0)

ken桑带你读源码之scrapy pipelines\images.py

摘要：大家先看看 http://www.cnblogs.com/attitudeY/p/7078559.html 下面我做一些补充最新版本1.1 已经支持下载路径保存到 item 48行 DEFAULT_IMAGES_RESULT_FIELD = 'images' 作为保存下载地址key 同时我们会有阅读全文

posted @ 2017-12-14 00:46 ken桑带你飞阅读(278) 评论(0) 推荐(0)

俺配不起

公告