10 2018 档案
hadoop安装
摘要:Hadoop是一个开源的Apache项目,允许对大规模,分布于不同网络的数据集进行并行处理 它由HDFS(hadoop distibuted file system )和hadoop YARN组成 HDFS:处理不同的节点上的大量数据 hadoop YARN :任务调度框架,调度所有节点上的数据处理 阅读全文
posted @ 2018-10-31 15:22 庭明 阅读(375) 评论(0) 推荐(0) 编辑
django中间件
摘要:django 1.11 中间件的制造工厂是一个方法接收get_response 作为入参返回一个中间件。一个中间件是一个可调用的对象,接收一个request返回一个response,就像view. middleware也可以写作一个方法 def simple_middleware(get_respo 阅读全文
posted @ 2018-10-25 15:13 庭明 阅读(199) 评论(0) 推荐(0) 编辑
scrapy-redis 实现 分布式爬虫
摘要:scrapy的组建scrapy Engine ,scheduler,downloader,spider,item pipeline ,在编写爬虫程序一般用到的组件是 spider,item,pipeline,middleware scrapy-redis 改写了scrapy的spider,pipel 阅读全文
posted @ 2018-10-19 15:22 庭明 阅读(213) 评论(0) 推荐(0) 编辑
selenium 常用操作
摘要:官方文档: https://selenium-python.readthedocs.io/api.html#selenium.webdriver.remote.webdriver.WebDriver.switch_to_frame 通常初始步骤 导入 webdriver, 通过下载的chromedr 阅读全文
posted @ 2018-10-11 18:31 庭明 阅读(2683) 评论(0) 推荐(1) 编辑

点击右上角即可分享
微信分享提示