10 2018 档案
hadoop安装
摘要:Hadoop是一个开源的Apache项目,允许对大规模,分布于不同网络的数据集进行并行处理 它由HDFS(hadoop distibuted file system )和hadoop YARN组成 HDFS:处理不同的节点上的大量数据 hadoop YARN :任务调度框架,调度所有节点上的数据处理
阅读全文
django中间件
摘要:django 1.11 中间件的制造工厂是一个方法接收get_response 作为入参返回一个中间件。一个中间件是一个可调用的对象,接收一个request返回一个response,就像view. middleware也可以写作一个方法 def simple_middleware(get_respo
阅读全文
scrapy-redis 实现 分布式爬虫
摘要:scrapy的组建scrapy Engine ,scheduler,downloader,spider,item pipeline ,在编写爬虫程序一般用到的组件是 spider,item,pipeline,middleware scrapy-redis 改写了scrapy的spider,pipel
阅读全文
selenium 常用操作
摘要:官方文档: https://selenium-python.readthedocs.io/api.html#selenium.webdriver.remote.webdriver.WebDriver.switch_to_frame 通常初始步骤 导入 webdriver, 通过下载的chromedr
阅读全文