2018年3月17日
摘要: 1. Django安装 2. 创建项目 如需要中文,可以修改django支持中文环境,编辑settings.py文件,设定内容如下: 3. 配置数据库 Django默认采用sqllite3数据库作为数据持久存储,实际工作中一般使用MySQL作为结构化数据存储,在python2中使用python-My 阅读全文
posted @ 2018-03-17 21:36 HappyLab 阅读(233) 评论(0) 推荐(0) 编辑
  2018年2月27日
摘要: 恢复内容开始 1. Ansible概述 ansible是新出现的自动化运维工具,基于Python开发,集合了众多运维工具(puppet、cfengine、chef、func、fabric)的优点,实现了批量系统配置、批量程序部署、批量运行命令等功能。同时,它是基于模块工作的,本身没有批量部署的能力。 阅读全文
posted @ 2018-02-27 22:25 HappyLab 阅读(535) 评论(0) 推荐(0) 编辑
  2018年2月24日
摘要: 1. Scrapy框架 Scrapy是python下实现爬虫功能的框架,能够将数据解析、数据处理、数据存储合为一体功能的爬虫框架。 2. Scrapy安装 1. 安装依赖包 2. 安装scrapy 注意事项:scrapy和twisted存在兼容性问题,如果安装twisted版本过高,运行scrapy 阅读全文
posted @ 2018-02-24 19:21 HappyLab 阅读(15609) 评论(1) 推荐(1) 编辑
  2018年2月23日
摘要: 1. 异步加载爬虫 对于静态页面爬虫很容易获取到站点的数据内容,然而静态页面需要全量加载站点的所有数据,对于网站的访问和带宽是巨大的挑战,对于高并发和大访问访问量的站点来说,需要使用AJAX相关的技术来实现异步加载,即根据需要来获取数据,以pexels网站为例,按F12,切换到Network的XHR 阅读全文
posted @ 2018-02-23 13:02 HappyLab 阅读(976) 评论(0) 推荐(0) 编辑
  2018年2月22日
摘要: 1. 多进程爬虫 对于数据量较大的爬虫,对数据的处理要求较高时,可以采用python多进程或多线程的机制完成,多进程是指分配多个CPU处理程序,同一时刻只有一个CPU在工作,多线程是指进程内部有多个类似"子进程"同时在协同工作。python中有多种多个模块可完成多进程和多线程的工作,此处此用mult 阅读全文
posted @ 2018-02-22 14:37 HappyLab 阅读(733) 评论(0) 推荐(0) 编辑
  2018年2月21日
摘要: 1. 爬虫设计的技术 1)数据获取,通过http获取网站的数据,如urllib,urllib2,requests等模块; 2)数据提取,将web站点所获取的数据进行处理,获取所需要的数据,常使用的技术有:正则re,BeautifulSoup,xpath; 3)数据存储,将获取的数据有效的存储,常见的 阅读全文
posted @ 2018-02-21 18:07 HappyLab 阅读(885) 评论(0) 推荐(0) 编辑