HappyLab - 博客园

2018年3月17日

摘要： 1. Django安装 2. 创建项目如需要中文，可以修改django支持中文环境，编辑settings.py文件，设定内容如下： 3. 配置数据库 Django默认采用sqllite3数据库作为数据持久存储，实际工作中一般使用MySQL作为结构化数据存储，在python2中使用python-My 阅读全文

posted @ 2018-03-17 21:36 HappyLab 阅读(258) 评论(0) 推荐(0)

2018年2月27日

Ansible学习总结(1)

摘要：恢复内容开始 1. Ansible概述 ansible是新出现的自动化运维工具，基于Python开发，集合了众多运维工具（puppet、cfengine、chef、func、fabric）的优点，实现了批量系统配置、批量程序部署、批量运行命令等功能。同时，它是基于模块工作的，本身没有批量部署的能力。阅读全文

posted @ 2018-02-27 22:25 HappyLab 阅读(582) 评论(0) 推荐(0)

2018年2月24日

Python使用Scrapy框架爬取数据存入CSV文件(Python爬虫实战4)

摘要： 1. Scrapy框架 Scrapy是python下实现爬虫功能的框架，能够将数据解析、数据处理、数据存储合为一体功能的爬虫框架。 2. Scrapy安装 1. 安装依赖包 2. 安装scrapy 注意事项：scrapy和twisted存在兼容性问题，如果安装twisted版本过高，运行scrapy 阅读全文

posted @ 2018-02-24 19:21 HappyLab 阅读(15829) 评论(1) 推荐(1)

2018年2月23日

Python爬虫获取异步加载站点pexels并下载图片(Python爬虫实战3)

摘要： 1. 异步加载爬虫对于静态页面爬虫很容易获取到站点的数据内容，然而静态页面需要全量加载站点的所有数据，对于网站的访问和带宽是巨大的挑战，对于高并发和大访问访问量的站点来说，需要使用AJAX相关的技术来实现异步加载，即根据需要来获取数据，以pexels网站为例，按F12，切换到Network的XHR 阅读全文

posted @ 2018-02-23 13:02 HappyLab 阅读(1092) 评论(0) 推荐(0)

2018年2月22日

Python多线程爬虫与多种数据存储方式实现(Python爬虫实战2)

摘要： 1. 多进程爬虫对于数据量较大的爬虫，对数据的处理要求较高时，可以采用python多进程或多线程的机制完成，多进程是指分配多个CPU处理程序，同一时刻只有一个CPU在工作，多线程是指进程内部有多个类似"子进程"同时在协同工作。python中有多种多个模块可完成多进程和多线程的工作，此处此用mult 阅读全文

posted @ 2018-02-22 14:37 HappyLab 阅读(782) 评论(0) 推荐(0)

2018年2月21日

Python爬取豆瓣音乐存储MongoDB数据库(Python爬虫实战1)

摘要： 1. 爬虫设计的技术 1）数据获取，通过http获取网站的数据，如urllib,urllib2,requests等模块； 2）数据提取，将web站点所获取的数据进行处理，获取所需要的数据，常使用的技术有：正则re，BeautifulSoup,xpath； 3）数据存储，将获取的数据有效的存储，常见的阅读全文

posted @ 2018-02-21 18:07 HappyLab 阅读(937) 评论(0) 推荐(0)