摘要: 一、简介 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。其可以应用在数据挖掘,信息处理或存储历史数据得一系列的程序中。 其最初是为了网络抓取所设计的,也可以应用在获取API所返回的数据或者通用的网路爬虫。scrapy用途广泛,可以用于数据挖掘、检测和自动化测试。 Scrapy使 阅读全文
posted @ 2017-11-14 16:17 Amos丶G 阅读(169) 评论(0) 推荐(0) 编辑
摘要: 一、背景 爬虫的本质就是一个socket客户端与服务端的通信过程,如果我们有多个url待爬取,采用串行的方式执行,只能等待爬取一个结束后才能继续下一个,效率会非常低。 注意:串行并不意味着抵消,如果串行的都是纯计算的任务,那么cpu的利用率仍然会很高,之所以爬虫程序的串行低效,是因为爬虫程序是明显的 阅读全文
posted @ 2017-11-09 19:22 Amos丶G 阅读(136) 评论(0) 推荐(0) 编辑
摘要: 一、介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.你可能在寻找 Beautiful Soup3 的文档,Beautifu 阅读全文
posted @ 2017-11-09 17:14 Amos丶G 阅读(119) 评论(0) 推荐(0) 编辑
摘要: 一、介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题。 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等。来拿到网页渲染之后的结果,可支持多种浏览器。 二、安装 #安装:se 阅读全文
posted @ 2017-11-08 20:27 Amos丶G 阅读(82) 评论(0) 推荐(0) 编辑
摘要: COOKIE与SESSION 一、简介 (1)cookie不属于http协议范围,由于http协议无法保持状态,但实际情况,我们却又需要“保持状态”,因此cookie就是在这样一个场景下诞生。 cookie的工作原理是:由服务器产生内容,浏览器收到请求后保存在本地:当浏览器再次访问时,浏览器会自动带 阅读全文
posted @ 2017-10-22 15:48 Amos丶G 阅读(174) 评论(1) 推荐(1) 编辑
摘要: Django内置的Admin是对于app中的model数据表数据进行增删改查提供的组件。 一、基本用法 1.配置路由。Django项目中默认已经配置: 2.注册model: 3.通过查看admin源码我们知道,admin会自动创建路由映射关系(url),格式如下: 二、定制Admin 通过将mode 阅读全文
posted @ 2017-10-22 15:26 Amos丶G 阅读(165) 评论(0) 推荐(0) 编辑
摘要: 我们通常将JS代码写在一个单独的JS文件中,然后在页面中引入该文件。但是,有时候引入后会碰到变量名或函数名与其它JS代码通途的问题。那么如何解决这个问题呢?作用域隔离。在JS中,作用域是通过函数来划分的,将JS代码封装到函数中进行调用可以笔记面变量名/函数名冲突的问题,但是这也并不是万无一失,因为封 阅读全文
posted @ 2017-10-22 15:08 Amos丶G 阅读(4392) 评论(0) 推荐(0) 编辑
摘要: 一、作用域&作用域链 JS的作用域是通过函数划分的,函数的作用域在定义阶段就已经确定: 1.在最外层函数和在最外层函数外面定义的变量拥有全局作用域 2.所有未定义直接赋值的变量自动声明为拥有全局作用域,例如: 变量age拥有全局作用域,而sex在函数外部无法访问到 3.所有window对象的属性拥有 阅读全文
posted @ 2017-10-22 13:45 Amos丶G 阅读(157) 评论(0) 推荐(0) 编辑
摘要: 往数据库写入数据时,不经意间就会写入不完整的数据,我们称之为脏数据。事务管理(transaction)可以防止这种情况发生。事务管理一旦检测到写入异常,会执行回滚操作,即要么写入完整的数据,要么不写入。在Django中使用事务很简单: 1.新建项目Transaction,创建应用app01,编辑mo 阅读全文
posted @ 2017-10-19 09:16 Amos丶G 阅读(164) 评论(0) 推荐(0) 编辑
摘要: Django的生命周期 请求>>>wsgi接口>>>>Django的中间件>>>urls>>>视图函数(ORM,Template,渲染)>>>中间件>>>wsgi>>>用户 一、缓存 由于Django是动态网站,所以每次请求均会去取到数据进行相应的操作,当程序访问量大时,耗时必然会更加明显,最简单的 阅读全文
posted @ 2017-09-20 16:44 Amos丶G 阅读(253) 评论(0) 推荐(0) 编辑