Hello World

摘要: import xlrd path = 'F:\\file.xlsx' print(path) #1.打开文件 data = xlrd.open_workbook(path) print(data) #2.查询工作表 sheets = data.sheets() #可以通过 函数,索引,名称 获得工作列表 sheet_1_by_function = data.sheets()[0... 阅读全文
posted @ 2017-10-12 22:06 nayike 阅读(182) 评论(0) 推荐(0) 编辑
摘要: 一.autohome import requests from bs4 import BeautifulSoup response = requests.get('http://www.autohome.com.cn/news') response.encoding = 'gbk' soup = B 阅读全文
posted @ 2017-10-12 01:38 nayike 阅读(332) 评论(0) 推荐(0) 编辑
摘要: 一.通过headers反爬虫: Basic Auth 这是一种古老的、不安全的用户验证方式,一般会有用户授权的限制,会在headers的Autheration字段里要求加入用户名密码(明文),如果验证失败则请求就会失败,现在这种认证方式正在被淘汰。 Referer 链接的来源,通常在访问链接时,都要 阅读全文
posted @ 2017-10-11 19:21 nayike 阅读(265) 评论(0) 推荐(0) 编辑
摘要: 前言 大家有没有发现之前我们写的爬虫都有一个共性,就是只能爬取单纯的html代码,如果页面是JS渲染的该怎么办呢?如果我们单纯去分析一个个后台的请求,手动去摸索JS渲染的到的一些结果,那简直没天理了。所以,我们需要有一些好用的工具来帮助我们像浏览器一样渲染JS处理的页面。 其中有一个比较常用的工具, 阅读全文
posted @ 2017-10-11 00:16 nayike 阅读(224) 评论(0) 推荐(0) 编辑
摘要: 一 数据库事务 指作为单个逻辑工作单元执行的一系列操作,要么完全地执行,要么完全地不执行。 事务处理可以确保除非事务性单元内的所有操作都成功完成,否则不会永久更新面向数据的资源。 通过将一组相关操作组合为一个要么全部成功要么全部失败的单元,可以简化错误恢复并使应用程序更加可靠。一个逻辑工作单元要成为 阅读全文
posted @ 2017-10-11 00:15 nayike 阅读(118) 评论(0) 推荐(0) 编辑
摘要: Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 阅读全文
posted @ 2017-09-26 23:20 nayike 阅读(359) 评论(0) 推荐(0) 编辑
摘要: 一.安装 官网:http://selenium-python.readthedocs.io 二、安装浏览器驱动 a..谷歌 1.点击下载chrome的webdriver:http://chromedriver.storage.googleapis.com/index.html 注意:对于chrome 阅读全文
posted @ 2017-09-24 10:49 nayike 阅读(189) 评论(0) 推荐(0) 编辑
摘要: 1,.轮询:客户端连接服务端,定时发送请求,服务器接到请求后马上返回响应信息并关闭连接。 优点:后端程序编写比较容易。 缺点:请求中有大半是无用,浪费带宽和服务器资源。 实例:适于小型应用。 2.长轮询:客户端连接服务端, -无新数据到来,hold住,直到超时。客户端再次发送连接请求 -有新数据到来 阅读全文
posted @ 2017-09-21 21:45 nayike 阅读(1560) 评论(0) 推荐(0) 编辑
摘要: 一.requests 模块 Python标准库中提供了:urllib、urllib2、httplib等模块以供Http请求,但是,它的 API 太渣了。它是为另一个时代、另一个互联网所创建的。它需要巨量的工作,甚至包括各种方法覆盖,来完成最简单的任务。 Requests 是使用 Apache2 Li 阅读全文
posted @ 2017-09-19 00:00 nayike 阅读(228) 评论(0) 推荐(0) 编辑
摘要: 由于浏览器存在同源策略,同源策略指:浏览器 对不同源的脚本或文本的访问方式 进行的限制。比如源a的js不能读取或设置引入的源b的元素属性。 (阻止从一个源 加载文档 或脚本获取 或设置 另一个源 加载的文档的属性)。 定义同源:就是指两个页面具有相同的协议,主机(也常说域名),端口,三个要素缺一不可 阅读全文
posted @ 2017-09-18 01:18 nayike 阅读(123) 评论(0) 推荐(0) 编辑

Hello