摘要: JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景,比如网站前台与后台之间的数据交互。 官方文档:http://docs.python.org/library/jso 阅读全文
posted @ 2018-08-11 20:26 Nice1949 阅读(231) 评论(0) 推荐(0) 编辑
摘要: CSS 选择器:BeautifulSoup4 Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。 pip 安装:pip install beautifulsoup4 官方文档:http://beautifulsoup.readthe 阅读全文
posted @ 2018-08-11 19:37 Nice1949 阅读(301) 评论(0) 推荐(0) 编辑
摘要: 什么是XML XML 指可扩展标记语言(EXtensible Markup Language) XML 是一种标记语言,很类似 HTML XML 的设计宗旨是传输数据,而非显示数据 XML 的标签需要我们自行定义。 XML 被设计为具有自我描述性。 XML 指可扩展标记语言(EXtensible M 阅读全文
posted @ 2018-08-09 01:15 Nice1949 阅读(199) 评论(0) 推荐(0) 编辑
摘要: # -*- coding: utf-8 -*- def loadPage() """ 请求Queryparser页面结果 """ url = "" key = urllib.urlopen(question) # 构造url url = url + key + "" headers = {} request = ur... 阅读全文
posted @ 2018-08-01 01:22 Nice1949 阅读(176) 评论(0) 推荐(0) 编辑
摘要: 非结构化数据:HTML(正则表达式、XPath、CSS选择器) 结构化数据:JSON文件(JSON Path、转化为Python类型进行操作) XML文件(转化成Python类型、XPath、CSS选择器) 1、正则表达式 它是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字 阅读全文
posted @ 2018-07-29 13:01 Nice1949 阅读(230) 评论(0) 推荐(0) 编辑
摘要: 1、安装 利用 pip 安装 或者利用 easy_install 都可以完成安装: pip install requests easy_install requests 2、基本GET请求(headers参数 和 parmas参数) 2.1、 最基本的GET请求可以直接用get方法 方法1:resp 阅读全文
posted @ 2018-07-29 02:57 Nice1949 阅读(185) 评论(0) 推荐(0) 编辑
摘要: 1、简单的自定义opener() 在 HTTPHandler()增加 debuglevel=1参数,还会将 Debug Log 打开,这样程序在执行的时候,会把收包和发包的报头在屏幕上自动打印出来,方便调试,有时可以省去抓包的工作。 2、ProxyHandler处理器(代理设置) urllib2中通 阅读全文
posted @ 2018-07-29 02:42 Nice1949 阅读(257) 评论(0) 推荐(0) 编辑
摘要: 1、urlopen 2、request 3、user_agent(用户代理) 4、更多Header信息 在 HTTP Request 中加入特定的 Header,来构造一个完整的HTTP请求消息。 5、urllib和urllib2 urllib 仅可以接受URL,不能创建 设置了headers 的R 阅读全文
posted @ 2018-07-28 19:47 Nice1949 阅读(250) 评论(0) 推荐(0) 编辑
摘要: 一、HTTP、HTTPS介绍 HTTP协议(超文本传输协议):一种发布、接收HTML页面的方法 HTTPS协议:简单讲是HTTP安全版,在HTTP下加入SSL层 SSL(安全套接层),用于WEB的安全传输协议,在传输层对网络连接进行加密,保障在Internet上数据传输的安全 端口: HTTP端口号 阅读全文
posted @ 2018-07-28 18:11 Nice1949 阅读(287) 评论(0) 推荐(0) 编辑
摘要: 模块分为三种: 自定义模块 第三方模块 内置模块 1.模块导入 通常模块导入基准路径为:sys.path,但若sys.path路径列表无需要的路径,可以通过 sys.path.append('路径') 添加 2.常用模块介绍 (1)、sys模块 用于提供对Python解释器相关的操作: (2)、os 阅读全文
posted @ 2018-07-11 01:29 Nice1949 阅读(223) 评论(0) 推荐(0) 编辑