摘要: 2017-07-26 23:53:03 信息标记的作用有: 标记后的信息可形成信息组织结构,增加了信息维度 标记的结构与信息一样具有重要价值 标记后的信息可用于通信、存储或展示 标记后的信息更利于程序理解和运用 信息标记的三种形式: XML JSON YAML 一、XML xml 的表达格式: 实例 阅读全文
posted @ 2017-07-27 00:15 hyserendipity 阅读(223) 评论(0) 推荐(0) 编辑
摘要: 2017-07-26 10:10:11 Beautiful Soup可以解析html 和 xml 格式的文件。 Beautiful Soup库是解析、遍历、维护“标签树”的功能库。使用BeautifulSoup库非常简单,只需要两行代码,就可以完成BeautifulSoup类的创建,这里命名为sou 阅读全文
posted @ 2017-07-26 23:48 hyserendipity 阅读(357) 评论(0) 推荐(0) 编辑
摘要: 2017-07-25 22:49:21 阅读全文
posted @ 2017-07-25 22:50 hyserendipity 阅读(336) 评论(0) 推荐(0) 编辑
摘要: 2017-07-25 21:08:16 一、网络爬虫的规模 二、网络爬虫的限制 • 来源审查:判断User‐Agent进行限制 检查来访HTTP协议头的User‐Agent域,只响应浏览器或友好爬虫的访问• 发布公告:Robots协议 告知所有爬虫网站的爬取策略,要求爬虫遵守 三、Robots 协议 阅读全文
posted @ 2017-07-25 21:25 hyserendipity 阅读(491) 评论(0) 推荐(0) 编辑
摘要: 2017-07-25 10:38:30 response = requests.get(url, params=None, **kwargs) url : 拟获取页面的url链接∙ params : url中的额外参数,字典或字节流格式,可选 params参数是字典或字节序列,作为参数增加到url中 阅读全文
posted @ 2017-07-25 17:06 hyserendipity 阅读(272) 评论(0) 推荐(0) 编辑
摘要: 2017-07-24 22:58:16 xml 和 json 都是数据交互的格式。 想象一下,python中的字典数据要传给java使用,但是众所周知的是java中只有hashmap数据结构,并没有字典,所以在传输时需要对python中的数据进行序列化操作,就是讲字典数据转成xml或者json格式, 阅读全文
posted @ 2017-07-24 23:27 hyserendipity 阅读(290) 评论(0) 推荐(0) 编辑
摘要: 2017-07-24 22:39:14 Python3 中的beautifulsoup引入的包是bs4 阅读全文
posted @ 2017-07-24 22:40 hyserendipity 阅读(245) 评论(0) 推荐(0) 编辑
摘要: 2017-07-24 20:43:49 Socket又称"套接字",应用程序通常通过"套接字"向网络发出请求或者应答网络请求。Http协议主要的操作流程是request-response即请求响应。我们可以利用python中的socket库完成连接的建立,然后使用GET方法获取服务器端的数据。 一、 阅读全文
posted @ 2017-07-24 21:18 hyserendipity 阅读(309) 评论(0) 推荐(0) 编辑
摘要: 2017-07-21 15:22:05 Matplotlib库是一个优秀的python的数据可视化的第三方类库,其中的pyplot支持了类似matlab的图像输出操作。matplotlib.pyplot是绘制各类可视化图形的命令子库,相当于快捷方式。 一、matplotlib.pyplot子库 x 阅读全文
posted @ 2017-07-24 15:13 hyserendipity 阅读(325) 评论(0) 推荐(0) 编辑
摘要: 2017-07-24 13:16:17 正则表达式是用来更简洁的匹配查找字符串的一种语言。使用正则表达式可以更方便的处理字符串。在Python中使用re库可以进行字符串的正则匹配。正则表达式本身其实就是一个字符串,不过这个字符串里有一些语法,通过这些语法的约束,可以像解迷一样将字符串中自己需要的部分 阅读全文
posted @ 2017-07-24 14:47 hyserendipity 阅读(169) 评论(0) 推荐(0) 编辑