摘要: 2017-07-27 13:52:08 一、正则表达式的概念 (1)正则表达式是用来简洁表达一组字符串的表达式,最主要应用在字符串匹配中。 正则表达式是用来简洁表达一组字符串的表达式 正则表达式是一种通用的字符串表达框架 正则表达式是一种针对字符串表达“简洁”和“特征”思想的工具 正则表达式可以用来 阅读全文
posted @ 2017-07-29 11:31 hyserendipity 阅读(255) 评论(0) 推荐(0) 编辑
摘要: 2017-07-26 23:53:03 信息标记的作用有: 标记后的信息可形成信息组织结构,增加了信息维度 标记的结构与信息一样具有重要价值 标记后的信息可用于通信、存储或展示 标记后的信息更利于程序理解和运用 信息标记的三种形式: XML JSON YAML 一、XML xml 的表达格式: 实例 阅读全文
posted @ 2017-07-27 00:15 hyserendipity 阅读(229) 评论(0) 推荐(0) 编辑
摘要: 2017-07-26 10:10:11 Beautiful Soup可以解析html 和 xml 格式的文件。 Beautiful Soup库是解析、遍历、维护“标签树”的功能库。使用BeautifulSoup库非常简单,只需要两行代码,就可以完成BeautifulSoup类的创建,这里命名为sou 阅读全文
posted @ 2017-07-26 23:48 hyserendipity 阅读(357) 评论(0) 推荐(0) 编辑
摘要: 2017-07-25 22:49:21 阅读全文
posted @ 2017-07-25 22:50 hyserendipity 阅读(340) 评论(0) 推荐(0) 编辑
摘要: 2017-07-25 21:08:16 一、网络爬虫的规模 二、网络爬虫的限制 • 来源审查:判断User‐Agent进行限制 检查来访HTTP协议头的User‐Agent域,只响应浏览器或友好爬虫的访问• 发布公告:Robots协议 告知所有爬虫网站的爬取策略,要求爬虫遵守 三、Robots 协议 阅读全文
posted @ 2017-07-25 21:25 hyserendipity 阅读(502) 评论(0) 推荐(0) 编辑
摘要: 2017-07-25 10:38:30 response = requests.get(url, params=None, **kwargs) url : 拟获取页面的url链接∙ params : url中的额外参数,字典或字节流格式,可选 params参数是字典或字节序列,作为参数增加到url中 阅读全文
posted @ 2017-07-25 17:06 hyserendipity 阅读(274) 评论(0) 推荐(0) 编辑
摘要: 2017-07-24 22:58:16 xml 和 json 都是数据交互的格式。 想象一下,python中的字典数据要传给java使用,但是众所周知的是java中只有hashmap数据结构,并没有字典,所以在传输时需要对python中的数据进行序列化操作,就是讲字典数据转成xml或者json格式, 阅读全文
posted @ 2017-07-24 23:27 hyserendipity 阅读(293) 评论(0) 推荐(0) 编辑
摘要: 2017-07-24 22:39:14 Python3 中的beautifulsoup引入的包是bs4 阅读全文
posted @ 2017-07-24 22:40 hyserendipity 阅读(249) 评论(0) 推荐(0) 编辑
摘要: 2017-07-24 20:43:49 Socket又称"套接字",应用程序通常通过"套接字"向网络发出请求或者应答网络请求。Http协议主要的操作流程是request-response即请求响应。我们可以利用python中的socket库完成连接的建立,然后使用GET方法获取服务器端的数据。 一、 阅读全文
posted @ 2017-07-24 21:18 hyserendipity 阅读(312) 评论(0) 推荐(0) 编辑
摘要: 2017-07-21 15:22:05 Matplotlib库是一个优秀的python的数据可视化的第三方类库,其中的pyplot支持了类似matlab的图像输出操作。matplotlib.pyplot是绘制各类可视化图形的命令子库,相当于快捷方式。 一、matplotlib.pyplot子库 x 阅读全文
posted @ 2017-07-24 15:13 hyserendipity 阅读(327) 评论(0) 推荐(0) 编辑