摘要: 1. html是用来显示数据的;xml是用来描述数据、存放数据的,所以可以作为持久化的介质!Html将数据和显示结合在一起,在页面中把这数据显示出来;xml 则将数据和显示分开。 XML被设计用来描述数据,其焦点是数据的内容。HTML被设计用来显示数据,其焦点是数据的外观。 2. xml不是HTML 阅读全文
posted @ 2018-01-30 17:04 拓睿峰 阅读(482) 评论(0) 推荐(0) 编辑
摘要: w,r,wt,rt都是python里面文件操作的模式。w是写模式,r是读模式。t是windows平台特有的所谓text mode(文本模式),区别在于会自动识别windows平台的换行符。类Unix平台的换行符是\n,而windows平台用的是\r\n两个ASCII字符来表示换行,python内部采 阅读全文
posted @ 2018-01-30 14:46 拓睿峰 阅读(722) 评论(0) 推荐(0) 编辑
摘要: 从机器学习谈起 在本篇文章中,我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。这篇文档也算是EasyPR开发的番外篇,从这里开始,必须对机器学习了解才能进一步介绍EasyPR的内核。当然,本文也面对一般读者,不会对阅读有相关的前提要求。 阅读全文
posted @ 2018-01-30 12:15 拓睿峰 阅读(351) 评论(0) 推荐(0) 编辑
摘要: 今天写一个Python脚本去读取一个txt文件时,发现一个很有趣的现象: 如果这个文件是用atom编辑器写的,发现换行符是'\r'。这样一来去逐行读取数据就失效了,因为用open函数 去打开该文件readline()时默认使用的换行符是'\n'。 但是,当这个txt文件是用pycharm编辑器写的话 阅读全文
posted @ 2018-01-25 23:42 拓睿峰 阅读(103177) 评论(2) 推荐(1) 编辑
摘要: 爬取方法 性能 使用难度 安装难度 正则表达式 快 困难 简单(内置) BeautifulSoup 慢 简单 简单 Lxml 快 简单 相对困难 阅读全文
posted @ 2018-01-25 15:12 拓睿峰 阅读(419) 评论(0) 推荐(0) 编辑
摘要: findall()函数匹配所有符合规律的内容,并以列表的形式返回结果。 第一个参数,正则表达式 第二个参数,搜索的a 第三个参数,匹配的模式,其中re.S使匹配包括换行在内的所有字符。findall()函数是逐行匹配的。 阅读全文
posted @ 2018-01-23 15:56 拓睿峰 阅读(5476) 评论(0) 推荐(0) 编辑
摘要: open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=T) 模式 r 打开一个文件用于读写。如果该文件已存在,文件指针将会放在文件的结尾。文件打开时会是追加模式。如果该文件不存在,创建 阅读全文
posted @ 2018-01-23 15:13 拓睿峰 阅读(431) 评论(0) 推荐(0) 编辑
摘要: 列表中会经常用到多重循环。 python3 中 zip函数接受任意多个可迭代对象作为参数,将对象中对应的元素打包成一个元组,然后返回一个可迭代的zip对象. 这个可迭代对象可以使用循环的方式列出其元素 若多个可迭代对象的长度不一致,则所返回的列表与长度最短的可迭代对象相同. 阅读全文
posted @ 2018-01-21 14:12 拓睿峰 阅读(5749) 评论(0) 推荐(0) 编辑
摘要: urls = ['http://bj.xiaozhu.com/search-duanzufang-p{}-0/'.format(number) for number in range(1,14)] #构造出13页URL的列表数据for url in urls: print(url) 阅读全文
posted @ 2018-01-21 10:48 拓睿峰 阅读(742) 评论(0) 推荐(0) 编辑