拓睿峰

2018年1月30日

摘要： 1. html是用来显示数据的；xml是用来描述数据、存放数据的，所以可以作为持久化的介质！Html将数据和显示结合在一起，在页面中把这数据显示出来；xml 则将数据和显示分开。 XML被设计用来描述数据，其焦点是数据的内容。HTML被设计用来显示数据，其焦点是数据的外观。 2. xml不是HTML 阅读全文

posted @ 2018-01-30 17:04 拓睿峰阅读(502) 评论(0) 推荐(0)

python 读写文件中 w与wt ; r与rt 的区别

摘要： w,r,wt,rt都是python里面文件操作的模式。w是写模式，r是读模式。t是windows平台特有的所谓text mode(文本模式）,区别在于会自动识别windows平台的换行符。类Unix平台的换行符是\n，而windows平台用的是\r\n两个ASCII字符来表示换行，python内部采阅读全文

posted @ 2018-01-30 14:46 拓睿峰阅读(787) 评论(0) 推荐(0)

计算机的潜意识

摘要：从机器学习谈起在本篇文章中，我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习，并且上手相关的实践。这篇文档也算是EasyPR开发的番外篇，从这里开始，必须对机器学习了解才能进一步介绍EasyPR的内核。当然，本文也面对一般读者，不会对阅读有相关的前提要求。阅读全文

posted @ 2018-01-30 12:15 拓睿峰阅读(369) 评论(0) 推荐(0)

2018年1月25日

Python换行符问题：\r\n还是\n？

摘要：今天写一个Python脚本去读取一个txt文件时，发现一个很有趣的现象：如果这个文件是用atom编辑器写的，发现换行符是'\r'。这样一来去逐行读取数据就失效了，因为用open函数去打开该文件readline()时默认使用的换行符是'\n'。但是，当这个txt文件是用pycharm编辑器写的话阅读全文

posted @ 2018-01-25 23:42 拓睿峰阅读(103316) 评论(2) 推荐(1)

正则表达式、BeautifulSoup、Lxml进行性能对比

摘要：爬取方法性能使用难度安装难度正则表达式快困难简单（内置） BeautifulSoup 慢简单简单 Lxml 快简单相对困难阅读全文

posted @ 2018-01-25 15:12 拓睿峰阅读(454) 评论(0) 推荐(0)

2018年1月23日

网络爬虫re模块的findall()函数

摘要： findall()函数匹配所有符合规律的内容，并以列表的形式返回结果。第一个参数，正则表达式第二个参数，搜索的a 第三个参数，匹配的模式，其中re.S使匹配包括换行在内的所有字符。findall()函数是逐行匹配的。阅读全文

posted @ 2018-01-23 15:56 拓睿峰阅读(5497) 评论(0) 推荐(0)

Python open() 函数

摘要： open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=T）模式 r 打开一个文件用于读写。如果该文件已存在，文件指针将会放在文件的结尾。文件打开时会是追加模式。如果该文件不存在，创建阅读全文

posted @ 2018-01-23 15:13 拓睿峰阅读(455) 评论(0) 推荐(0)

2018年1月21日

python中的多重循环

摘要：列表中会经常用到多重循环。 python3 中 zip函数接受任意多个可迭代对象作为参数,将对象中对应的元素打包成一个元组,然后返回一个可迭代的zip对象. 这个可迭代对象可以使用循环的方式列出其元素若多个可迭代对象的长度不一致,则所返回的列表与长度最短的可迭代对象相同. 阅读全文

posted @ 2018-01-21 14:12 拓睿峰阅读(5795) 评论(0) 推荐(0)

网络爬虫构造出URL的列表数据

摘要： urls = ['http://bj.xiaozhu.com/search-duanzufang-p{}-0/'.format(number) for number in range(1,14)] #构造出13页URL的列表数据for url in urls: print(url) 阅读全文

posted @ 2018-01-21 10:48 拓睿峰阅读(757) 评论(0) 推荐(0)

公告