摘要: 爬虫去重策略:将访问过的url保存到数据库中。最简单的方式。即使数据库有缓存,但每次都从数据库中查询url,效率低下。将访问过的url保存到set中,只需要o(1)的代价就可以查询url占用内存过高对小型爬虫,假设存储100000000条url数据,每条数据... 阅读全文
posted @ 2019-01-29 22:44 onefine 阅读(304) 评论(0) 推荐(0) 编辑
摘要: 二叉树深度优先(DFS)和广度优先(BFS)深度优先遍历:对每一个可能的分支路径深入到不能再深入为止,而且每个结点只能访问一次。二叉树的深度优先遍历的非递归的通用做法是采用栈,要特别注意的是,二叉树的深度优先遍历比较特殊,可以细分为先序遍历、中序遍历、后序遍... 阅读全文
posted @ 2019-01-29 22:40 onefine 阅读(962) 评论(0) 推荐(0) 编辑
摘要: 字符串编码1、编码历史计算机只能处理数字0和1,文本转换为数字才能处理。计算机中8个位(bit)作为一个字节(byte),所以一个字节能表示最大的十进制数字就是255。计算机是美国人发明的,一个字节就可以表示所有字符了,所以ASCII(一个字节)编码就成为美... 阅读全文
posted @ 2019-01-29 22:18 onefine 阅读(376) 评论(0) 推荐(0) 编辑
摘要: 正则表达式的基本概念 正则表达式为高级的文本模式匹配、抽取或文本形式的搜索和替换功能提供了基础。 简单地说,正则表达式(Regular Expression,简称为 regex)是一些由字符和特殊符号组成的字符串,它们描述了模式的重复或者表述多个字符,于... 阅读全文
posted @ 2019-01-29 20:27 onefine 阅读(564) 评论(0) 推荐(0) 编辑
摘要: 环境:[root@localhost python3]# cat /etc/redhat-releaseCentOS Linux release 7.5.1804 (Core) [root@localhost python3]# 1、下载Python方式一:... 阅读全文
posted @ 2019-01-29 20:04 onefine 阅读(2039) 评论(2) 推荐(0) 编辑