上一页 1 ··· 10 11 12 13 14
摘要: 前言: 爬虫是偏IO型的任务,分布式爬虫的实现难度比分布式计算和分布式存储简单得多。 个人以为分布式爬虫需要考虑的点主要有以下几个: 爬虫任务的统一调度 爬虫任务的统一去重 存储问题 速度问题 足够“健壮”的情况下实现起来越简单/方便越好 最好支持“断点续爬”功能 Python分布式爬虫比较常用的应 阅读全文
posted @ 2018-09-06 15:05 Shadow_Y 阅读(1562) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2018-09-06 14:58 Shadow_Y 阅读(1) 评论(0) 推荐(0) 编辑
摘要: 满二叉树 除最后一层无任何子节点外,每一层上的所有结点都有两个子结点二叉树。 完全二叉树 一棵二叉树至多只有最下面的一层上的结点的度数可以小于2,并且最下层上的结点都集中在该层最左边的若干位置上,则此二叉树成为完全二叉树。 平衡二叉树 它是一 棵空树或它的左右两个子树的高度差的绝对值不超过1,并且左 阅读全文
posted @ 2018-09-06 14:56 Shadow_Y 阅读(490) 评论(0) 推荐(0) 编辑
摘要: 时间复杂度 算法的时间复杂度是一个函数,它定量描述了该算法的运行时间,时间复杂度常用“O”表述,使用这种方式时,时间复杂度可被称为是渐近的,它考察当输入值大小趋近无穷时的情况 时间复杂度是用来估计算法运行时间的一个式子(单位),一般来说,时间复杂度高的算法比复杂度低的算法慢 1 2 3 4 5 6 阅读全文
posted @ 2018-09-06 14:50 Shadow_Y 阅读(4309) 评论(0) 推荐(0) 编辑
摘要: 1. 引言 Pandas是一个开源的Python数据分析库。Pandas把结构化数据分为了三类: Series,1维序列,可视作为没有column名的、只有一个column的DataFrame; DataFrame,同Spark SQL中的DataFrame一样,其概念来自于R语言,为多column 阅读全文
posted @ 2018-09-06 14:43 Shadow_Y 阅读(3478) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2018-09-06 14:38 Shadow_Y 阅读(1) 评论(0) 推荐(0) 编辑
上一页 1 ··· 10 11 12 13 14