上一页 1 ··· 237 238 239 240 241 242 243 244 245 ··· 270 下一页
摘要: 摘 要 在搜索引擎的检索结果页面中,用户经常会得到内容相似的重复页面,它们中大多是由于网站之间转载造成的。为提高检索效率和用户满意度,提出一种基于特征向量的大规模中文近似网页检测算法DDW(Detect near-Duplicate WebPages )。试验证明,比起其他网页去重算法(I-Matc 阅读全文
posted @ 2017-02-20 17:22 bonelee 阅读(1452) 评论(0) 推荐(0) 编辑
摘要: UDP Communication Contents UDP Communication Sending Receiving Using UDP for e.g. File Transfers Multicasting? Contents See also SoapOverUdp, TcpCommu 阅读全文
posted @ 2017-02-20 16:39 bonelee 阅读(380) 评论(0) 推荐(0) 编辑
摘要: 什么是 Glances? Glances 是一个由 Python 编写,使用 psutil 库来从系统抓取信息的基于 curses 开发的跨平台命令行系统监视工具。 通过 Glances,我们可以监视 CPU,平均负载,内存,网络流量,磁盘 I/O,其他处理器 和 文件系统 空间的利用情况。 Gla 阅读全文
posted @ 2017-02-20 15:00 bonelee 阅读(2577) 评论(0) 推荐(0) 编辑
摘要: Learn how you can maximize big data in the cloud with Apache Hadoop. Download this eBook now. Brought to you in partnership with Hortonworks. In Febru 阅读全文
posted @ 2017-02-20 11:47 bonelee 阅读(892) 评论(0) 推荐(0) 编辑
摘要: shingling算法用于计算两个文档的相似度,例如,用于网页去重。维基百科对w-shingling的定义如下: In natural language processing a w-shingling is a set of unique "shingles"—contiguous subsequ 阅读全文
posted @ 2017-02-17 18:43 bonelee 阅读(5387) 评论(0) 推荐(0) 编辑
摘要: 转自:https://libhappy.com/2016/03/algs-1.3/ 假设在互联网中有两台计算机需要互相通信,那么该怎么确定它们之间是否已经连接起来还是需要架设新的线路连接这两台计算机。这就是动态连通性问题。 动态连通性问题在日常生活中十分常见,比如上文所说的通信网络中的连通性问题,比 阅读全文
posted @ 2017-02-17 15:42 bonelee 阅读(588) 评论(0) 推荐(0) 编辑
摘要: 基本思想: cuckoo hash是一种解决hash冲突的方法,其目的是使用简单的hash 函数来提高hash table的利用率,同时保证O(1)的查询时间 基本思想是使用2个hash函数来处理碰撞,从而每个key都对应到2个位置。 插入操作如下: 1. 对key值hash,生成两个hash ke 阅读全文
posted @ 2017-02-17 14:32 bonelee 阅读(9601) 评论(0) 推荐(0) 编辑
摘要: Merkle 树 图 1.5.6.1 - Merkle 树示例 默克尔树(又叫哈希树)是一种二叉树,由一个根节点、一组中间节点和一组叶节点组成。最下面的叶节点包含存储数据或其哈希值,每个中间节点是它的两个孩子节点内容的哈希值,根节点也是由它的两个子节点内容的哈希值组成。 进一步的,默克尔树可以推广到 阅读全文
posted @ 2017-02-17 12:12 bonelee 阅读(2501) 评论(0) 推荐(0) 编辑
摘要: Skip List的提出已有二十多年[Pugh, W. (1990)],却依旧应用广泛(Redis、LevelDB等)。作为平衡树(AVL、红黑树、伸展树、树堆)的替代方案,虽然它性能不如平衡树稳定,但是在实现难度上却很有优势。它的查询、插入、删除等主要操作时间复杂度也都是Θ(lgn),空间复杂度是 阅读全文
posted @ 2017-02-17 11:41 bonelee 阅读(1095) 评论(0) 推荐(0) 编辑
摘要: The Sorted String Table (SSTable) is one of the most popular outputs for storing, processing, and exchanging datasets. An SSTable is a simple abstract 阅读全文
posted @ 2017-02-17 10:42 bonelee 阅读(530) 评论(0) 推荐(0) 编辑
上一页 1 ··· 237 238 239 240 241 242 243 244 245 ··· 270 下一页