上一页 1 ··· 3 4 5 6 7
摘要: (注:本文转载自阮一峰老师的博文,原文地址:http://www.ruanyifeng.com/blog/2013/03/tf-idf.html) 这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。 有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase ext 阅读全文
posted @ 2019-09-11 20:58 kkbill 阅读(4001) 评论(0) 推荐(1) 编辑
摘要: Simhash算法是Google应用在网页去重中的一个常用算法,在开始讲解Simhash之前,首先需要了解:什么是网页去重?为什么要进行网页去重?如何进行网页去重,其基本框架是什么? 网页去重,顾名思义,就是过滤掉重复的网页。统计结果表明,近似重复网页的数量占网页总数量的比例较高,即互联网上有很多的 阅读全文
posted @ 2019-09-11 16:54 kkbill 阅读(1361) 评论(2) 推荐(1) 编辑
摘要: 背景 首先,来谈谈B树。为什么要使用B树?我们需要明白以下两个事实: 【事实1】 不同容量的存储器,访问速度差异悬殊。以磁盘和内存为例,访问磁盘的时间大概是ms级的,访问内存的时间大概是ns级的。有个形象的比喻,若一次内存访问需要1秒,则一次外存访问需要1天。所以, 现在的存储系统,都是分级组织的。 阅读全文
posted @ 2019-08-20 11:08 kkbill 阅读(3202) 评论(1) 推荐(5) 编辑
摘要: 1. 索引基础 索引对查询的速度有着至关重要的影响,理解索引也是进行数据库性能调优的起点,索引就是为了提高数据查询的效率。索引可以包含一个或多个列的值,如果索引包含多个列的值,则列的顺序也十分重要,因为MySQL只能高效地使用索引的最左前缀列。 2. 索引类型 用于提高读写效率的数据结构有很多,这里 阅读全文
posted @ 2019-08-14 21:03 kkbill 阅读(13288) 评论(0) 推荐(8) 编辑
摘要: ##2018-07-16 周一## 今天下午在图书馆,申请了博客园,之前用CSDN,但是广告太多,被恶心到了。暂时还没有自己搭一个blog的打算,这个先用着吧,还蛮喜欢博客园这种简单的风格,最主要的是——它没有明显碍眼的广告。 近来拖延的有些严重,一直没有总结,今天早上写完代码,突然有些茫然。想用这 阅读全文
posted @ 2018-07-16 15:19 kkbill 阅读(959) 评论(2) 推荐(9) 编辑
上一页 1 ··· 3 4 5 6 7