摘要: document: 相当于数据块里的一条记录field: 相当于数据库里的一列term: 指某个field的词,英文单词一般会转词的原型tf:term在field内的词频率函数df:term在全文档集合内的频率函数idf:term在全文档集合内的逆向频率函数(一般取反再取log)position i... 阅读全文
posted @ 2014-11-06 00:42 白帆mvp 阅读(639) 评论(0) 推荐(0) 编辑
摘要: python 字典排序http://www.cnblogs.com/kaituorensheng/archive/2012/08/07/2627386.html引子字典,形如 dic = {'a':1 , 'b':2 , 'c': 3},字典中的元素没有顺序,所以dic[0]是有语法错误的。并且不可... 阅读全文
posted @ 2015-01-12 17:38 白帆mvp 阅读(249) 评论(0) 推荐(0) 编辑
摘要: valgrind运行错误问题描述valgrind运行时,无法找到相关工具文件,具体报错如下valgrind: failed to start tool 'memcheck' for platform 'amd64-linux': No such file or directory解决方法导出VALG... 阅读全文
posted @ 2014-12-29 13:31 白帆mvp 阅读(6547) 评论(0) 推荐(0) 编辑
摘要: 1 -g3 加入宏调试,也就是能在gdb里看宏扩展后的内容2 -pipe 程序间通讯时使用管线,而不是暂存盘。GNU 组译器支持此选项。 可以缩短一些编译时间,建议使用 阅读全文
posted @ 2014-12-18 09:29 白帆mvp 阅读(212) 评论(0) 推荐(0) 编辑
摘要: 原地址http://timyang.net/data/key-list-pagination/Thursday, Dec 4th, 2014 by Tim | Tags:mysql,nosql今天讨论了一个传统的问题,问题本身比较简单,就是针对key-list类型的数据,如何优化方案做到性能与成本的... 阅读全文
posted @ 2014-12-04 11:06 白帆mvp 阅读(310) 评论(0) 推荐(0) 编辑
摘要: Hadoop计算中的Shuffle过程作者:左坚 来源:清华万博时间:2013-07-02 15:04:44.0 Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce,Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理... 阅读全文
posted @ 2014-12-02 15:06 白帆mvp 阅读(266) 评论(0) 推荐(0) 编辑
摘要: 运行环境服务器两台(后面的所有配置案例都是以10.96.0.64和10.96.0.66为例)操作系统CentOS release 6.2必须要有共同的局域网网段两台服务器都要安装keepalived(双机热备)和eql服务软件部署keepalived 部分keepalived是一个用于做双机热备(H... 阅读全文
posted @ 2014-11-28 13:13 白帆mvp 阅读(537) 评论(0) 推荐(0) 编辑
摘要: 原文地址http://blog.sina.com.cn/s/blog_574a437f01019poo.html昨天实验室一位刚进组的同学发邮件来问我如何查找学术论文,这让我想起自己刚读研究生时茫然四顾的情形:看着学长们高谈阔论领域动态,却不知如何入门。经过研究生几年的耳濡目染,现在终于能自信地知道... 阅读全文
posted @ 2014-11-24 09:50 白帆mvp 阅读(519) 评论(0) 推荐(1) 编辑
摘要: 安装流程 http://www.elasticsearch.org/overview/elkdownloads/下载对应系统的安装包(我下载的是tar的),下载解压以后运行es根目录下bin目录的elasticsearch命令(无需配置直接启动),启动后如果能看到类似于下面情况的大量的“INFO”信... 阅读全文
posted @ 2014-11-17 12:47 白帆mvp 阅读(37561) 评论(0) 推荐(2) 编辑
摘要: public class HashAlgorithms { /** * 加法hash * @param key 字符串 * @param prime 一个质数 * @return hash结果 */ public static int additiveHash(String key, int pri... 阅读全文
posted @ 2014-11-14 10:07 白帆mvp 阅读(764) 评论(0) 推荐(0) 编辑
摘要: elasticsearch是一个基于lucene所编写的分布式的搜索引擎,能够达到实时搜索,稳定高效。我所了解的elasticsearch有下面这些特点1 配置简单,对于初学者来说几乎是下载后零配置启动,易用性很高,即下即用。2 协议通用,通过http协议以json格式交互数据,而且还可以以加载外部... 阅读全文
posted @ 2014-11-10 11:56 白帆mvp 阅读(591) 评论(0) 推荐(0) 编辑