摘要:http://www.admin5.com/article/20080616/89128.shtml 目前所有对用户行为的分析莫过于这种几种模式:用户注册信息,定制列表,操作记录,用户历史轨迹跟踪等。但是这些都只是用户行为分析中的冰山一角,在实际分析过程中,维度(www.vdoing.com)将诸多信息进行权重排序,提炼核心信息来构建一个3维的统计分析体系。 对于一个新站点来说,进行用户行为分析,最缺乏的是用户在站内的行为轨迹。因为没有一定量的数据,是很难通过正态分析,也没有办法进行聚类分析,无法确立群体特征的。如果一个新站希望能够在用户行为分析和挖掘上有一定的作为,在使用一般统计和分析... 阅读全文
lucene 搜索学习笔记 - OK
2011-11-09 17:44 by yuejianjun, 277 阅读, 0 推荐, 收藏, 编辑
摘要:索引文件类型:1 Segments文件。记录索引片断文件的情况。2.Deletable文件3.Fields域数据文件(.fnm)。Field的名字都存储在Field信息文件中,后缀是.fnm。 4.存储的Field(.fdx和.fdt)。 Index(.fdx) 对每个文档来说,存储指向它的fields数据(.fdt)的指针(pointer) Fields Data(.fdt)这个文件存储每个文档的field数据5.存储的term字典(.tii和.tis) Term字典使用如下两种文件存储,第一种是存储term信息(TermInfoFile)的文件,即.tis文件 另一种是存储term信息的索 阅读全文
中文自动摘要提取
2011-11-09 14:25 by yuejianjun, 526 阅读, 0 推荐, 收藏, 编辑
摘要:根据搜索关键字分词后的多个词属性 term<位置 长度 权重 >,提取一定长度范围内的短语,计算权重 多个词的权重和from:《走进搜索引擎》 阅读全文
常用的vs编码 快捷键
2011-11-09 13:42 by yuejianjun, 294 阅读, 0 推荐, 收藏, 编辑
摘要:1 转到定义: F12;2 设置书签:Ctr+K+K;3 设置任务: //TODO:something,查看任务Ctrl+W+T;4 查找:Ctrl+ F, Ctrl+Shift+F;5 强迫智能感知:Ctrl+J;6 强迫智能感知显示参数信息:Ctrl-Shift-空格;7 格式化整个块:Ctrl+K+F;8 全屏幕:Alt+Shift+Enter;9 设置书签:Ctrl+B+T,跳转书签:Ctrl+B+N10 检查括号匹配(在左右括号间切换): Ctrl +]11 选中从光标起到行首(尾)间的代码: Shift + Home(End)12 在方法定义和调用之点切换:Ctrl+Shift+7 阅读全文
Lucene中的堆(Heap)[ScorerDocQueue,TopScoreDocCollector] lucene 大数据量 快速 排序
2011-11-07 12:14 by yuejianjun, 722 阅读, 0 推荐, 收藏, 编辑
摘要:http://quweiprotoss.blog.163.com/blog/static/408828832011523114133876/ 一个经典的问题,也就是10^N个数,远超过内存的大小,如何排序。答案虽然我自己也想到了,但别人更早想到,经典做法,把文件拆成多份,然后多线程对文件分别进行排序,然后进行多路归并,多路归并时,经典做法就是用优先队列。这也是Lucene在And操作时选择的方法,在DisjunctionSumScorer中有ScorerDocQueue scorerDocQueue,它就是一个优先队列。ScorerDocQueue的成员有:/*保存堆中的元素*/privat. 阅读全文
T a s k 搜 索 ( L u c e n e )
2011-11-04 17:33 by yuejianjun, 192 阅读, 0 推荐, 收藏, 编辑
摘要:usingSystem;usingSystem.Collections.Generic;usingSystem.Linq;usingSystem.Text;usingSystem.Threading.Tasks;usingSystem.Threading;usingComm;usingEntity;namespaceService{publicclassSearchTask{publicstaticReturnItemTaskSearchModuleSecond(QueryItemEntityqueryItemEntity){string[]indexPath=Profile.IndexMod 阅读全文
l u c e n e 创 建 修 改 删 除 索 引
2011-11-03 15:56 by yuejianjun, 246 阅读, 0 推荐, 收藏, 编辑
摘要:usingSystem;usingSystem.Collections.Generic;usingSystem.Text;usingBusiness;usingLucene.Net.Index;usingLucene.Net.Documents;usingLucene.Net.Analysis;usingLucene.Net.Analysis.PanGu;usingLucene.Net.Search;usingLucene.Net.Store;namespaceIndex{classProgram{privatestaticstringpath=@"D:\Work\HotelInde 阅读全文
集中、分布式搜索引擎的4种设计方案
2011-10-15 01:37 by yuejianjun, 307 阅读, 0 推荐, 收藏, 编辑
摘要:集中、分布式搜索引擎的4种设计方案共1页 对于搜索引擎, 在索引量和搜索量大到一定程度的时候, 索引更新的效率会逐渐降低, 服务器的压力逐渐升高, 因此基本上整个搜索引擎的利用率可以说是越来越低了, 并且随着海量数据存储带来的困难, 设计一个良好的分布式搜索引擎将是一个搜索引擎能否面相未来发展的关键因素了. 那么分布式搜索引擎的最主要的核心问题是哪些呢? 1. 分布的信息获取和计算以及对此进行的数据统一 这里面包括爬虫/或者相应的数据获取机制的分布, 对信息进行加工的统一管理 2. 数据处理后的分布存储和管理 主要是文件的准确定位和更新,增加,删除,移动的机制 3. 前端搜索服务... 阅读全文
lucene fenlei
2011-10-14 18:24 by yuejianjun, 169 阅读, 0 推荐, 收藏, 编辑
摘要:privateStringIndex[]stringIndex_Group;privateboolisGroup=false;publicstring[]strType;publicint[][]GroupInt;publicstring[][]GroupString;public override void Collect(int doc): if(isGroup){for(inti=0;i<strType.Length;i++){GroupInt[i][stringIndex_Group[i].order[doc]]++;//GroupInt[stringIndex_Group.or 阅读全文
ThreadPool 使用
2011-10-11 10:56 by yuejianjun, 250 阅读, 0 推荐, 收藏, 编辑
摘要:http://www.cnblogs.com/czllfy/archive/2011/04/13/2014469.htmlusingSystem;usingSystem.Collections.Generic;usingSystem.Text;usingSystem.Threading;namespaceCS_Test{classThreadPool_Demo{//用于保存每个线程的计算结果staticint[]result=newint[10];//注意:由于WaitCallback委托的声明带有参数,//所以将被调用的Fun方法必须带有参数,即:Fun(objectobj)。staticv 阅读全文