摘要: 1、搜索引擎原理——从索引、搜索、facet底层原理看搜索引擎的本质2、开源搜索引擎分析——lucene(ES、Solr)、sphinx、wukong、bleve、poseidon、indextank-engine3、商业搜索引擎Splunk介绍——性能,架构,底层窥探4、提升CIS智能检索性能的方 阅读全文
posted @ 2017-01-26 17:58 bonelee 阅读(516) 评论(0) 推荐(0) 编辑
摘要: 转自: http://www.infoq.com/cn/articles/hadoop-ten-years-part03 转自: http://www.infoq.com/cn/articles/hadoop-ten-years-part03 编者按:Hadoop于2006年1月28日诞生,至今已有 阅读全文
posted @ 2017-01-26 17:54 bonelee 阅读(427) 评论(0) 推荐(0) 编辑
摘要: 摘自:http://www.36dsj.com/archives/75208 最近参与了了一个日志和告警的数据挖掘项目,里面用到的一些思路在这里和大家做一个分享。 项目的需求是收集的客户系统一个月300G左右的的日志和告警数据做一个整理,主要是归类(Grouping)和关联(Correlation) 阅读全文
posted @ 2017-01-26 17:09 bonelee 阅读(7663) 评论(0) 推荐(0) 编辑
摘要: 大数据分析处理架构图 数据源: 除该种方法之外,还可以分为离线数据、近似实时数据和实时数据。按照图中的分类其实就是说明了数据存储的结构,而特别要说的是流数据,它的核心就是数据的连续性和快速分析性; 计算层: 内存计算中的Spark是UC Berkeley的最新作品,思路是利用集群中的所有内存将要处理 阅读全文
posted @ 2017-01-26 16:37 bonelee 阅读(6624) 评论(0) 推荐(0) 编辑
摘要: http://stackoverflow.com/questions/185697/the-most-efficient-way-to-find-top-k-frequent-words-in-a-big-word-sequence http://www.geeksforgeeks.org/find 阅读全文
posted @ 2017-01-26 10:06 bonelee 阅读(1233) 评论(0) 推荐(0) 编辑