摘要: Iveely.Computing是参考Storm的分布式实时计算系统的部分原理,用纯Java实现的轻量级、迷你型,适合于搜索引擎的实时计算系统,Iveely 搜索引擎是一款基于Iveely.Computing的搜索引擎,因此部署Iveely.Computing是使用Iveely搜索的关键,通过验... 阅读全文
posted @ 2015-05-12 08:29 Iveely Liu 阅读(777) 评论(4) 推荐(0) 编辑
摘要: 在开源搜索引擎Iveely的0.8.0中,我们有提到Iveely Computing实时计算平台,因为Iveely搜索引擎也是基于这个平台做的开发,因此,我们可以利用这个平台,轻松构建分布式实时应用程序。在开始构建程序之前,请按照这里部署Iveely Computing,确定部署无误之后,我们可... 阅读全文
posted @ 2015-05-12 08:29 Iveely Liu 阅读(2353) 评论(0) 推荐(0) 编辑
摘要: Iveely 数据存储引擎是为Iveely 搜索引擎提供数据存储的机制。 适用于:频繁数据插入、数据读取。数据更改或者删除数据不适合Iveely Database,存储结构是按照搜索引擎数据存储要求(频繁读、频繁写、几乎无删)设计,因此不是所有的数据存储都可以用Iveely Database。... 阅读全文
posted @ 2015-05-12 08:27 Iveely Liu 阅读(1142) 评论(0) 推荐(0) 编辑
摘要: 2012年08月05日,Iveely Search Engine 0.1.0发布,今天,怀着对于未来的追求,终于,0.7.0如期和大家见面了,7个版本,历时2年4个月,感谢大家的支持,感谢我不离不弃的战友魏琪,奋斗到深夜,放弃了周末的社交,就为0.7.0如期而至;感谢Bogdan P Sliw... 阅读全文
posted @ 2014-12-10 09:08 Iveely Liu 阅读(4804) 评论(31) 推荐(34) 编辑
摘要: 快两年了,Iveely Search Engine已经走过了5个版本的岁月,虽出生“贫寒”,没有任何开源基金会的支持,没有优秀的“干爹、干妈”,它凭着它的爱好者的支持,0.6.0终于破壳而出,7年前,我开始研究搜索引擎,开始构思我的想法,今天的0.6.0是目前最接近我最初想法的一个版本。简单的... 阅读全文
posted @ 2014-06-17 08:44 Iveely Liu 阅读(5098) 评论(55) 推荐(51) 编辑
摘要: Iveely Computing产生背景 08年的时候,我开始接触搜索引擎,当时遇到的第一个难题就是大数据实时并发处理,当时实验室的机器我们可以随便用,至少二三十台机器,可以,却没有程序可以将这些机器的计算性能整合起来,后来听说了Hadoop,但是当时的hadoop还很脆弱(记得没错是0.2.0),源码量也很少,用了很久,发现它不适合我们的搜索引擎。 后来没办法,我在程序中将爬虫和数据处理写成分布式网络通信的。但是导致代码非常臃肿,而且每一个应用程序的运行,都需要写一套网络通信和任务分布。09年下半年,中某地区断网半年,只能访问该地区本地的网络,然后想到我们搜索引擎的商业运营的机会来了,当.. 阅读全文
posted @ 2014-01-06 09:23 Iveely Liu 阅读(4781) 评论(16) 推荐(28) 编辑
摘要: 不是故意迫害新浪微博,也不是对新浪微博不满,在这里指手画脚。我是一个过路人,秉承技术学习的态度,来和大家分析新浪微博搜索分词的不足。 迭词是非常重要的测试元素,我们以“阿里巴 巴”作为测试词汇,去评测效果: 效果是惊人的不令人满意。那么真实的测试“阿里巴巴”效果应该是这样子的: 可见“阿里巴 巴”和“阿里巴巴”这两个看似相同的词,但是在新浪微博的搜索中,差异竟然这么明显。其原因据我推测是:没有做全局分词。例如,“阿里巴 巴”至少应该分为三个词组,但是通过观察,它只用了专业名词词库。阿里巴巴应该切分的5个词组“阿里”,“巴”,“巴”,“巴巴”“阿里巴巴”。如果没有这样做,将会直接... 阅读全文
posted @ 2013-10-27 17:07 Iveely Liu 阅读(1865) 评论(5) 推荐(2) 编辑
摘要: 最近我们Team利用Dream分布式计算平台,做了这样一件事情,将Github的大量数据通过爬虫抓取下来,通过分析后,我们抽取最近一年中部分的开发者和项目信息,得到了如下有趣的信息,故分享之,数据原汁原味,无人工干涉。(感谢Iveely Team 所有成员的付出) 第一份数据:全球IT人才分布 图1 全球IT人才分布图 其中颜色越深,表示聚集的IT人才越多。其实从这一份数据来看,我们都能理解美国、中国、印度、俄罗斯是软件大国,但是我们也发现,南非和巴西表现也 不错。 第二份数据:全球软件城市排行榜 这些城市按照名次依次是:San Francisco、London、Ber... 阅读全文
posted @ 2013-08-21 17:25 Iveely Liu 阅读(3708) 评论(16) 推荐(11) 编辑
摘要: 经过无数个夜晚的奋战,以及无数个夜晚的失眠,Iveely Search Engine 0.4.0 终于熬出来了,这其中的心酸只有自己知道!虽然Iveely Search Engine 在开发阶段已经经历了第四个版本,但是其中的不足依然数不胜数,功能也不尽完善,但是也希望大家能够理解,一是毕竟还在1.0版本之内,二是人手有限,如果你想为此做出点点努力,可以发送邮件或者微博私信。 介 绍: 好了,言归正传,开始介绍下Iveely Search Engine 0.4.0,本次版本主题是事件抽取。我们会从事件抽取慢慢过渡到知识提取。希望大家不要为没有达到知识提取而感到遗憾。 首先截图: ... 阅读全文
posted @ 2013-03-04 09:15 Iveely Liu 阅读(3208) 评论(24) 推荐(11) 编辑
摘要: 今天,翻出了我以前在本科阶段写的一些论文,虽然有几篇没有发表。突然发现很多还是比较实用,虽然学术价值并不是很大,于是我重新整理了下,用最简单的方式,摘要了部分出来拼成此文,当然拼的原料都是自己的,本文适合初学者,如若转载,请著名版权。 中文分词已经是老调重弹的话题了,传统的基于词库的分词技术应该是目前最基本的分词技术,在这里我不去深入挖掘,什么好什么不好的问题,今天我只想根据我自己的经验,来设计和实现一套中文分词与词性分析的一套系统,系统其实已经实现与Iveely Search Engine中。 我们采用隐马尔可夫模型(HMM)来实现中文分词和词性分析。在使用HMM之前,我们先了解下H... 阅读全文
posted @ 2013-01-07 23:26 Iveely Liu 阅读(5636) 评论(6) 推荐(7) 编辑