摘要: 最近三年,普通网民似乎都感受到:对于搜索引擎的依赖不如以前。原因在于后移动互联网时代,流量分发方式不再完全依赖于搜索引擎。因此很多人开始感慨:搜索引擎即将退出历史舞台。其实并非如此,如果将搜索引擎仅仅理解为用于流量分发,则太片面。搜索引擎的确通过流量分发与广告结合的方式获得大量利润,但是搜索引擎本身 阅读全文
posted @ 2017-06-02 19:17 Iveely Liu 阅读(527) 评论(0) 推荐(0) 编辑
摘要: 这是一篇博客,不是,这是一篇开源人的心酸和喜悦,没有人可以理解我们的心情,一路的辛酸一路的艰辛,不过还好,在大家的支持下,总算是终见天日,谢谢那些给予我们无私帮助的朋友。您的支持,依然是我们无限的动力,作为回报,免费继续保持开源,是我们对您们的真诚谢意。 Iveely 从0.1.0走到现在... 阅读全文
posted @ 2015-05-12 08:32 Iveely Liu 阅读(8010) 评论(56) 推荐(59) 编辑
摘要: 2012年08月05日,Iveely Search Engine 0.1.0发布,今天,怀着对于未来的追求,终于,0.7.0如期和大家见面了,7个版本,历时2年4个月,感谢大家的支持,感谢我不离不弃的战友魏琪,奋斗到深夜,放弃了周末的社交,就为0.7.0如期而至;感谢Bogdan P Sliw... 阅读全文
posted @ 2014-12-10 09:08 Iveely Liu 阅读(4804) 评论(31) 推荐(34) 编辑
摘要: 快两年了,Iveely Search Engine已经走过了5个版本的岁月,虽出生“贫寒”,没有任何开源基金会的支持,没有优秀的“干爹、干妈”,它凭着它的爱好者的支持,0.6.0终于破壳而出,7年前,我开始研究搜索引擎,开始构思我的想法,今天的0.6.0是目前最接近我最初想法的一个版本。简单的... 阅读全文
posted @ 2014-06-17 08:44 Iveely Liu 阅读(5098) 评论(55) 推荐(51) 编辑
摘要: Iveely Computing产生背景 08年的时候,我开始接触搜索引擎,当时遇到的第一个难题就是大数据实时并发处理,当时实验室的机器我们可以随便用,至少二三十台机器,可以,却没有程序可以将这些机器的计算性能整合起来,后来听说了Hadoop,但是当时的hadoop还很脆弱(记得没错是0.2.0),源码量也很少,用了很久,发现它不适合我们的搜索引擎。 后来没办法,我在程序中将爬虫和数据处理写成分布式网络通信的。但是导致代码非常臃肿,而且每一个应用程序的运行,都需要写一套网络通信和任务分布。09年下半年,中某地区断网半年,只能访问该地区本地的网络,然后想到我们搜索引擎的商业运营的机会来了,当.. 阅读全文
posted @ 2014-01-06 09:23 Iveely Liu 阅读(4781) 评论(16) 推荐(28) 编辑
摘要: 最近我们Team利用Dream分布式计算平台,做了这样一件事情,将Github的大量数据通过爬虫抓取下来,通过分析后,我们抽取最近一年中部分的开发者和项目信息,得到了如下有趣的信息,故分享之,数据原汁原味,无人工干涉。(感谢Iveely Team 所有成员的付出) 第一份数据:全球IT人才分布 图1 全球IT人才分布图 其中颜色越深,表示聚集的IT人才越多。其实从这一份数据来看,我们都能理解美国、中国、印度、俄罗斯是软件大国,但是我们也发现,南非和巴西表现也 不错。 第二份数据:全球软件城市排行榜 这些城市按照名次依次是:San Francisco、London、Ber... 阅读全文
posted @ 2013-08-21 17:25 Iveely Liu 阅读(3708) 评论(16) 推荐(11) 编辑
摘要: 经过无数个夜晚的奋战,以及无数个夜晚的失眠,Iveely Search Engine 0.4.0 终于熬出来了,这其中的心酸只有自己知道!虽然Iveely Search Engine 在开发阶段已经经历了第四个版本,但是其中的不足依然数不胜数,功能也不尽完善,但是也希望大家能够理解,一是毕竟还在1.0版本之内,二是人手有限,如果你想为此做出点点努力,可以发送邮件或者微博私信。 介 绍: 好了,言归正传,开始介绍下Iveely Search Engine 0.4.0,本次版本主题是事件抽取。我们会从事件抽取慢慢过渡到知识提取。希望大家不要为没有达到知识提取而感到遗憾。 首先截图: ... 阅读全文
posted @ 2013-03-04 09:15 Iveely Liu 阅读(3209) 评论(24) 推荐(11) 编辑
摘要: Iveely Search Engine在经过一个月艰辛的测试之后,0.3.0终于与大家见面了,本次版本的主题是:实时信息检索。 项目及源码下载地址 http://iveelyse.codeplex.com 也许你会怀疑我指的是否是"实时搜索“?我想回答你的是,这是迈向实时搜索的一大步。那么0.3.0到底新增加了哪些东西?0.3.0中更改了爬虫策略,索引策略。 在爬虫方面,我们放弃了以前的完整遍历整个网站,采用广度遍历3000个网页后,然后下次再广度遍历3000个不同的网页且更新以前爬行过得网页,这样可以保证最新的数据可以尽快搜到。索引方面,抛弃了以往的数据结构,采用新的二维表,.. 阅读全文
posted @ 2012-10-15 08:50 Iveely Liu 阅读(2979) 评论(21) 推荐(7) 编辑
摘要: Iveely Search Engine 是一款纯C#实现的搜索引擎。Iveely的中文翻译:爱为您。英文全称:I void everything , enjoy loving you! 希望更多的搜索引擎爱好者加入进来,感受分享的快乐。Iveely目标是:不是给用户一堆结果让用户去发现最适合自己的,我希望是返回的就是用户最想要的,用户完全无需筛选,所以Iveely Search Engine 永远没有分页,更希望它能嵌入机器人思维中,成为人类的良师益友。当然现在依然处于文本搜索阶段。我对搜索引擎的观点是:搜索引擎应该是互联网的学习者,我们应该制定一个规则,让它从一个不识字的孩子逐渐成为一.. 阅读全文
posted @ 2012-09-03 09:15 Iveely Liu 阅读(3154) 评论(28) 推荐(13) 编辑
摘要: 一直热爱搜索引擎事业,但是它现在并不是我工作。你也许会问,Iveely是什么?Iveely 是I void everything,enjoy loving you的首字母缩写,表达我对搜索引擎的热爱。目前发布的是0.1.0版本,是一个基本版本,包含了无数的Bugs,您可以在http://iveelyse.codeplex.com/上下载源码,任何一个改动的源码,您都可以下载到。但是,当您下载源码后,也许您会痛骂我一顿,这是什么源码,能看懂吗?乱七八糟的,当您有这样的想法的时候,请原谅我,这些东西都是我业余开发,不足之处,定然数不胜数,但我相信,终有一天您也会感叹,原来并没有那么糟糕。所有源码. 阅读全文
posted @ 2012-08-05 21:55 Iveely Liu 阅读(6373) 评论(53) 推荐(28) 编辑
摘要: 现代的人类学习、生活、工作都已经离不开搜索引擎,如今的数据大爆炸时代,搜索引擎已经不仅是帮助用户从海量信息中找到结果,更是一种互联网服务。搜索引擎成为一个数据工厂,通过大数据挖掘,抽象结构化有价值的信息,加速信息流动,促使搜索为用户提供更多服务以及更高价值。 让用户对搜索结果进行筛选的时代很快就会被 阅读全文
posted @ 2017-06-02 19:19 Iveely Liu 阅读(660) 评论(0) 推荐(0) 编辑
摘要: 前言 很久没写博客了,一直想把自己的一些知识进行沉淀,毕竟时间久了,就很容易忘记。所以想了想,为了不让自己忘记,干脆就写成博客,还可以和大家一起探讨和学习,于是我决定在周末空余时间写写关于人工智能与机器学习应用系列的文章,今天就从最简单的机器学习模型开始。 问题起源 求解多元一次方程的解似乎看起来不 阅读全文
posted @ 2017-05-08 08:17 Iveely Liu 阅读(2279) 评论(2) 推荐(0) 编辑
摘要: 智能问答应当是未来智能化发展中人机交互的主要方式,目前无论是在开源社区或者企业应用中,都有广泛的应用。 项目名称是Iveely.Brain,本次源码可以在Github的这里下载,,是主要用于聊天服务的一个项目,本次开源版本的示例如下所示: 整个开源版本分为两种模式:本地模式和远程模式。本地模式是开发 阅读全文
posted @ 2016-09-18 09:33 Iveely Liu 阅读(36632) 评论(18) 推荐(20) 编辑
摘要: DAIML(Distributed Artificial Intelligence Markup Language)是用于分布式人工智能系统中智能语言的标记库。DAIML主要分为Pattern和Template两部分,Pattern用于模式匹配,Template用于回答模板,下面将分别介绍两者的示例。 Pattern示例: (1) 直接完全匹配模式。 ... 阅读全文
posted @ 2016-02-14 22:20 Iveely Liu 阅读(2382) 评论(0) 推荐(1) 编辑
摘要: 中文分词的方法非常多,基于词库是最基本的,但是当前各大互联网公司基本上不会仅仅依赖于词库的分词,一般以机器学习的分词为主,词库分词的方式为辅。在很久以前,我提过利用隐马尔科夫模型进行中文分词,条件随机场其实是隐马尔科夫模型的一次升级版本,网上有很多关于条件随机场模型的分词,但是基本上很难看懂,也许... 阅读全文
posted @ 2015-10-22 09:24 Iveely Liu 阅读(8913) 评论(2) 推荐(3) 编辑
摘要: 当我们写完一个比较复杂的Topology之后,倘若直接提交到服务器上运行,难免会有很多问题,如何进行本地的调试Topology,是我们非常关心的问题。我们依然以WordCount作为代码示例。 首先,必须调整main函数。 当main函数中,设定薇本地模式后,即可直接如调试Java应用程序一样,... 阅读全文
posted @ 2015-10-10 16:29 Iveely Liu 阅读(436) 评论(0) 推荐(0) 编辑
摘要: WordCount是很多分布式计算中,最常用的例子,例如Hadoop、Storm,Iveely Computing也不例外。明白了WordCount在Iveely Computing上的运行原理,就很容易写出新的分布式程序。上一篇中已经知道了如何部署Iveely Computing以及提交任务,现... 阅读全文
posted @ 2015-10-10 16:27 Iveely Liu 阅读(613) 评论(0) 推荐(0) 编辑
摘要: 在Github中下载代码和二进制程序中,您都会看到一个bin\iveely computing目录,里面即是Iveely Computing的运行库。 以前总是有很多网友不知道怎么安装部署,现在我利用命令脚本并给予步骤编号,以告诉您怎么安装部署。当然在安装部署前,请确定您本地已经有了java 1.8的运行环境。本次修改不同于以往的安装部署步骤,是一次针... 阅读全文
posted @ 2015-10-10 16:23 Iveely Liu 阅读(590) 评论(0) 推荐(0) 编辑