10 2015 档案
摘要:中文分词的方法非常多,基于词库是最基本的,但是当前各大互联网公司基本上不会仅仅依赖于词库的分词,一般以机器学习的分词为主,词库分词的方式为辅。在很久以前,我提过利用隐马尔科夫模型进行中文分词,条件随机场其实是隐马尔科夫模型的一次升级版本,网上有很多关于条件随机场模型的分词,但是基本上很难看懂,也许...
阅读全文
摘要:当我们写完一个比较复杂的Topology之后,倘若直接提交到服务器上运行,难免会有很多问题,如何进行本地的调试Topology,是我们非常关心的问题。我们依然以WordCount作为代码示例。 首先,必须调整main函数。 当main函数中,设定薇本地模式后,即可直接如调试Java应用程序一样,...
阅读全文
摘要:WordCount是很多分布式计算中,最常用的例子,例如Hadoop、Storm,Iveely Computing也不例外。明白了WordCount在Iveely Computing上的运行原理,就很容易写出新的分布式程序。上一篇中已经知道了如何部署Iveely Computing以及提交任务,现...
阅读全文
摘要:在Github中下载代码和二进制程序中,您都会看到一个bin\iveely computing目录,里面即是Iveely Computing的运行库。 以前总是有很多网友不知道怎么安装部署,现在我利用命令脚本并给予步骤编号,以告诉您怎么安装部署。当然在安装部署前,请确定您本地已经有了java 1.8的运行环境。本次修改不同于以往的安装部署步骤,是一次针...
阅读全文