随笔分类 - 大数据
摘要:Awesome Big DataA curated list of awesome big data frameworks, resources and other awesomeness. Inspired byawesome-php,awesome-python,awesome-ruby,had...
阅读全文
摘要:Luke是一个用于Lucene搜索引擎的第三方工具,它可以访问现有Lucene的索引,并允许您显示和修改。可以看每篇文档建立了哪些索引,验证有没有成功建立了索引。不然建立了,不能确定有没有成功。可以用luke看文章怎么分的词。当搜索query过来以后,query也会被分词,拿这个分好的词去索引中查询...
阅读全文
摘要:文/顾森 对中文资料进行自然语言处理时,我们会遇到很多其他语言不会有的困难,例如分词——汉语的词与词之间没有空格,那计算机怎么才知道“已结婚的和尚未结婚的”究竟是“已/结婚/的/和/尚未/结婚/的”,还是“已/结婚/的/和尚/未/结婚/的”呢? 这就是所谓的分词歧义难题。不过,现在很多语言...
阅读全文