摘要:
研究了一晚如何自定义一个analyzer,可惜没有阶段性成果。。。SimpleAnalyzer的作用就是把一段字符串中除了符号和非文字的内容作为分隔, 把句子分成很多的单词. 对于中文也可以用来剔除标点符号public TokenStream tokenStream(String fieldName, Reader reader) { return new LowerCaseTokenizer(reader);} SimpleAnalyzer的TokenStream就是调用了LowerCaseTokenizer的构造函数. LowerCaseTokenizer继承自CharTokenizer. 阅读全文