Information Retrieval --- Document Processing
一、词条化Tokenizer。中文分词:正(逆)向最大匹配,基于词典的方法。
二、大小写归一化
三、去停用词:the a and;的 得 地
四、词形归并:am are is=>be car cars cars'=>car
五、词干还原:automate automatic automation=>automat
一、词条化Tokenizer。中文分词:正(逆)向最大匹配,基于词典的方法。
二、大小写归一化
三、去停用词:the a and;的 得 地
四、词形归并:am are is=>be car cars cars'=>car
五、词干还原:automate automatic automation=>automat