团队个人冲刺day03
在对结巴分词进行了了解和安装配置后,今天实现了结巴分词对中文文本的分词
package shunxu;
import java.io.IOException;
import jeasy.analysis.MMAnalyzer;
/**
* 中文分词器
*/
public class ChineseSpliter
{
/**
* 对给定的文本进行中文分词
* @param text 给定的文本
* @param splitToken 用于分割的标记,如"|"
* @return 分词完毕的文本
*/
public static String split(String text,String splitToken)
{
String result = null;
MMAnalyzer analyzer = new MMAnalyzer();
try
{
result = analyzer.segment(text, splitToken);
}
catch (IOException e)
{
e.printStackTrace();
}
return result;
}
public static void main(String[] args)
{
System.out.println(split("每周质量报告丨吊牌写含96%羊毛实际一根羊毛都没有?!这些品牌被点名→要对某类产品进行质量监督抽查,检测机构一般都会选择这类产品正热销的时候,而从抽样开始到出结果,都需要一定的程序过程,所以出最终抽查结果的时间就会错后,但向消费者提供可靠的质量信息,任何时候都是需要的。","|"));
}
}
运行结果:
每周|质量|报告|丨|吊|牌|写|含|96%|羊毛|实际|一根|羊毛|都没有|这些|品牌|点名|要对|某类|产品|进行|质量|监督|抽查|检测|机构|一般|都会|选择|这类|产品|正|热销|时候|而从|抽样|开始|出|结果|都需要|一定|程序|过程|所以|出|最终|抽查|结果|时间|就|会错|向|消费者|提供|可靠|质量|信息|任何时候|都是|需要|