python系列(亲测有效):数据分析之jieba分词使用详解
数据分析之jieba分词使用详解
在所有人类语言中,一句话、一段文本、一篇文章都是有一个个的词组成的。词是包含独立意义的最小文本单元,将长文本拆分成单个独立的词汇的过程叫做分词。分词之后,文本原本的语义将被拆分到在更加精细化的各个独立词汇中,词汇的结构比长文本简单,对于计算机而言,更容易理解和分析,所以,分词往往是自然语言处理的第一步。
对于英文文本,句子中的词汇可以通过空格很容易得进行划分,但是在我们中文中则不然,没有明显的划分标志,所以需要通过专门的方法(算法)进行分词。在Python中,有多种库实现了各种方法支持中文分词,例如:jieba、hanlp、pkuseg等。在本篇中,先来说说jieba分词。
1 四种模式分词
(1)精确模式:
试图将句子最精确地切开,适合文本分析。精确分词模式对应的方法是jieba.cut,该方法接受四个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式,值为False时表示采用精确分词模式;HMM 参数用来控制是否使用 HMM 模型。