摘要: python结巴(jieba)分词 一、特点 1、支持三种分词模式: (1)精确模式:试图将句子最精确的切开,适合文本分析。 (2)全模式:把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解决歧义。 (3)搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 阅读全文
posted @ 2017-01-08 22:37 李小新 阅读(16443) 评论(1) 推荐(3) 编辑
摘要: groupByKey,reduceByKey,sortByKey算子 视频教程: 1、优酷 2、 YouTube 1、groupByKey groupByKey是对每个key进行合并操作,但只生成一个sequence,groupByKey本身不能自定义操作函数。 java: python: 注意:当 阅读全文
posted @ 2017-01-08 18:30 李小新 阅读(6374) 评论(0) 推荐(0) 编辑