会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
乔丹爱打乒乓球
博客园
|
首页
|
新随笔
|
新文章
|
联系
|
订阅
|
管理
2019年6月9日
分词————jieba分词(Python)
摘要: 要使用分词器来看下各个分词器对文本数据的分词效果,找了很多资料发现有推荐最多的开源分词工具就是结巴(jieba)分词和清华NLP分词库(thulac),下面简单说下中文分词器的jieba分词,只写了切词和用户自定义词典两种方法,其他的功能后面再补充: 一、分词 1 import jieba 2 st
阅读全文
posted @ 2019-06-09 14:14 HankCui
阅读(1300)
评论(0)
推荐(0)
编辑
NLP中几种分词库的简单使用(Python)
摘要: 几种分词方法的简单使用: 一 . jieba 安装、示例 pip install jieba,jieba分词的语料是基于人民日报。 分词示例 1 import jieba 2 3 str1 ='江州市长江大桥' 4 word_object = jieba.cut(str1) # 生成一个生成器对象
阅读全文
posted @ 2019-06-09 14:00 HankCui
阅读(4217)
评论(0)
推荐(0)
编辑
ML————朴素贝叶斯原理和SKlearn相关库
摘要: 二师兄养成记正式开始, 以后就写这了。 写的不对的、有疑问的,恳请大佬指出来。 一. 贝叶斯定理 1. 条件概率: P(A | B) = P(A B) / P(B) = P(A U B)/ P(B) P(AB)表示事件A和事件B共同发生的概率,又称为联合概率。 表示 A在B条件下发生的概率= AB共
阅读全文
posted @ 2019-06-09 13:48 HankCui
阅读(881)
评论(0)
推荐(0)
编辑
公告