机器学习入门案例

信用卡欺诈检测：样本不平衡

拼写纠错：

新闻分类：数据量大，

分词：jieba.lcut
过滤掉停用词
TF-IDF关键词提取：词频*逆文档频率，jieba.analyse.extract_tags
- 统计词频DataFrame.groupby
- WordCloud可视化文本显示
LDA主题模型，无监督主题分类，也常用于图像处理
- gensim, corpora, similarities
- 准备语料库，corpora.Dictionary(),
- 对语料库无监督分类
- 文本特征提取：
  - from sklearn.feature_extraction.text import CountVectorizer
  - from sklearn.feature_extraction.text import TfidfVectorizer
朴素贝叶斯分类，from sklearn.naive_bayes import MultinomialNB

文本处理

数据源：https://dumps.wikimedia.org/zhwiki/20180501/

opencc：繁体转简体

posted @ 2018-08-22 15:35 xbit 阅读(168) 评论(0) 收藏举报

刷新页面返回顶部