机器学习入门案例

 

信用卡欺诈检测:样本不平衡

  • 效果:过采样 > 下采样 > 原始数据
  • SMOTE样本生成
  • 逻辑回归、正则化惩罚项目(增加对权重参数的限制Loss+0.5*W^2)

 

拼写纠错:

 

新闻分类:数据量大,

  • 分词:jieba.lcut
  • 过滤掉停用词
  • TF-IDF关键词提取:词频*逆文档频率,jieba.analyse.extract_tags
    • 统计词频DataFrame.groupby

    • WordCloud可视化文本显示
  • LDA主题模型,无监督主题分类,也常用于图像处理
    • gensim, corpora, similarities
    • 准备语料库,corpora.Dictionary(), 
    • 对语料库无监督分类
    • 文本特征提取:
      • from sklearn.feature_extraction.text import CountVectorizer
      • from sklearn.feature_extraction.text import TfidfVectorizer
  • 朴素贝叶斯分类,from sklearn.naive_bayes import MultinomialNB

 

推荐系统

  • 相似度计算=相关系数
  • 基于用户的协同过滤(UserCF) vs 基于物品的协同过滤(ItemCF)
  • 隐语义模型,有点像给个性贴标签
  • 模型标准评估,具体问题具体分析
  • Surprise库
  • 练习数据:  http://files.grouplens.org/datasets/movielens/

文本处理

数据源:https://dumps.wikimedia.org/zhwiki/20180501/

opencc:繁体转简体

posted @ 2018-08-22 15:35  xbit  阅读(165)  评论(0编辑  收藏  举报