决策树算法4-4.3字符特征提取的小结

特征提取【了解】

  • 将任意数据(如文本或图像)转换为可用于机器学习的数字特征

特征提取分类:【了解】

  • 字典特征提取(特征离散化)
  • 文本特征提取
  • 图像特征提取

字典特征提取【知道】

  • 字典特征提取就是对类别型数据进行转换
  • api:sklearn.feature_extraction.DictVectorizer(sparse=True,…)
    • aparse矩阵:节省内容、提高读取效率
    • 注意:对于特征当中存在类别信息的我们都会做one-hot编码处理

文本特征提取(英文)【知道】

  • api:sklearn.feature_extraction.text.CountVectorizer(stop_words=[])
    • stop_words -- 停用词
    • 注意:没有sparse这个参数
    • 单个字母,标点符号不做统计
  • 文本特征提取(中文)【知道】
    • 1.在中文文本特征提取之前,需要对句子(文章)进行分词(jieba)
    • 2.里面依旧可以使用停用词,进行词语的限制

tfidf【知道】

  • 主要思想:
    • 如果某个词或短语在一篇文章中出现的概率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的
    • 类别区分能力,适合用来分类
  • tfidf
    • tf -- 词频
    • idf -- 逆向文档频率
  • api:sklearn.feature_extraction.text.TfidfVectorizer
  • 注意:
    • 分类机器学习算法进行文章分类中前期数据处理方式
posted @ 2021-09-23 20:37  Trouvaille_fighting  阅读(175)  评论(0)    收藏  举报