特征提取【了解】
- 将任意数据(如文本或图像)转换为可用于机器学习的数字特征
特征提取分类:【了解】
- 字典特征提取(特征离散化)
- 文本特征提取
- 图像特征提取
字典特征提取【知道】
- 字典特征提取就是对类别型数据进行转换
- api:sklearn.feature_extraction.DictVectorizer(sparse=True,…)
- aparse矩阵:节省内容、提高读取效率
- 注意:对于特征当中存在类别信息的我们都会做one-hot编码处理
文本特征提取(英文)【知道】
- api:sklearn.feature_extraction.text.CountVectorizer(stop_words=[])
- stop_words -- 停用词
- 注意:没有sparse这个参数
- 单个字母,标点符号不做统计
- 文本特征提取(中文)【知道】
- 1.在中文文本特征提取之前,需要对句子(文章)进行分词(jieba)
- 2.里面依旧可以使用停用词,进行词语的限制
tfidf【知道】
- 主要思想:
- 如果某个词或短语在一篇文章中出现的概率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的
- 类别区分能力,适合用来分类
- tfidf
- api:sklearn.feature_extraction.text.TfidfVectorizer
- 注意:
posted @
2021-09-23 20:37
Trouvaille_fighting
阅读(
175)
评论()
收藏
举报