为了能到远方,脚下的每一步都不能少.|

lmyyyy

园龄:2年8个月粉丝:7关注:10

2023-01-14 12:07阅读: 14评论: 0推荐: 0

机器学习day1

sklearn数据集

load_* 小数据集
fetch_* 大数据集,默认下载到家目录下的scikit_learn_data

对数据的索引

  1. []
  2. .
    img

特征工程

字典类型特征处理

img

文本特征处理

  1. 文本特征处理分为两类:英文文本、中文文本,其中中文文本需要进行空格分词
    img
    img
  2. 按分类方法分类可分为CountVectorizer,TfidfVectorizer两类,前者统计词语出现次数,而后者统计词语的重要程度,更适合文本特征处理。
    img

本文作者:lmyyyy

本文链接:https://www.cnblogs.com/lmyy/p/17051550.html

版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。

posted @   lmyyyy  阅读(14)  评论(0编辑  收藏  举报
点击右上角即可分享
微信分享提示
评论
收藏
关注
推荐
深色
回顶
收起