摘要: Colab连接与数据预处理 Colab连接方法见 "上一篇博客" 数据预处理: 训练数据分析 查看行列索引 Index(['file_id', 'label', 'api', 'tid', 'index'], dtype='object') RangeIndex(start=0, stop=8980 阅读全文
posted @ 2019-10-20 15:58 Yanqiang 阅读(1681) 评论(0) 推荐(0) 编辑
摘要: 1. 词袋模型 (Bag of Words, BOW) 文本分析是机器学习算法的一个主要应用领域。然而,原始数据的这些符号序列不能直接提供给算法进行训练,因为大多数算法期望的是固定大小的数字特征向量,而不是可变长度的原始文本。 为了解决这个问题,scikit learn提供了从文本内容中提取数字特征 阅读全文
posted @ 2019-10-20 10:05 Yanqiang 阅读(3577) 评论(0) 推荐(0) 编辑