上一页 1 ··· 10 11 12 13 14 15 16 17 18 ··· 29 下一页
摘要: 4、停用词 删除没有信息量的单词还有另一种方法,就是舍弃那些出现次数太多以至于没有信息量的单词。有两种主要方法:使用特定语言的停用词(stopword)列表,或者舍弃那些出现过于频繁的单词。 scikit-learn 的 feature_extraction.text 模块中提供了英语停用词的内置列 阅读全文
posted @ 2022-06-04 11:58 朝南烟 阅读(157) 评论(0) 推荐(0) 编辑
摘要: 多层索引是指在行或者列轴上有两个及以上级别的索引,一般表示一个数据的几个分项。 1、创建多层索引 1.1通过分组产生多层索引 1.2由序列创建 1.3由元组创建 1.4可迭代对象的笛卡尔积 1.5将DataFrame转为多层索引对象 2、多层索引操作 多层索引和单层索引一样,但在它也有一些特定的操作 阅读全文
posted @ 2022-06-04 11:38 朝南烟 阅读(666) 评论(0) 推荐(0) 编辑
摘要: 我们讨论过表示数据属性的两种类型的特征:连续特征与分类特征,前者用于描述数量,后者是固定列表中的元素。 第三种类型的特征:文本 文本数据通常被表示为由字符组成的字符串。 1、用字符串表示的数据类型 文本通常只是数据集中的字符串,但并非所有的字符串特征都应该被当作文本来处理。 字符串特征有时可以表示分 阅读全文
posted @ 2022-06-03 13:02 朝南烟 阅读(349) 评论(0) 推荐(0) 编辑
摘要: 1、通用的管道接口 Pipeline 类不但可用于预处理和分类,实际上还可以将任意数量的估计器连接在一起。 例如,你可以构建一个包含特征提取、特征选择、缩放和分类的管道,总共有 4 个步骤。同样,最后一步可以用回归或聚类代替分类。 对于管道中估计器的唯一要求就是,除了最后一步之外的所有步骤都需要具有 阅读全文
posted @ 2022-06-02 23:22 朝南烟 阅读(193) 评论(0) 推荐(0) 编辑
摘要: 对于许多机器学习算法,你提供的特定数据表示非常重要。 首先对数据进行缩放,然后手动合并特征,再利用无监督机器学习来学习特征。 因此,大多数机器学习应用不仅需要应用单个算法,而且还需要将许多不同的处理步骤和机器学习模型链接在一起。 举一个例子来说明模型链的重要性。 我们知道,可以通过使用 MinMax 阅读全文
posted @ 2022-06-02 23:11 朝南烟 阅读(272) 评论(1) 推荐(0) 编辑
上一页 1 ··· 10 11 12 13 14 15 16 17 18 ··· 29 下一页
body { color: #000; background-color: #e6e6e6; font-family: "Helvetica Neue",Helvetica,Verdana,Arial,sans-serif; font-size: 12px; min-height: 101%; background: url(https://images.cnblogs.com/cnblogs_com/caolanying/1841633/o_2009041…ly1geq8oc9owbj21hc0u0th5.jpg) fixed; } #home { margin: 0 auto; opacity: 0.8; width: 65%; min-width: 1080px; background-color: #fff; padding: 30px; margin-top: 50px; margin-bottom: 50px; box-shadow: 0 2px 6px rgba(100, 100, 100, 0.3); }