摘要: LSH:将向量进行哈希分桶,使得原语义上相似的文本大概率被哈希到同一个桶中,同个桶内的文本可以认为是大概率是相似的。 LSH:局部敏感哈希算法,是一种针对海量高维数据的快速最近邻查找算法,主要有如下用法: 全基因组的相关研究:生物学家经常使用 LSH 在基因组数据库中鉴定相似的基因表达。 大规模的图 阅读全文
posted @ 2022-03-07 17:08 干了这瓶老干妈 阅读(439) 评论(0) 推荐(0) 编辑
摘要: 特征选择(Feature Selection)指的是在特征向量中选择出那些“优秀”的特征,组成新的、更“精简”的特征向量的过程。它在高维数据分析中十分常用,可以剔除掉“冗余”和“无关”的特征,提升学习器的性能。 一、VectorSlicer VectorSlicer 是一个转换器,它接受一个特征向量 阅读全文
posted @ 2022-03-07 16:05 干了这瓶老干妈 阅读(333) 评论(0) 推荐(0) 编辑
摘要: 一、VectorAssembler VectorAssembler 是一个转换器,它将给定的列列表组合成单个向量列。 它对于将原始特征和不同特征转换器生成的特征组合成单个特征向量很有用,以便训练 ML 模型,如逻辑回归和决策树。 VectorAssembler 接受以下输入列类型:所有数字类型、布尔 阅读全文
posted @ 2022-03-07 14:55 干了这瓶老干妈 阅读(451) 评论(0) 推荐(0) 编辑
摘要: 一、VectorIndexer VectorIndexer 帮助索引向量数据集中的分类特征。它既可以自动决定哪些特征是分类的,也可以将原始值转换为类别索引。具体来说,它执行以下操作: 获取 Vector 类型的输入列和参数 maxCategories; 根据不同值的数量决定哪些特征应该是分类的,其中 阅读全文
posted @ 2022-03-07 13:58 干了这瓶老干妈 阅读(484) 评论(0) 推荐(0) 编辑
摘要: 一、为什么要用独热编码? 在很多机器学习任务中,特征并不总是连续值,而有可能是分类值。 离散特征的编码分为两种情况: 1、离散特征的取值之间没有大小的意义,比如color:[red,blue],那么就使用one-hot编码 2、离散特征的取值有大小的意义,比如size:[X,XL,XXL],那么就使 阅读全文
posted @ 2022-03-07 11:14 干了这瓶老干妈 阅读(990) 评论(1) 推荐(0) 编辑
Live2D