摘要:
1. TF-IDF TF-IDF是一种统计方法,用以评估一个词对一篇文章或语料库中一篇文章的重要性。字词的重要性随着它在文中出现的次数成正比,但同时会随着它在语料库中出现的频率成反比下降。 2. TF-IDF使用场景 TF-IDF加权的各种形式常被用搜索引擎应用,作为文件与用户查询之间相关程度的度量 阅读全文
posted @ 2020-01-01 16:19
LuckPsyduck
阅读(559)
评论(0)
推荐(0)
摘要:
1. 处理计数 1.1 二值化 1.2 区间量化(分箱) 固定宽度分箱:通过固定宽度分箱,每个分箱中会包含一个具体范围内的数值。这些范围可以人工定制,也可以通过自动分段来生成,它们可以是线性的、也可以是指数性的。 分位数分箱:(分位数是可以将数据分为相等的诺干份数的值。)例如中位数、四分位数、十分位 阅读全文
posted @ 2020-01-01 15:09
LuckPsyduck
阅读(764)
评论(0)
推荐(0)
摘要:
1. 特征定义 为了提取知识和做出预测,机器学习使用数学模型来拟合数据。这些模型将特征作为输入。特征就是原始数据某个方面的数值表示。在机器学习流程中,特征是数据和模型之间的纽带。特征工程是指从原始数据中提取特征并将其转换为适合机器学习模型的格式。它是机器学习流程中一个极其关键的环节,因为正确的特征可 阅读全文
posted @ 2020-01-01 14:06
LuckPsyduck
阅读(570)
评论(0)
推荐(0)