05 2020 档案
摘要:1.数据清理 缺失值的处理 删除变量:若变量的缺失率较高(大于80%),覆盖率较低,且重要性较低,可以直接将变量删除。 定值填充:工程中常见用-9999进行替代 统计量填充:若缺失率较低(小于95%)且重要性较低,则根据数据分布的情况进行填充。对于数据符合均匀分布,用该变量的均值填补缺失,对于数据存
阅读全文
摘要:什么是词嵌入?为什么我们使用单词嵌入?在进入细节之前。让我们看一些例子: 有许多网站要求我们在使用它们时对这些产品发表评论或反馈。像:-亚马逊,IMDB。 我们还可以使用几个单词在google上搜索并获取与之相关的结果。 有一些站点在博客上放置与博客中的材料相关的标签。 那么他们如何做到这一点。这些
阅读全文