2、特征获取

互联网公司里大部分复杂的模型都是极少数的数据科学家在做,大多数工程师们做的事情基本是在数据仓库里搬砖,不断地数据清洗,再一个是分析业务不断地找特征。 

特征的来源有两部分,(1)业务已经整理好的各种特征数据,我们去寻找适合我们问题需要的特征;(2)我们从业务特征中寻找高级的数据特征。

对于业务已经整理好的各种特征,我们如何去找到适合我们问题需要的特征呢?这就需要我们找到该领域懂业务的专家,让他们给一些意见,如果对于一个药品疗效的分类问题,我们问这些专家,哪些因素会对药物的疗效产生影响,影响大的影响小的都要,这些特征就是我们的第一候选特征集。

这个特征集可能会很大,需要我们来进行降维、筛选等等,也就是我们的数据清理阶段要做的事情。

 

posted @ 2019-08-17 14:58  Austin_anheqiao  阅读(294)  评论(0编辑  收藏  举报