2、特征获取

互联网公司里大部分复杂的模型都是极少数的数据科学家在做,大多数工程师们做的事情基本是在数据仓库里搬砖,不断地数据清洗,再一个是分析业务不断地找特征。 

特征的来源有两部分,(1)业务已经整理好的各种特征数据,我们去寻找适合我们问题需要的特征;(2)我们从业务特征中寻找高级的数据特征。

对于业务已经整理好的各种特征,我们如何去找到适合我们问题需要的特征呢?这就需要我们找到该领域懂业务的专家,让他们给一些意见,如果对于一个药品疗效的分类问题,我们问这些专家,哪些因素会对药物的疗效产生影响,影响大的影响小的都要,这些特征就是我们的第一候选特征集。

这个特征集可能会很大,需要我们来进行降维、筛选等等,也就是我们的数据清理阶段要做的事情。

 


__EOF__

本文作者Austin
本文链接https://www.cnblogs.com/pacino12134/p/11368641.html
关于博主:评论和私信会在第一时间回复。或者直接私信我。
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!
声援博主:如果您觉得文章对您有帮助,可以点击文章右下角推荐一下。您的鼓励是博主的最大动力!
posted @   Austin_anheqiao  阅读(301)  评论(0编辑  收藏  举报
编辑推荐:
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
阅读排行:
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构
· 字符编码:从基础到乱码解决
· 提示词工程——AI应用必不可少的技术
点击右上角即可分享
微信分享提示