FeatureTools框架概述
FeatureTools
功能强大,主要用于自动化构建特征工程;
三种重要的组成:实体,特征基元,DFS;
实体:类似一个表;多个实体间可以构建关系,类似关联表;多个实体形成实体集;
特征基元:类似对表字段的处理方式,一种处理方式称为一种特征基元,且可以自定义特征基元,比如:求和 sum(), 最小值 min(), 平均数 avg() 等;
DFS: 类似封装好的对象,可以接入实体集,特征基元;将特征基元定义好的处理规则,应用于实体,产出该实体的统计信息;
例如:
实体/数据:会员信息,订单信息,商品信息
实体关系/数据关系:会员与订单 一对多,订单与产品一对多;
特征基元/统计规则:会员的订单数,会员的商品数,会员的最大订单额,会员的平均订单额,会员的最小订单额 等等;
1,配置实体的字段类型及其他信息(可以不配置,DFS可以自动推断类型,但不准确);
2,配置特征基元信息,如:MODE()、MEAN()、SUM()、STD();
3, DFS接入配置信息,根据实体字段类型,使用相应的特征基元进行计算,得出结果;
问题:
1,当数据表过多,字段过多时,涉及的配置工作会很多;
2,当数据量过大时,基于python需启用多进程/多线程方式计算,开发调优的工作量大;