FeatureTools框架概述

FeatureTools

    功能强大,主要用于自动化构建特征工程;
    三种重要的组成:实体,特征基元,DFS;
    实体:类似一个表;多个实体间可以构建关系,类似关联表;多个实体形成实体集;
    特征基元:类似对表字段的处理方式,一种处理方式称为一种特征基元,且可以自定义特征基元,比如:求和 sum(), 最小值 min(), 平均数 avg() 等;
    DFS:   类似封装好的对象,可以接入实体集,特征基元;将特征基元定义好的处理规则,应用于实体,产出该实体的统计信息;
   
例如:
        实体/数据:会员信息,订单信息,商品信息
        实体关系/数据关系:会员与订单 一对多,订单与产品一对多;
        特征基元/统计规则:会员的订单数,会员的商品数,会员的最大订单额,会员的平均订单额,会员的最小订单额 等等;
        
        1,配置实体的字段类型及其他信息(可以不配置,DFS可以自动推断类型,但不准确);
        2,配置特征基元信息,如:MODE()、MEAN()、SUM()、STD();
        3,  DFS接入配置信息,根据实体字段类型,使用相应的特征基元进行计算,得出结果;
问题:
    1,当数据表过多,字段过多时,涉及的配置工作会很多;
    2,当数据量过大时,基于python需启用多进程/多线程方式计算,开发调优的工作量大;
 
posted @ 2020-01-05 22:40  长林-  阅读(488)  评论(0编辑  收藏  举报