摘要: 版本: 阅读全文
posted @ 2020-12-25 14:04 长林- 阅读(214) 评论(0) 推荐(0) 编辑
摘要: DBT(Data build tool)情况简述: 1,ELT(数据抽取, 数据加载, 数据转换) 数据处理流程,dbt框架主要用于做T(官方只认T)和L的工作,主要依赖配置文件的定义,实现数据的L和T; 例如:配置文件内配置数据文件路径 ,数据文件格式(列名称),数据探测类型(unique,not 阅读全文
posted @ 2020-01-05 22:42 长林- 阅读(5105) 评论(0) 推荐(0) 编辑
摘要: FeatureTools 功能强大,主要用于自动化构建特征工程; 三种重要的组成:实体,特征基元,DFS; 实体:类似一个表;多个实体间可以构建关系,类似关联表;多个实体形成实体集; 特征基元:类似对表字段的处理方式,一种处理方式称为一种特征基元,且可以自定义特征基元,比如:求和 sum(), 最小 阅读全文
posted @ 2020-01-05 22:40 长林- 阅读(488) 评论(0) 推荐(0) 编辑
摘要: ThinkerPop Apache 顶级项目 概述 TinkerPop是一个面向实时事务处理(OLAP)以及批量、分析型(OLTP)的开源的图计算框架。TinkerPop是一个可以应用于不同图形数据库的抽象层,避免应用程序与特定数据库高度依赖。 目标 提供通用的API和工具,使开发人员可以基于不同图 阅读全文
posted @ 2018-11-22 12:55 长林- 阅读(8476) 评论(0) 推荐(0) 编辑