[DE] Pipeline for Data Engineering

How to build an ML pipeline for Data Science

垃圾信息分类

Ref:Develop a NLP Model in Python & Deploy It with Flask, Step by Step

其中使用naive bayes模型做分类，此文不做表述。

重点来啦：Turning the Spam Message Classifier into a Web Application

其实就是http request 对接模型的 prediction。

Python & GPU加速

效果对比

Ref: 测试pytorch 调用gpu 加速矩阵相乘. accelerate matrix multiplication

这个级别的矩阵加速似乎并不是很明显。尤其是元素数两千之前，cpu是比gpu效果好的。
元素数目超过两千就可以选择用gpu，能有加速效果。

CUDA加速方案

Ref: Python GPU加速

（1）一个来自Anaconda的Python编译器Numba，它可以在CUDA-capable GPU或多核cpu上编译Python代码。

（2）Numba团队的另一个项目叫做pyculib，它提供了一个Python接口，用于

- CUDA cuBLAS (dense linear algebra，稠密线性代数)
- cuFFT (Fast Fourier Transform，快速傅里叶变换)
- cuRAND (random number generation，随机数生成)

其他方案大全

All libraries below are free, and most are open-source.

Goto: A Beginner's Guide to Python Machine Learning and Data Science Frameworks

ML Pipeline

定义理解

Data Pipeline，中文译为数据工作流。

你所要处理的数据可能包含CSV文件、也可能会有JSON文件、Excel等各种形式，可能是图片文字，也可能是存储在数据库的表格，还有可能是来自网站、APP的实时数据。

在这种场景下，我们就迫切需要设计一套Data Pipeline来帮助我们对不同类型的数据进行自动化整合、转换和管理，并在这个基础上帮我们延展出更多的功能，比如可以自动生成报表，自动去进行客户行为预测，甚至做一些更复杂的分析等。

与传统方式的区别

相对于传统的ETL，Data Pipeline的出现和广泛使用，主要是应对目前复杂的数据来源和应用需求，是跟“大数据”的需求密不可分的。

Zuper Cor.

跟superannuation相关的AI Platform?

/* implement */

Data Pipeline在机器学习中的应用案例

科技巨头都爱的Data Pipeline，如何自动化你的数据工作？

Approaching (Almost) Any Machine Learning Problem | Abhishek Thakur

System Architectures for Personalization and Recommendation

Pipeline框架

在这个案例中，我们用到的数据是来源于亚马逊的产品分类信息，其中包含了产品介绍、用户对产品的评分、评论，以及实时的数据。

产品打分

这个项目的主要目的是希望可以用这些实时获取的数据构建模型，从而对新的产品进行打分。

第一个Data Pipeline，用于构建基本的模型。

第二个Data Pipeline，使其服务于实时预测。

原文赏析

主要是对链接中文章仔细再过一遍，总结知识点。

/* implement */

End.

posted @ 2018-02-18 08:21 郝壹贰叁阅读(333) 评论(0) 编辑收藏举报

刷新页面返回顶部

机器学习水很深

We all have two lives. The second one starts when we realize that we only have one. --- Tom Hiddleston