是时候放弃pipeline 模型 ?
pipeline 在sklearn 和 spark 中广泛存在的高层级结构,对于的它的作用我们也要思考一下,为了更好的展开思考,首先需要问几个问题:
1. 在多种场合下,用它与不用它有什么不一样?
2. 直接去看框架源码pipeline到底干了什么,帮客户端完成了哪些工作的工作?
3. 强行使用这种模式会带来什么样的代价?
4. 更好地帮助客户端完成参数化工作?
曾经,十分迷恋管道,今天深深的感到,对于做算法来讲,场景复杂,不仅仅是iid的维度长度为1的数据,管道人感到僵硬无比,
不管是spark,还是sklearn,至多管道解决的问题层次只能在于模型层次,不可再上升,总之对于做算法来讲,管道不算是好的抽象!
其实重要原因是其依赖的数据结构!
管道至多像keras的sequencial模型。。