随笔分类 - 扩展知识
摘要:摘要 Spark2.0 推出了一个新功能pandas_udf,本文结合spark 官方文档和自己的使用情况,讲解pandas udf的基本知识,并添加实例,方便初学的同学快速上手和理解。 Apche Arrow ApacheArrow 是一种内存中的列式数据格式,用于在 Spark 中 JVM 和
阅读全文
摘要:os.path模块主要用于获取文件的属性,这里对该模块中一些常用的函数做些记录。 os.abspath(path):获取文件的绝对路径。这里path指的是路径,例如我这里输入“data.csv” [In] os.path.abspath('data.csv') [Out] 'E:\\kaggle\\
阅读全文
摘要:(转载自作者 “Matrix67原创” 的文章,链接为:http://www.matrix67.com/blog/archives/105) 你会经常看到网上出现“这怎么做,这不是NP问题吗”、“这个只有搜了,这已经被证明是NP问题了”之类的话。你要知道,大多数人此时所说的NP问题其实都是指的NPC
阅读全文