摘要: pandas有两种自己独有的基本数据结构Series和DataFrame Series DataFrame DataFrame几要素:index、columns、values等 获取数据 修改数据 汇总统计 应用函数和映射 参考资料 1)10 Minutes to pandas: http://pa 阅读全文
posted @ 2017-03-13 21:43 邬家栋 阅读(973) 评论(0) 推荐(0) 编辑
摘要: 载入数据和保存数据 数学运算 求解方程组 阅读全文
posted @ 2017-03-13 21:42 邬家栋 阅读(194) 评论(0) 推荐(0) 编辑
摘要: NumPy学习(1) 参考资料: 1. http://www.cnblogs.com/zhanghaohong/p/4854858.html 2. http://linusp.github.io/2016/02/25/creation and io of ndarray.html 数组的创建 数组属 阅读全文
posted @ 2017-03-13 21:41 邬家栋 阅读(197) 评论(0) 推荐(0) 编辑
摘要: 日志分析 问题:如何将p(4)里面的继续切分 阅读全文
posted @ 2017-03-07 20:27 邬家栋 阅读(1452) 评论(0) 推荐(0) 编辑
摘要: spark SQL初步认识 spark SQL是spark的一个模块,主要用于进行结构化数据的处理。它提供的最核心的编程抽象就是DataFrame。 DataFrame:它可以根据很多源进行构建,包括:结构化的数据文件,hive中的表,外部的关系型数据库,以及RDD 创建DataFrame 数据文件 阅读全文
posted @ 2017-03-07 20:22 邬家栋 阅读(14108) 评论(0) 推荐(0) 编辑
摘要: 需求:统计每日销售额 运行结果 阅读全文
posted @ 2017-03-07 20:19 邬家栋 阅读(1827) 评论(0) 推荐(0) 编辑
摘要: 需求:统计每日uv 运行结果 阅读全文
posted @ 2017-03-07 20:18 邬家栋 阅读(2383) 评论(0) 推荐(0) 编辑
摘要: spark连接mysql(打jar包方式) 提交集群 运行结果 常见报错1 如果添加了命令和jar运行也不行,则用以下办法 常见报错2 spark连接mysql(spark shell方式) 方式1 方式2 方式3 阅读全文
posted @ 2017-03-07 20:15 邬家栋 阅读(22492) 评论(0) 推荐(1) 编辑
摘要: spark 读取hive中的数据 spark载入数据到hive 两个文件 scala代码 参考资料 http://dblab.xmu.edu.cn/blog/1086 2/ 参考资料 http://blog.csdn.net/ggz631047367/article/details/50445877 阅读全文
posted @ 2017-03-07 20:14 邬家栋 阅读(11183) 评论(0) 推荐(0) 编辑
摘要: 准备工作 数据文件students.json 存放目录:hdfs://master:9000/student/2016113012/spark/students.json scala代码 package wujiadong_sparkSQL import org.apache.spark.sql.S 阅读全文
posted @ 2017-03-07 20:12 邬家栋 阅读(3443) 评论(0) 推荐(0) 编辑