随笔档案「2018年1月」 - ￥王大胖￥

hive 分组排序函数 row_number() over(partition by " " order by " "desc

摘要：语法：row_number() over (partition by 字段a order by 计算项b desc ) rank --这里rank是别名 partition by：类似hive的建表，分区的意思； order by ：排序，默认是升序，加desc降序；这里按字段a分区，对计算项b进阅读全文

posted @ 2018-01-22 14:12 ￥王大胖￥阅读(9644) 评论(0) 推荐(1)

spark RDD 的基本操作

摘要：好记性不如烂笔头，分享一下 Spark是一个计算框架，是对mapreduce计算框架的改进，mapreduce计算框架是基于键值对也就是map的形式，之所以使用键值对是人们发现世界上大部分计算都可以使用map这样的简单计算模型进行计算。但是Spark里的计算模型却是数组形式，RDD如何处理Map的数阅读全文

posted @ 2018-01-11 15:04 ￥王大胖￥阅读(259) 评论(0) 推荐(1)

决策树python建模中的坑：ValueError: Expected 2D array, got 1D array instead:

摘要：决策树python建模中的坑代码错误如下： Traceback (most recent call last): File "D:/workspace/python/.idea/decision_tree.py", line 55, in <module> predictedY = clf.pr 阅读全文

posted @ 2018-01-08 18:01 ￥王大胖￥阅读(6116) 评论(0) 推荐(3)

aws常用命令

摘要：EC2 挂载 EBS linux 查看块设备： lsblk 格式化磁盘： sudo mkfs -t ext4 /dev/xvdb 挂载卷： sudo mount /dev/xvdb /mnt/mydir 卸载卷： sudo umount /dev/xvdb windows diskpart san 阅读全文

posted @ 2018-01-02 14:56 ￥王大胖￥阅读(1117) 评论(0) 推荐(1)

王大胖

01 2018 档案

公告