01 2018 档案

摘要:语法:row_number() over (partition by 字段a order by 计算项b desc ) rank --这里rank是别名 partition by:类似hive的建表,分区的意思; order by :排序,默认是升序,加desc降序; 这里按字段a分区,对计算项b进 阅读全文
posted @ 2018-01-22 14:12 ¥王大胖¥ 阅读(9644) 评论(0) 推荐(1)
摘要:好记性不如烂笔头,分享一下 Spark是一个计算框架,是对mapreduce计算框架的改进,mapreduce计算框架是基于键值对也就是map的形式,之所以使用键值对是人们发现世界上大部分计算都可以使用map这样的简单计算模型进行计算。但是Spark里的计算模型却是数组形式,RDD如何处理Map的数 阅读全文
posted @ 2018-01-11 15:04 ¥王大胖¥ 阅读(259) 评论(0) 推荐(1)
摘要:决策树python建模中的坑 代码 错误如下: Traceback (most recent call last): File "D:/workspace/python/.idea/decision_tree.py", line 55, in <module> predictedY = clf.pr 阅读全文
posted @ 2018-01-08 18:01 ¥王大胖¥ 阅读(6116) 评论(0) 推荐(3)
摘要:EC2 挂载 EBS linux 查看块设备: lsblk 格式化磁盘: sudo mkfs -t ext4 /dev/xvdb 挂载卷: sudo mount /dev/xvdb /mnt/mydir 卸载卷: sudo umount /dev/xvdb windows diskpart san 阅读全文
posted @ 2018-01-02 14:56 ¥王大胖¥ 阅读(1117) 评论(0) 推荐(1)