摘要:
跑spark程序的时候,公司服务器需要排队等资源,参考一些设置,之前不知道,跑的很慢,懂得设置之后简直直接起飞。 简单粗暴上设置代码: 一小部分设置。简单解析一下: 1、spark.shuffle.service.enabled。用来设置是否开启动态分配。开启了动态分配的Application在申请 阅读全文
摘要:
关于luigi框架下查询hive表的操作 直接上的代码,luigi框架不多说了,可以看之前的luigi的文章。HiveQueryTask类是封装好的专门用于hive sql的类,就是把hive的query写在程序中,他帮你查。 1.JoinQuery类是直接继承自HiveQueryTask类的,处理 阅读全文
摘要:
spark-shell 启动 spark-shell 通常需要指定 master、executor 内存、executor 数量等参数。由于 YARN 集群有审计机制,每个人提交的 spark application 需要指定 name 参数,同时确保 name 是以个人的 LDAP 用户名为后缀。 阅读全文
摘要:
首先,目标是写个python脚本,跑spark程序来统计hdfs中的一些数据。参考了别人的代码,故用了luigi框架。 至于luigi的原理 底层的一些东西Google就好。本文主要就是聚焦快速使用,知其然不知其所以然。 python写Spark或mapreduce还有其他的方法,google上很多 阅读全文
摘要:
这是在公司将服务部署上线的一个记录,只是部署很小的python脚本,各公司不同,参考性不是很大 开始吧(版本管理是git) 1.整理好代码后:git add xxx.py git commit -m "输入这次提交的说明" 2.代码review:git push origin HEAD:refs/f 阅读全文
摘要:
一、关于Python操作mysql: 1.导入pyutil模块,这模块有很多常用的功能 2.之后用execute函数执行sql语句就OK了 mysql_dal.excute(sql).fetchone() 3.fetchone()只取出一个结果,fetchall()把结果全取出来。fetchone的 阅读全文
摘要:
1.公司笔记本是mac,运行代码是在开发机上,在终端连接上开发机。相关命令:ssh username@10.1.101.xx 。代码可以在开发机上测试,然后丢到远程的服务器上跑或者上线。本地终端不运行程序的。 本地 开发机 服务器 刚开始小白不太懂这些,其实可以想象成 本地 就是个键盘加显示器,大部 阅读全文
摘要:
特别友情提示:复习用的,下列出现的排序,树等代码网上已经烂大街了。。。JAVA大法。。 一、几大排序 1、冒泡排序 2、选择排序 3、快速排序 4、插入排序 5、希尔排序 6、堆排序 7、归并排序 8、排序算法总结 二、二分查找 查找第一个比K大的数: 阅读全文
摘要:
本章主要是机器学习中关于推荐系统的一些总结的东西 一、SVD SVD本意是一种数学上的矩阵分解的方法,但在推荐系统中只是借用了这个名字,还有其他各式各样的矩阵分解的方法能运用于推荐系统中,SVD只是其中之一,且和最早的数学上的SVD有一些不太一样。 1.奇异值和特征值的关系:将矩阵Σ的对角元素就称之 阅读全文
摘要:
再次声明,总结内容基本非原创,只是一个勤劳的搬运工,由于来源比较杂,只好一起感谢网上提供这些知识的人类们。 一、关于线性回归 线性回归比较简单,这里主要是对线性回归的一种理解,包括部分正则化的内容。 1.模型的概率解释 2.最大似然估计 即: 上面是线性回归最原始的最小平方损失函数,如果为了防止过拟 阅读全文