锅贴君的包子铺

2017年7月4日

摘要：跑spark程序的时候，公司服务器需要排队等资源，参考一些设置，之前不知道，跑的很慢，懂得设置之后简直直接起飞。简单粗暴上设置代码：一小部分设置。简单解析一下： 1、spark.shuffle.service.enabled。用来设置是否开启动态分配。开启了动态分配的Application在申请阅读全文

posted @ 2017-07-04 21:11 锅贴君的包子铺阅读(6154) 评论(1) 推荐(0)

2017年6月16日

luigi操作hive表

摘要：关于luigi框架下查询hive表的操作直接上的代码，luigi框架不多说了，可以看之前的luigi的文章。HiveQueryTask类是封装好的专门用于hive sql的类，就是把hive的query写在程序中，他帮你查。 1.JoinQuery类是直接继承自HiveQueryTask类的，处理阅读全文

posted @ 2017-06-16 16:41 锅贴君的包子铺阅读(593) 评论(0) 推荐(0)

2017年6月13日

Spark学习散点总结

摘要： spark-shell 启动 spark-shell 通常需要指定 master、executor 内存、executor 数量等参数。由于 YARN 集群有审计机制，每个人提交的 spark application 需要指定 name 参数，同时确保 name 是以个人的 LDAP 用户名为后缀。阅读全文

posted @ 2017-06-13 20:51 锅贴君的包子铺阅读(1476) 评论(0) 推荐(0)

2017年6月12日

luigi框架--关于python运行spark程序

摘要：首先，目标是写个python脚本，跑spark程序来统计hdfs中的一些数据。参考了别人的代码，故用了luigi框架。至于luigi的原理底层的一些东西Google就好。本文主要就是聚焦快速使用，知其然不知其所以然。 python写Spark或mapreduce还有其他的方法，google上很多阅读全文

posted @ 2017-06-12 21:25 锅贴君的包子铺阅读(2280) 评论(0) 推荐(0)

公司上线流程 pushonline_alpha

摘要：这是在公司将服务部署上线的一个记录，只是部署很小的python脚本，各公司不同，参考性不是很大开始吧（版本管理是git） 1.整理好代码后：git add xxx.py git commit -m "输入这次提交的说明" 2.代码review：git push origin HEAD:refs/f 阅读全文

posted @ 2017-06-12 18:53 锅贴君的包子铺阅读(726) 评论(0) 推荐(0)

2017年6月11日

关于统计数据

摘要：一、关于Python操作mysql: 1.导入pyutil模块，这模块有很多常用的功能 2.之后用execute函数执行sql语句就OK了 mysql_dal.excute(sql).fetchone() 3.fetchone()只取出一个结果，fetchall()把结果全取出来。fetchone的阅读全文

posted @ 2017-06-11 20:25 锅贴君的包子铺阅读(731) 评论(0) 推荐(0)

实习生新手指南1

摘要： 1.公司笔记本是mac，运行代码是在开发机上，在终端连接上开发机。相关命令：ssh username@10.1.101.xx 。代码可以在开发机上测试，然后丢到远程的服务器上跑或者上线。本地终端不运行程序的。本地开发机服务器刚开始小白不太懂这些，其实可以想象成本地就是个键盘加显示器，大部阅读全文

posted @ 2017-06-11 20:24 锅贴君的包子铺阅读(216) 评论(0) 推荐(0)

2017年4月12日

菜鸟代码学习散点总结（四）

摘要：特别友情提示：复习用的，下列出现的排序，树等代码网上已经烂大街了。。。JAVA大法。。一、几大排序 1、冒泡排序 2、选择排序 3、快速排序 4、插入排序 5、希尔排序 6、堆排序 7、归并排序 8、排序算法总结二、二分查找查找第一个比K大的数：阅读全文

posted @ 2017-04-12 16:28 锅贴君的包子铺阅读(191) 评论(0) 推荐(0)

菜鸟机器学习散点总结（三）

摘要：本章主要是机器学习中关于推荐系统的一些总结的东西一、SVD SVD本意是一种数学上的矩阵分解的方法，但在推荐系统中只是借用了这个名字，还有其他各式各样的矩阵分解的方法能运用于推荐系统中，SVD只是其中之一，且和最早的数学上的SVD有一些不太一样。 1.奇异值和特征值的关系：将矩阵Σ的对角元素就称之阅读全文

posted @ 2017-04-12 15:17 锅贴君的包子铺阅读(329) 评论(0) 推荐(0)

菜鸟机器学习散点总结（二）

摘要：再次声明，总结内容基本非原创，只是一个勤劳的搬运工，由于来源比较杂，只好一起感谢网上提供这些知识的人类们。一、关于线性回归线性回归比较简单，这里主要是对线性回归的一种理解，包括部分正则化的内容。 1.模型的概率解释 2.最大似然估计即：上面是线性回归最原始的最小平方损失函数，如果为了防止过拟阅读全文

posted @ 2017-04-12 14:38 锅贴君的包子铺阅读(345) 评论(0) 推荐(1)

锅贴君的包子铺

一只菜鸟随意记录点东西的地儿....

公告