摘要:
“2013,给自己的评分是不及格;2014,总算是步入正轨;2015年,努力让自己心安理得;2016年,不能说不努力,但感觉遇到了一些瓶颈;2017,完成了诸多人生大事,成了家买了房,算是重要的承前启后的一年;2018与2019 精彩但是密度过高的两年;2020在魔幻的一年中继续成长;2021是在跌 阅读全文
摘要:
“2013,给自己的评分是不及格;2014,总算是步入正轨;2015年,努力让自己心安理得;2016年,不能说不努力,但感觉遇到了一些瓶颈;2017,完成了诸多人生大事,成了家买了房,算是重要的承前启后的一年;2018与2019 精彩但是密度过高的两年;2020在魔幻的一年中继续成长。” 2021是 阅读全文
摘要:
“2013,给自己的评分是不及格;2014,总算是步入正轨;2015年,努力让自己心安理得;2016年,不能说不努力,但感觉遇到了一些瓶颈。” 2017,完成了诸多人生大事,成了家买了房,算是重要的承前启后的一年吧。 17年可以说是大事不断,5月换工作,7月硕士毕业,9月上女朋友家门,10月父母来上 阅读全文
摘要:
“2013,给自己的评分是不及格;2014,总算是步入正轨;2015年,努力让自己心安理得。”2016年,不能说不努力,但感觉遇到了一些瓶颈,希望是承前启后的一年吧。 往年的年终总结都只写工作,今年开始把工作和生活都记录一下,然后以复盘和展望的形式结束一年开始新的一年吧。 虎扑体育App团队 15年 阅读全文
摘要:
Spark的ml包提供了非常好用的调参功能,通过ParamGridBuilder构建待选参数(如:logistic regression的regParam),然后数据量小的时候可以用CrossValidator进行交叉验证,数据量大的时候可以直接用trainValidationSplit,这样Spa 阅读全文
摘要:
为了MLib,最近是铁了心要学好Spark。关注本博客的朋友应该知道我的主力语言是R,无论是训练模型还是做Elasticsearch,都是通过R脚本来操作的。之前的《通过 Spark R 操作 Hive》这篇博文中我对通过R来操作Spark还存在幻想,实际使用之后基本放弃了这种想法,因为目前的Spa 阅读全文
摘要:
初识Spark真的存在很多疑问:Spark需要部署在集群里的每个节点上吗?Spark怎么有这么多依赖,这些依赖分别又有什么用?官网里边demo是用sbt构建的,难道还有再学一下sbt吗? ……就是这么多的问题令人对使用Spark望而生畏,最近总算认真刷了一下官方文档,在这篇blog里汇总整理一下这些 阅读全文
摘要:
作为数据工程师,我日常用的主力语言是R,HiveQL,Java与Scala。R是非常适合做数据清洗的脚本语言,并且有非常好用的服务端IDE——RStudio Server;而用户日志主要储存在hive中,因此用HiveQL写job也是日常工作之一;当然R的执行效率确实不靠谱,因此还需要Java(El 阅读全文
摘要:
最近的工作主要围绕文本分类,当前的解决方案是用R语言清洗数据,用tm包生成bag of words,用libsvm与liblinear训练模型。这个方案可以hold住6/70万的训练集: LIBLINEAR is efficient for large-scale document classifi 阅读全文
摘要:
Java真的很重很复杂,连项目构建和编译都得专门拉出来学,这里整理一下在OS X上使用Maven的注意事项。 一、安装 [bash] 1.从http://maven.apache.org/download.cgi下载二进制文件,如: apache-maven-3.3.9-bin.zip 2.将文件解 阅读全文