摘要: 转投CSDN:http://blog.csdn.net/u011239443 阅读全文
posted @ 2016-06-08 12:19 小爷 阅读(205) 评论(0) 推荐(0) 编辑
摘要: 翻译自《Getting Started with Impala》 分布式查询 分布式查询是impala的核心。曾几何时,你需要研究并行计算,才能开始进行深奥而晦涩的操作。现在,有运行在Hadoop上面的Impala,你只需要...一台笔记本电脑。理想情况下,一个IT部门也会有运行着Cloudera 阅读全文
posted @ 2016-05-16 19:34 小爷 阅读(1986) 评论(0) 推荐(0) 编辑
摘要: 主框架图 见:http://r.photo.store.qq.com/psb?/V12VvuOZ2vxbmG/M2gzPWfnBLS8buBT*16Y2xm9QkAAp8TmePOlIPC1MlM!/r/dFMAAAAAAAAA 1.1 生成库——词频库、词语索引库 流程: 项目包: 1.1.1 生 阅读全文
posted @ 2016-03-06 09:13 小爷 阅读(1451) 评论(1) 推荐(1) 编辑
摘要: 1 #include 2 #include 3 #include 4 #include 5 #include 6 #include 7 using namespace std; 8 #define LEN 128 9 typedef struct task_que 10 { 11... 阅读全文
posted @ 2015-02-07 14:48 小爷 阅读(385) 评论(3) 推荐(0) 编辑
摘要: 时间限制 400 ms 内存限制 32000 kB 代码长度限制 16000 B 判题程序 Standard 作者 CHEN, Yue 时间限制 400 ms 时间限制 400 ms 内存限制 32000 kB 内存限制 32000 kB 代码长度限制 16000 B 代码长度限制 16000 B 阅读全文
posted @ 2016-06-09 21:26 小爷 阅读(235) 评论(0) 推荐(0) 编辑
摘要: 一. 最小二乘法建立模型 关于最小二乘法矩阵分解,我们可以参阅: 一、矩阵分解模型。 用户对物品的打分行为可以表示成一个评分矩阵A(m*n),表示m个用户对n各物品的打分情况。如下图所示: 其中,A(i,j)表示用户user i对物品item j的打分。但是,ALS 的核心就是下面这个假设:的打分矩 阅读全文
posted @ 2016-06-08 14:50 小爷 阅读(11808) 评论(3) 推荐(2) 编辑
摘要: 使用SGD算法逻辑回归的垃圾邮件分类器 maven打包scala程序 所需要的依赖包配置是: 所需要的依赖包配置是: 配置的时候要注意spark 和 scala 的版本,可以打开spark-shell 观察: 配置完成后,在pom.xml 所在的目录运行命令: 如果mvn 下载 有问题,可以参考这篇 阅读全文
posted @ 2016-06-03 14:29 小爷 阅读(7861) 评论(0) 推荐(0) 编辑
摘要: 最新版的Impala时候关闭的时候无法关闭 Catalog Server和StateStore后台进程,导致错误如下: 解决方法,各个节点 lsof -i :25010 ,kill -9 PID 阅读全文
posted @ 2016-05-31 20:01 小爷 阅读(2282) 评论(0) 推荐(0) 编辑
摘要: com.esotericsoftware.kryo.KryoException: java.lang.NullPointerExceptionSerialization trace:underlying (org.apache.spark.util.BoundedPriorityQueue) at 阅读全文
posted @ 2016-05-24 10:55 小爷 阅读(1663) 评论(0) 推荐(0) 编辑
摘要: 1、写单例模式( C++ java Python) class Singleton { public: static Singleton &Instance(){ //1 if( !m_pInstatnce){ //2 Lock(m_mutex) //3 If( !m_pInstance ) //4 阅读全文
posted @ 2016-04-19 16:12 小爷 阅读(542) 评论(0) 推荐(0) 编辑
摘要: 1、代码量是多少,你负责哪一块,工作量占%几,改进了什么 2、c++ 和 c 的 区别 3、list 和 vector 的 适用条件 4、hash_map 和 map 的 区别 , 使用hash_map 的 参数, 需要注意什么。 5、看过哪些书 (后来直接问《effective C++》) 阅读全文
posted @ 2016-04-19 16:10 小爷 阅读(446) 评论(0) 推荐(0) 编辑
摘要: 1、为什么要网页查重 ,怎么查重2、软 硬cache是指什么 3、多线程编程:互斥变量 和 条件变量 函数怎么写4、网络编程: epoll干什么的,有什么功能 5、网络编程:select 和 epoll 的区别 6、网络编程:阻塞 非阻塞 区别7、socket 多路复用是干什么的8、客户端 conn 阅读全文
posted @ 2016-04-19 16:08 小爷 阅读(2783) 评论(0) 推荐(0) 编辑