上一页 1 2 3 4 5 6 7 8 ··· 11 下一页
摘要: 操作系统:windows 10 IDEA : IDEA 14.1.4 1:使用IDEA导入spark 1.5的源码,注意maven配置为自动导入 2:在maven窗口下的profiles中勾选hadoop, hive ,hive-thriftserver,yarn的选项。 3: 在maven窗口下勾 阅读全文
posted @ 2015-09-12 22:03 高兴的博客 阅读(1676) 评论(0) 推荐(0) 编辑
摘要: virtulbox复制虚拟机由于mac地址问题会导致网卡不可以用 1:修改mac地址 需要在virtualbox修改虚拟机网络选项卡下面的mac地址 2:修改ifcfg-eth0 把HWADDR的值设置为上面的值 3:删除/etc/udev/rules.d/70-persistent-net.rul 阅读全文
posted @ 2015-09-12 15:24 高兴的博客 阅读(391) 评论(0) 推荐(0) 编辑
摘要: 使用windows开发producer然后向远程的kakfa集群发送数据,但是一直卡着, 在window的hosts文件添加kafka集群的主机名和ip的映射就好了 网上搜了下,大致是producer需要获取zookeeper的位置。 阅读全文
posted @ 2015-09-11 16:48 高兴的博客 阅读(2641) 评论(0) 推荐(0) 编辑
摘要: scala目前的书籍有两《快学scala》和《scala编程》。资料确实不多,对这个语法使用只能结合使用进行理解。 先看源码: 这块代码是spark的akka日志记录代码,很具有代表性,self:Actor =>这里有两个作用 1: ActorLogReceive的实现类必须继承Actor 2: 重 阅读全文
posted @ 2015-08-29 00:10 高兴的博客 阅读(1520) 评论(0) 推荐(0) 编辑
摘要: 1:给root用户设置密码 sudo passwd root 2:修改/etc/lightdm/lightdm.conf [SeatDefaults]autologin-guest=falseautologin-user=rootautologin-user-timeout=0autologin-s 阅读全文
posted @ 2015-08-13 12:09 高兴的博客 阅读(510) 评论(0) 推荐(0) 编辑
摘要: 最近项目需要对数据做打平操作,原有的sql使用了not in,但是hive 不支持 not in,晚上搜索了下使用 left outer join 通过这个发现where条件作用在join后的结果集上,不知道关系性数据库是不是这样,有时间验证下 阅读全文
posted @ 2015-08-13 09:38 高兴的博客 阅读(1457) 评论(0) 推荐(0) 编辑
摘要: 最近使用SparkSQL做数据的打平操作,就是把多个表的数据经过关联操作导入到一个表中,这样数据查询的过程中就不需要在多个表中查询了,在数据量大的情况下,这样大大提高了查询效率。 我启动了thriftserver,然后通过beeline去连接thriftserver, 打平操作进行的很顺利,但是在执 阅读全文
posted @ 2015-08-08 23:46 高兴的博客 阅读(2242) 评论(0) 推荐(0) 编辑
摘要: Sequoiadb作为一个文档型NoSQL数据既可以存储结构化数据也可以存储非结构化数据,对于非结构化数据只能使用原生的API进行查询,对结构化数据我们可以选择使用原生的API和开源SQL引擎,目前PostgresSQL,Hive,SparkSQL都可以作为Sequoiadb的SQL引擎,应用中该如 阅读全文
posted @ 2015-08-08 23:30 高兴的博客 阅读(1099) 评论(0) 推荐(0) 编辑
摘要: 1:object的中的代码,会在object对象被调用的时候执行且只会执行一次 阅读全文
posted @ 2015-08-04 23:15 高兴的博客 阅读(560) 评论(0) 推荐(0) 编辑
摘要: 看到这里, java的jit会导致double-check的问题, 我看spark大量用这个同步快,应该没有double-check的问题吧, 阅读全文
posted @ 2015-08-04 23:09 高兴的博客 阅读(416) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 ··· 11 下一页