10 2018 档案

摘要:在Linux系统中(我用的是CentOS)安装R语言,过程中会出现一些问题,比较繁琐,请参考博文: https://blog.csdn.net/alex_starsky/article/details/52717080 https://blog.csdn.net/wumiqing1/article/ 阅读全文
posted @ 2018-10-25 14:33 小呆蝎子 阅读(570) 评论(0) 推荐(0) 编辑
摘要:1、 如何将编写的应用程序提交给spark进行处理 首先,在Windows或Linux下编写程序。其次,将编写好的应用程序上传至服务器(自己定义好存放的文件目录)。最后,将程序提交给spark进行处理。如果程序没有问题,一些依赖的包已经安装,配置没有问题,那么程序即可以正常运行。 2、 在程序运行过 阅读全文
posted @ 2018-10-24 16:19 小呆蝎子 阅读(2755) 评论(0) 推荐(1) 编辑
摘要:在使用Python连接Hbase数据库时,会出现如下错误提示,主要原因是版本带来的语法兼容性问题,因此需要用Hbase.py和ttypes.py将路径D:\Program Files\ProgramData\Anaconda3\Lib\site-packages\hbase(自己的Python安装目 阅读全文
posted @ 2018-10-18 14:35 小呆蝎子 阅读(3859) 评论(0) 推荐(0) 编辑
摘要:1、 什么是Hbase? HBase是一个构建在HDFS之上的、分布式的、面向列的开源数据库,不同于一般的关系数据库,它是一个适合于非结构化海量数据存储的数据库,是由Google Bigtable的开源实现,它主要用于存储海量数据,是Hadoop生态系统中的重要一员。Hbase可以使用shell、w 阅读全文
posted @ 2018-10-17 16:40 小呆蝎子 阅读(358) 评论(0) 推荐(0) 编辑
摘要:1、 什么是Hive(蜂巢)? Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。Hive是基于HDFS之上的数据仓库,也就是说Hive中的数据最终都是以文件的形式保存到HDFS,下表为其对应关系。而Hive的元信息(e.g.,表名、列名 阅读全文
posted @ 2018-10-16 19:34 小呆蝎子 阅读(434) 评论(0) 推荐(1) 编辑
摘要:一、登录Cloudera Manager (http://192.168.201.128:7180/cmf/login)时,无法访问web页面 针对此问题网上有较多的解决方案(e.g. https://www.cnblogs.com/zlslch/p/7078119.html), 如果还不能解决你的 阅读全文
posted @ 2018-10-12 11:32 小呆蝎子 阅读(5405) 评论(0) 推荐(0) 编辑
摘要:参考博文:https://www.cnblogs.com/supiaopiao/p/7240308.html 1、首先下载并准备三个文件:hadoop-eclipse-plugin-2.7.3.jar,winutils.exe 和 hadoop.dll 2、在window中解压Hadoop,我使用的 阅读全文
posted @ 2018-10-04 21:33 小呆蝎子 阅读(5675) 评论(0) 推荐(1) 编辑