随笔 - 368, 文章 - 0, 评论 - 56, 阅读 - 94万
  博客园  :: 首页  :: 联系 :: 管理

08 2016 档案

摘要:参见 HDP2.4安装(五):集群及组件安装 ,安装配置的spark版本为1.6, 在已安装HBase、hadoop集群的基础上通过 ambari 自动安装Spark集群,基于hadoop yarn 的运行模式。 目录: Spark集群安装 参数配置 测试验证 Spark集群安装: 在ambari 阅读全文

posted @ 2016-08-31 23:49 天戈朱 阅读(4989) 评论(0) 推荐(0) 编辑

摘要:Spark 作为一个以擅长内存计算为优势的计算引擎,内存管理方案是其非常重要的模块; Spark的内存可以大体归为两类:execution和storage,前者包括shuffles、joins、sorts和aggregations所需内存,后者包括cache和节点间数据传输所需内存;在Spark 1 阅读全文

posted @ 2016-08-31 23:47 天戈朱 阅读(7238) 评论(0) 推荐(0) 编辑

摘要:Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势: Spark提供了一个全面、统 阅读全文

posted @ 2016-08-30 21:51 天戈朱 阅读(69600) 评论(4) 推荐(8) 编辑

摘要:在新能源汽车的整个平台架构中,VCU (Vehicle Control Unit 整车控制器)、MCU (Moter Control Unit 电机控制器)和 BMS (BATTERY MANAGEMENT SYSTEM 电池管理系统)是最重要的核心技术,对整车的动力性、经济性、可靠性和安全性等有着 阅读全文

posted @ 2016-08-30 21:14 天戈朱 阅读(9592) 评论(1) 推荐(2) 编辑

摘要:在分类上,按照汽车的燃料,烧油还是用电,还是两者兼具,又或者是加氢气,基于国内主流新能源汽车品牌和相关车型区分为纯电动汽车、混合动力汽车、燃料电池汽车. (参考:http://news.china.com.cn/2015lianghui/2015-02/28/content_34913062.htm 阅读全文

posted @ 2016-08-30 06:08 天戈朱 阅读(1076) 评论(0) 推荐(0) 编辑

摘要:hadoop参数配置,主要是配置 core-site.xml,hdfs-site.xml,mapred-site.xml 三个配置文件,core-site.xml是全局配置,hdfs-site.xml和mapred-site.xml分别是hdfs和mapred的局部配置,core-default.x 阅读全文

posted @ 2016-08-23 05:13 天戈朱 阅读(2765) 评论(0) 推荐(0) 编辑

摘要:基于Centos7安装过程中常用工具及操作技术总结回顾。 操作技巧: tab键,命令自动补全 xshell 默认: Ctrl + Insert (复制) Shift + Insert (粘贴) systemctl 服务操作命令: systemctl start postfix.service 启动一 阅读全文

posted @ 2016-08-21 21:09 天戈朱 阅读(650) 评论(0) 推荐(0) 编辑

摘要:client 向 Active NN 发送写请求时,NN为这些数据分配DN地址,HDFS文件块副本的放置对于系统整体的可靠性和性能有关键性影响。一个简单但非优化的副本放置策略是,把副本分别放在不同机架,甚至不同IDC,这样可以防止整个机架、甚至整个IDC崩溃带来的错误,但是这样文件写必须在多个机架之 阅读全文

posted @ 2016-08-21 17:06 天戈朱 阅读(2632) 评论(0) 推荐(0) 编辑

摘要:早期的hadoop版本,NN是HDFS集群的单点故障点,每一个集群只有一个NN,如果这个机器或进程不可用,整个集群就无法使用。为了解决这个问题,出现了一堆针对HDFS HA的解决方案(如:Linux HA, VMware FT, shared NAS+NFS, BookKeeper, QJM/Quo 阅读全文

posted @ 2016-08-21 16:09 天戈朱 阅读(16585) 评论(2) 推荐(2) 编辑

摘要:在配置hbase集群将 hdfs 挂接到其它镜像盘时,有不少困惑的地方,结合以前的资料再次学习; 大数据底层技术的三大基石起源于Google在2006年之前的三篇论文GFS、Map-Reduce、 Bigtable,其中GFS、Map-Reduce技术直接支持了Apache Hadoop项目的诞生, 阅读全文

posted @ 2016-08-21 11:13 天戈朱 阅读(6543) 评论(2) 推荐(4) 编辑

摘要:分析文本内容基本的步骤:提取文本中的词语 -> 统计词语频率 -> 词频属性可视化。词频:能反映词语在文本中的重要性,一般越重要的词语,在文本中出现的次数就会越多。词云:让词语的频率属性可视化,更加直观清晰。文本下载地址(http://www.yuandn.com/booktxt/59797/#do 阅读全文

posted @ 2016-08-18 22:51 天戈朱 阅读(1552) 评论(0) 推荐(0) 编辑

摘要:第四章通过REmap包完成基于map分布图示例,前面提到REmap基于Echart2.0, 一方面在移动终端适应效果差,另一方面REmap提供的热力图仅支持全国及省市大版块map,基于上面的原因,参考 http://echarts.baidu.com/examples.html#chart-type 阅读全文

posted @ 2016-08-18 22:43 天戈朱 阅读(4130) 评论(0) 推荐(0) 编辑

摘要:工作笔记记录,会持续更新.... 目录: apply tapply lapply sapply merge substr、substring、strsplit、unlist、paste、paste0、nchar table apply函数: apply:apply的中文意思是应用,这个函数的意思是通 阅读全文

posted @ 2016-08-17 08:52 天戈朱 阅读(870) 评论(0) 推荐(0) 编辑

摘要:在我的实际工作中,数据来源一方面是关系型数据库MS SqlServer, 别一方面是HBase。本节主要介绍通过RODBC访问MS SqlServer 安装配置,参见资料(https://msdn.microsoft.com/en-us/library/hh568454(v=sql.110).asp 阅读全文

posted @ 2016-08-17 06:52 天戈朱 阅读(2971) 评论(0) 推荐(1) 编辑

摘要:前几章对R语言的运行原理、基本语法、数据类型、环境部署等基础知识作了简单介绍,本节将结合具体案例进行验证测试。 案例场景:从互联网下载全国三甲医院数据,以地图作为背景,展现各医院在地图上的分布图。全国三甲医院数据来源 http://www.wxmp.cn/cms/detail-51610-23480 阅读全文

posted @ 2016-08-16 23:38 天戈朱 阅读(6822) 评论(1) 推荐(0) 编辑

摘要:HQL DML 主要涉到对Hive表中数据操作,包含有:load、INSERT、DELETE、EXPORT and IMPORT,详细资料参见:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DML 目录: Loadin 阅读全文

posted @ 2016-08-16 05:11 天戈朱 阅读(654) 评论(0) 推荐(0) 编辑

摘要:包(package)是多个函数的集合,常作为分享代码的基本单元,代码封装成包可以方便其他用户使用。越来越多的R包正在由世界上不同的人所创建并分发,这些分发的R包,可以从CRAN 或 github 上获取,由于向 CRAN 提交包审核非常严格,有些开发者并没有将自己开发的R包提至CRAN的意向,通过 阅读全文

posted @ 2016-08-15 22:51 天戈朱 阅读(4014) 评论(0) 推荐(0) 编辑

摘要:结合实际的工作环境,在开始R研究的时候,首先着手收集的就是能以Web方式发布R运行结果的基础框架,无耐的是,R一直以来常使用于个人电脑的客户端程序上,大家习惯性的下载R安装包,在自己的电脑上安装 --> 写算法 --> 运行 --> 以贴图或者文档的形式发表自己的作品。花了较长时间,终于找着了一套框 阅读全文

posted @ 2016-08-15 05:01 天戈朱 阅读(2309) 评论(0) 推荐(0) 编辑

摘要:R 是一门拥有统计分析及作图功能的免费软件,主要用于数学建模、统计计算、数据处理、可视化等方向。据 IEEE Spectrum发布的2016年编程语言前10位排名来看,R语言由2015年排名第6位上升级2016年的第5位。目前在CRAN 上发布的算法包已经超过8000+多个。R体系涉及到高等数据、概 阅读全文

posted @ 2016-08-14 11:05 天戈朱 阅读(6422) 评论(0) 推荐(0) 编辑

摘要:配置 hive 与 hbase 整合的目的是利用 HQL 语法实现对 hbase 数据库的增删改查操作,基本原理就是利用两者本身对外的API接口互相进行通信,两者通信主要是依靠hive_hbase-handler.jar工具类。 但请注意:使用Hive操作HBase中的表,只是提供了便捷性,前面章节 阅读全文

posted @ 2016-08-13 23:39 天戈朱 阅读(10399) 评论(4) 推荐(0) 编辑

摘要:HQL语法基于 SqlLine(http://sqlline.sourceforge.net/),DDL主要包含数据库、函数、视图的创建、修改、删除,参考资料:(https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL), 阅读全文

posted @ 2016-08-13 23:39 天戈朱 阅读(1003) 评论(0) 推荐(0) 编辑

摘要:hive odbc 驱动配置成功后,通过c#访问就变得比较简单了,分为查询与更新操作,直接附上测试代码。在此过程中需要注意c#工程编译的目标平台 读写访问代码示例: public class HiveOdbcClient { /// <summary> /// /// </summary> publ 阅读全文

posted @ 2016-08-12 00:05 天戈朱 阅读(5842) 评论(0) 推荐(0) 编辑

摘要:熟悉了Sqlserver的sqlserver management studio、Oracle的PL/SQL可视化数据库查询分析工具,在刚开始使用hive、phoenix等类sql组件时,一直在苦苦搜寻是否也有类似的工具,不负所望,SQuirrel Sql client 可视化数据库工具基本可满足要 阅读全文

posted @ 2016-08-12 00:04 天戈朱 阅读(10855) 评论(2) 推荐(0) 编辑

摘要:针对Windows 32位和64位的系统对应有多个版本的 Hive ODBC Connector, 在安装的过程中,版本必须完全匹配(即:32位的 connector 只能在32位的系统运行,64位的 connector 只能在 64位系统运行) 参考资料: http://doc.mapr.com/ 阅读全文

posted @ 2016-08-11 22:04 天戈朱 阅读(3645) 评论(1) 推荐(0) 编辑

摘要:Hive是一个基于Hadoop的数据仓库,最初由Facebook提供,使用HQL作为查询接口、HDFS作为存储底层、mapReduce作为执行层,设计目的是让SQL技能良好,但Java技能较弱的分析师可以查询海量数据,2008年facebook把Hive项目贡献给Apache。Hive提供了比较完整 阅读全文

posted @ 2016-08-11 21:59 天戈朱 阅读(9683) 评论(1) 推荐(0) 编辑

摘要:上一章完成了c#访问hbase的sdk封装,接下来以一个具体Demo对sdk进行测试验证。场景:每5秒抓取指定股票列表的实时价格波动行情,数据下载后,一方面实时刷新UI界面,另一方面将数据放入到在内存中模拟的MQ (实际生产情况,可用kafka等集群代替)->存入HBase数据库。提供按指定时间范围 阅读全文

posted @ 2016-08-10 18:50 天戈朱 阅读(3609) 评论(0) 推荐(0) 编辑

摘要:HDP2.4安装系列介绍了通过ambari创建hbase集群的过程,但工作中一直采用.net的技术路线,如何去访问基于Java搞的Hbase呢? Hbase提供基于Java的本地API访问,同时扩展了通过 Thrift、Rest 实现Web访问的API。 so 决定开发基于.net的 sdk,通过其 阅读全文

posted @ 2016-08-10 08:51 天戈朱 阅读(8763) 评论(1) 推荐(3) 编辑

摘要:HDP(Hortonworks Data Platform)是hortworks推出的100%开源的hadoop发行版本,以YARN 作为其架构中心,包含pig、hive、phoniex、hbase、storm、spark等大量组件,在最新的2.4版本,监控UI实现与grafana集成,包含组件版本 阅读全文

posted @ 2016-08-08 11:07 天戈朱 阅读(7741) 评论(0) 推荐(0) 编辑

摘要:ambari是apache基金会的开源项目,它的优势在于巧妙溶合已有的开源软件,提供集群自动化安装、中心化管理、集群监控、报警等功能。据Hortonwork官方资料介绍,不同的HDP版本,对ambari的版本也有不同的要求(如下图,来源于hortonwork官网),在安装HDP2.4的过程中,选择的 阅读全文

posted @ 2016-08-07 16:13 天戈朱 阅读(2280) 评论(0) 推荐(0) 编辑

摘要:在安装Ambari时,Ambari默认的数据库是ProstgreSQL,对ProstgreSQL不太熟悉,选择使用MySql。 但Centos 7 默认支持的是MariaDB数据库. MariaDB是MySQL的一个分支,主要由开源社区在维护。安装过程中先将Centos7默认安装的MariaDB数据 阅读全文

posted @ 2016-08-06 15:10 天戈朱 阅读(1434) 评论(0) 推荐(0) 编辑

摘要:Centos7 Minimal Install 安装完成后是不支持上网的,并且大部分常用的软件也未安装,首先要解决的问题就是网络配置。当网络配通后,即可通过Xshell或其它工具来远程进行操作与管理,推荐工具 XShell (可在window下远程操作和控制linux主机)、winSCP(windo 阅读全文

posted @ 2016-08-06 10:38 天戈朱 阅读(1358) 评论(2) 推荐(0) 编辑

摘要:在进入大数据领域来,一直使用微软的Azure HDInsight,当前在中国区仅支持在Windows系统上部署集群,虽然创建的过程很简单,但对于开发人员来说,就是一个黑盒子,在更深入的研究和开发扩展的过程中,遇到了不少麻烦。因此准备在本地手工搭建自己的HDP2.4集群进行研究和学习, 第一步通过VM 阅读全文

posted @ 2016-08-05 18:37 天戈朱 阅读(1068) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示