2016 年 8月随笔档案 - 天戈朱

Spark(三): 安装与配置

摘要：参见 HDP2.4安装(五)：集群及组件安装，安装配置的spark版本为1.6, 在已安装HBase、hadoop集群的基础上通过 ambari 自动安装Spark集群，基于hadoop yarn 的运行模式。目录： Spark集群安装参数配置测试验证 Spark集群安装：在ambari 阅读全文

posted @ 2016-08-31 23:49 天戈朱阅读(4989) 评论(0) 推荐(0) 编辑

Spark(二): 内存管理

摘要：Spark 作为一个以擅长内存计算为优势的计算引擎，内存管理方案是其非常重要的模块； Spark的内存可以大体归为两类：execution和storage，前者包括shuffles、joins、sorts和aggregations所需内存，后者包括cache和节点间数据传输所需内存；在Spark 1 阅读全文

posted @ 2016-08-31 23:47 天戈朱阅读(7239) 评论(0) 推荐(0) 编辑

Spark(一): 基本架构及原理

摘要：Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架，最初在2009年由加州大学伯克利分校的AMPLab开发，并于2010年成为Apache的开源项目之一，与Hadoop和Storm等其他大数据和MapReduce技术相比，Spark有如下优势： Spark提供了一个全面、统阅读全文

posted @ 2016-08-30 21:51 天戈朱阅读(69618) 评论(4) 推荐(8) 编辑

新能源汽车三大核心技术

摘要：在新能源汽车的整个平台架构中，VCU （Vehicle Control Unit 整车控制器）、MCU (Moter Control Unit 电机控制器）和 BMS （BATTERY MANAGEMENT SYSTEM 电池管理系统）是最重要的核心技术，对整车的动力性、经济性、可靠性和安全性等有着阅读全文

posted @ 2016-08-30 21:14 天戈朱阅读(9595) 评论(1) 推荐(2) 编辑

新能源汽车分类解读

摘要：在分类上，按照汽车的燃料，烧油还是用电，还是两者兼具，又或者是加氢气，基于国内主流新能源汽车品牌和相关车型区分为纯电动汽车、混合动力汽车、燃料电池汽车. （参考：http://news.china.com.cn/2015lianghui/2015-02/28/content_34913062.htm 阅读全文

posted @ 2016-08-30 06:08 天戈朱阅读(1076) 评论(0) 推荐(0) 编辑

hadoop(四):配置参数

摘要：hadoop参数配置，主要是配置 core-site.xml,hdfs-site.xml,mapred-site.xml 三个配置文件，core-site.xml是全局配置,hdfs-site.xml和mapred-site.xml分别是hdfs和mapred的局部配置，core-default.x 阅读全文

posted @ 2016-08-23 05:13 天戈朱阅读(2765) 评论(0) 推荐(0) 编辑

HDP2.4安装(六)：小结与回顾

摘要：基于Centos7安装过程中常用工具及操作技术总结回顾。操作技巧： tab键，命令自动补全 xshell 默认： Ctrl + Insert （复制） Shift + Insert (粘贴） systemctl 服务操作命令： systemctl start postfix.service 启动一阅读全文

posted @ 2016-08-21 21:09 天戈朱阅读(650) 评论(0) 推荐(0) 编辑

hadoop(三):hdfs 机架感知

摘要：client 向 Active NN 发送写请求时，NN为这些数据分配DN地址，HDFS文件块副本的放置对于系统整体的可靠性和性能有关键性影响。一个简单但非优化的副本放置策略是，把副本分别放在不同机架，甚至不同IDC，这样可以防止整个机架、甚至整个IDC崩溃带来的错误，但是这样文件写必须在多个机架之阅读全文

posted @ 2016-08-21 17:06 天戈朱阅读(2632) 评论(0) 推荐(0) 编辑

hadoop(二):hdfs HA原理及安装

摘要：早期的hadoop版本，NN是HDFS集群的单点故障点，每一个集群只有一个NN,如果这个机器或进程不可用，整个集群就无法使用。为了解决这个问题，出现了一堆针对HDFS HA的解决方案（如：Linux HA, VMware FT, shared NAS+NFS, BookKeeper, QJM/Quo 阅读全文

posted @ 2016-08-21 16:09 天戈朱阅读(16586) 评论(2) 推荐(2) 编辑

hadoop(一):深度剖析hdfs原理

摘要：在配置hbase集群将 hdfs 挂接到其它镜像盘时，有不少困惑的地方，结合以前的资料再次学习; 大数据底层技术的三大基石起源于Google在2006年之前的三篇论文GFS、Map-Reduce、 Bigtable，其中GFS、Map-Reduce技术直接支持了Apache Hadoop项目的诞生，阅读全文

posted @ 2016-08-21 11:13 天戈朱阅读(6545) 评论(2) 推荐(4) 编辑

R(八): R分词统计-老九门

摘要：分析文本内容基本的步骤：提取文本中的词语 -> 统计词语频率 -> 词频属性可视化。词频：能反映词语在文本中的重要性，一般越重要的词语，在文本中出现的次数就会越多。词云：让词语的频率属性可视化，更加直观清晰。文本下载地址（http://www.yuandn.com/booktxt/59797/#do 阅读全文

posted @ 2016-08-18 22:51 天戈朱阅读(1552) 评论(0) 推荐(0) 编辑

R(七): R开发实例-map热力图

摘要：第四章通过REmap包完成基于map分布图示例，前面提到REmap基于Echart2.0, 一方面在移动终端适应效果差，另一方面REmap提供的热力图仅支持全国及省市大版块map，基于上面的原因，参考 http://echarts.baidu.com/examples.html#chart-type 阅读全文

posted @ 2016-08-18 22:43 天戈朱阅读(4132) 评论(0) 推荐(0) 编辑

R(五): R常用函数

摘要：工作笔记记录，会持续更新.... 目录： apply tapply lapply sapply merge substr、substring、strsplit、unlist、paste、paste0、nchar table apply函数： apply：apply的中文意思是应用，这个函数的意思是通阅读全文

posted @ 2016-08-17 08:52 天戈朱阅读(870) 评论(0) 推荐(0) 编辑

R(六): RODBC 访问SqlServer

摘要：在我的实际工作中，数据来源一方面是关系型数据库MS SqlServer, 别一方面是HBase。本节主要介绍通过RODBC访问MS SqlServer 安装配置，参见资料（https://msdn.microsoft.com/en-us/library/hh568454(v=sql.110).asp 阅读全文

posted @ 2016-08-17 06:52 天戈朱阅读(2973) 评论(0) 推荐(1) 编辑

R(四): R开发实例-map分布图

摘要：前几章对R语言的运行原理、基本语法、数据类型、环境部署等基础知识作了简单介绍，本节将结合具体案例进行验证测试。案例场景：从互联网下载全国三甲医院数据，以地图作为背景，展现各医院在地图上的分布图。全国三甲医院数据来源 http://www.wxmp.cn/cms/detail-51610-23480 阅读全文

posted @ 2016-08-16 23:38 天戈朱阅读(6822) 评论(1) 推荐(0) 编辑

Hive(七):HQL DML

摘要：HQL DML 主要涉到对Hive表中数据操作，包含有：load、INSERT、DELETE、EXPORT and IMPORT，详细资料参见：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DML 目录： Loadin 阅读全文

posted @ 2016-08-16 05:11 天戈朱阅读(655) 评论(0) 推荐(0) 编辑

R(三): R包原理及安装

摘要：包（package）是多个函数的集合，常作为分享代码的基本单元，代码封装成包可以方便其他用户使用。越来越多的R包正在由世界上不同的人所创建并分发，这些分发的R包，可以从CRAN 或 github 上获取，由于向 CRAN 提交包审核非常严格，有些开发者并没有将自己开发的R包提至CRAN的意向，通过阅读全文

posted @ 2016-08-15 22:51 天戈朱阅读(4015) 评论(0) 推荐(0) 编辑

R(二): http与R脚本通讯环境安装

摘要：结合实际的工作环境，在开始R研究的时候，首先着手收集的就是能以Web方式发布R运行结果的基础框架，无耐的是，R一直以来常使用于个人电脑的客户端程序上，大家习惯性的下载R安装包，在自己的电脑上安装 --> 写算法 --> 运行 --> 以贴图或者文档的形式发表自己的作品。花了较长时间，终于找着了一套框阅读全文

posted @ 2016-08-15 05:01 天戈朱阅读(2310) 评论(0) 推荐(0) 编辑

R(一): R基础知识

摘要：R 是一门拥有统计分析及作图功能的免费软件，主要用于数学建模、统计计算、数据处理、可视化等方向。据 IEEE Spectrum发布的2016年编程语言前10位排名来看，R语言由2015年排名第6位上升级2016年的第5位。目前在CRAN 上发布的算法包已经超过8000+多个。R体系涉及到高等数据、概阅读全文

posted @ 2016-08-14 11:05 天戈朱阅读(6422) 评论(0) 推荐(0) 编辑

Hive(五):hive与hbase整合

摘要：配置 hive 与 hbase 整合的目的是利用 HQL 语法实现对 hbase 数据库的增删改查操作，基本原理就是利用两者本身对外的API接口互相进行通信，两者通信主要是依靠hive_hbase-handler.jar工具类。但请注意：使用Hive操作HBase中的表，只是提供了便捷性，前面章节阅读全文

posted @ 2016-08-13 23:39 天戈朱阅读(10400) 评论(4) 推荐(0) 编辑

Hive(六):HQL DDL

摘要：HQL语法基于 SqlLine（http://sqlline.sourceforge.net/），DDL主要包含数据库、函数、视图的创建、修改、删除，参考资料：（https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL）, 阅读全文

posted @ 2016-08-13 23:39 天戈朱阅读(1003) 评论(0) 推荐(0) 编辑

Hive(四):c#通过odbc访问hive

摘要：hive odbc 驱动配置成功后，通过c#访问就变得比较简单了，分为查询与更新操作，直接附上测试代码。在此过程中需要注意c#工程编译的目标平台读写访问代码示例： public class HiveOdbcClient { /// <summary> /// /// </summary> publ 阅读全文

posted @ 2016-08-12 00:05 天戈朱阅读(5843) 评论(0) 推荐(0) 编辑

Hive(三):SQuirrel连接hive配置

摘要：熟悉了Sqlserver的sqlserver management studio、Oracle的PL/SQL可视化数据库查询分析工具，在刚开始使用hive、phoenix等类sql组件时，一直在苦苦搜寻是否也有类似的工具，不负所望，SQuirrel Sql client 可视化数据库工具基本可满足要阅读全文

posted @ 2016-08-12 00:04 天戈朱阅读(10855) 评论(2) 推荐(0) 编辑

Hive(二):windows hive ODBC 安装

摘要：针对Windows 32位和64位的系统对应有多个版本的 Hive ODBC Connector, 在安装的过程中，版本必须完全匹配（即：32位的 connector 只能在32位的系统运行，64位的 connector 只能在 64位系统运行）参考资料： http://doc.mapr.com/ 阅读全文

posted @ 2016-08-11 22:04 天戈朱阅读(3645) 评论(1) 推荐(0) 编辑

Hive(一):架构及知识体系

摘要：Hive是一个基于Hadoop的数据仓库，最初由Facebook提供，使用HQL作为查询接口、HDFS作为存储底层、mapReduce作为执行层，设计目的是让SQL技能良好，但Java技能较弱的分析师可以查询海量数据，2008年facebook把Hive项目贡献给Apache。Hive提供了比较完整阅读全文

posted @ 2016-08-11 21:59 天戈朱阅读(9684) 评论(1) 推荐(0) 编辑

HBase(二): c#访问HBase之股票行情Demo

摘要：上一章完成了c#访问hbase的sdk封装，接下来以一个具体Demo对sdk进行测试验证。场景：每5秒抓取指定股票列表的实时价格波动行情，数据下载后，一方面实时刷新UI界面，另一方面将数据放入到在内存中模拟的MQ (实际生产情况，可用kafka等集群代替）->存入HBase数据库。提供按指定时间范围阅读全文

posted @ 2016-08-10 18:50 天戈朱阅读(3609) 评论(0) 推荐(0) 编辑

HBase(一): c#访问hbase组件开发

摘要：HDP2.4安装系列介绍了通过ambari创建hbase集群的过程，但工作中一直采用.net的技术路线，如何去访问基于Java搞的Hbase呢？ Hbase提供基于Java的本地API访问，同时扩展了通过 Thrift、Rest 实现Web访问的API。 so 决定开发基于.net的 sdk，通过其阅读全文

posted @ 2016-08-10 08:51 天戈朱阅读(8764) 评论(1) 推荐(3) 编辑

HDP2.4安装(五)：集群及组件安装

摘要：HDP(Hortonworks Data Platform)是hortworks推出的100%开源的hadoop发行版本,以YARN 作为其架构中心，包含pig、hive、phoniex、hbase、storm、spark等大量组件，在最新的2.4版本，监控UI实现与grafana集成,包含组件版本阅读全文

posted @ 2016-08-08 11:07 天戈朱阅读(7741) 评论(0) 推荐(0) 编辑

HDP2.4安装(四)：ambari安装

摘要：ambari是apache基金会的开源项目，它的优势在于巧妙溶合已有的开源软件，提供集群自动化安装、中心化管理、集群监控、报警等功能。据Hortonwork官方资料介绍，不同的HDP版本，对ambari的版本也有不同的要求（如下图，来源于hortonwork官网），在安装HDP2.4的过程中，选择的阅读全文

posted @ 2016-08-07 16:13 天戈朱阅读(2280) 评论(0) 推荐(0) 编辑

HDP2.4安装(三)：MySql安装

摘要：在安装Ambari时，Ambari默认的数据库是ProstgreSQL，对ProstgreSQL不太熟悉，选择使用MySql。但Centos 7 默认支持的是MariaDB数据库. MariaDB是MySQL的一个分支，主要由开源社区在维护。安装过程中先将Centos7默认安装的MariaDB数据阅读全文

posted @ 2016-08-06 15:10 天戈朱阅读(1434) 评论(0) 推荐(0) 编辑

HDP2.4安装(二)：Centos7配置

摘要：Centos7 Minimal Install 安装完成后是不支持上网的，并且大部分常用的软件也未安装，首先要解决的问题就是网络配置。当网络配通后，即可通过Xshell或其它工具来远程进行操作与管理，推荐工具 XShell (可在window下远程操作和控制linux主机）、winSCP(windo 阅读全文

posted @ 2016-08-06 10:38 天戈朱阅读(1358) 评论(2) 推荐(0) 编辑

HDP2.4安装(一)：Centos7安装

摘要：在进入大数据领域来，一直使用微软的Azure HDInsight，当前在中国区仅支持在Windows系统上部署集群，虽然创建的过程很简单，但对于开发人员来说，就是一个黑盒子，在更深入的研究和开发扩展的过程中，遇到了不少麻烦。因此准备在本地手工搭建自己的HDP2.4集群进行研究和学习，第一步通过VM 阅读全文

posted @ 2016-08-05 18:37 天戈朱阅读(1068) 评论(0) 推荐(0) 编辑

公告

最新随笔

随笔档案

08 2016 档案