摘要: hadoop培训课程:HBase介绍、搭建、环境、安装部署 1、搭建环境 部署节点操作系统为CentOS,防火墙和SElinux禁用,创建了一个shiyanlou用户并在系统根目录下创建/app目录,用于存放Hadoop等组件运行包。因为该目录用于安装hadoop等组件程序,用户对shiyanlou 阅读全文
posted @ 2017-11-08 15:29 daviddu 阅读(347) 评论(0) 推荐(0) 编辑
摘要: 原文出处: PeterYuan 序 Python易用,但用好却不易,其中比较头疼的就是包管理和Python不同版本的问题,特别是当你使用Windows的时候。为了解决这些问题,有不少发行版的Python,比如WinPython、Anaconda等,这些发行版将python和许多常用的package打 阅读全文
posted @ 2017-10-27 11:29 daviddu 阅读(158) 评论(0) 推荐(0) 编辑
摘要: ElasticSearch是现在技术前沿的大数据引擎,常见的组合有ES+Logstash+Kibana作为一套成熟的日志系统,其中Logstash是ETL工具,Kibana是数据分析展示平台。ES让人惊艳的是他强大的搜索相关能力和灾备策略,ES开放了一些接口供开发者研发自己的插件,ES结合中文分词的 阅读全文
posted @ 2017-10-20 15:29 daviddu 阅读(275) 评论(0) 推荐(0) 编辑
摘要: 数据处理分为三大类: 第一类是从业务的角度,细分为查询检索、数据挖掘、统计分析、深度分析,其中深度分析分为机器学习和神经网络。 第二类是从技术的角度,细分为Batch、SQL、流式处理、machine learning、Deep learning。 第三类是编程模型,细分为离线编程模型、内存编程模型 阅读全文
posted @ 2017-10-14 19:20 daviddu 阅读(1002) 评论(0) 推荐(0) 编辑
摘要: 以前也玩过spark,但这次玩,是因为spark从1.4版本后使spark sql独立出来,想必一定不赖;另外,还支持DataFrame,底层存储支持parquet,甚至orc file。 一、parquet 和 orc 对比 我专门查了查parquet 和 orc,网上很多,我只说关键的。 1、p 阅读全文
posted @ 2017-10-14 19:19 daviddu 阅读(656) 评论(0) 推荐(0) 编辑