摘要:
hadoop培训课程:HBase介绍、搭建、环境、安装部署 1、搭建环境 部署节点操作系统为CentOS,防火墙和SElinux禁用,创建了一个shiyanlou用户并在系统根目录下创建/app目录,用于存放Hadoop等组件运行包。因为该目录用于安装hadoop等组件程序,用户对shiyanlou 阅读全文
摘要:
原文出处: PeterYuan 序 Python易用,但用好却不易,其中比较头疼的就是包管理和Python不同版本的问题,特别是当你使用Windows的时候。为了解决这些问题,有不少发行版的Python,比如WinPython、Anaconda等,这些发行版将python和许多常用的package打 阅读全文
摘要:
ElasticSearch是现在技术前沿的大数据引擎,常见的组合有ES+Logstash+Kibana作为一套成熟的日志系统,其中Logstash是ETL工具,Kibana是数据分析展示平台。ES让人惊艳的是他强大的搜索相关能力和灾备策略,ES开放了一些接口供开发者研发自己的插件,ES结合中文分词的 阅读全文
摘要:
数据处理分为三大类: 第一类是从业务的角度,细分为查询检索、数据挖掘、统计分析、深度分析,其中深度分析分为机器学习和神经网络。 第二类是从技术的角度,细分为Batch、SQL、流式处理、machine learning、Deep learning。 第三类是编程模型,细分为离线编程模型、内存编程模型 阅读全文
摘要:
以前也玩过spark,但这次玩,是因为spark从1.4版本后使spark sql独立出来,想必一定不赖;另外,还支持DataFrame,底层存储支持parquet,甚至orc file。 一、parquet 和 orc 对比 我专门查了查parquet 和 orc,网上很多,我只说关键的。 1、p 阅读全文