07 2019 档案

摘要:Apache Spark的高性能一定程度上取决于它采用的异步并发模型(这里指server/driver 端采用的模型),这与Hadoop 2.0(包括YARN和MapReduce)是一致的。Hadoop 2.0自己实现了类似Actor的异步并发模型,实现方式是epoll+状态机,而Apache Sp 阅读全文
posted @ 2019-07-30 20:48 _XiongH 阅读(442) 评论(1) 推荐(0) 编辑
摘要:ETL的考虑 做数据仓库系统,ETL是关键的一环。说大了,ETL是数据整合解决方案,说小了,就是导数据的工具。回忆一下工作这么些年来,处理数据迁移、转换的工作倒 还真的不少。但是那些工作基本上是一次性工作或者很小数据量,使用access、DTS或是自己编个小程序搞定。可是在数据仓库系统中,ETL上升 阅读全文
posted @ 2019-07-30 20:30 _XiongH 阅读(308) 评论(0) 推荐(1) 编辑
摘要:阅读目录 前言 数据库的"分家" 操作型数据库 VS 分析型数据库 数据仓库(data warehouse)定义 数据仓库组件 数据集市(data mart) 数据仓库开发流程 小结 阅读目录 前言 数据库的"分家" 操作型数据库 VS 分析型数据库 数据仓库(data warehouse)定义 数 阅读全文
posted @ 2019-07-29 19:34 _XiongH 阅读(442) 评论(0) 推荐(0) 编辑
摘要:观点一: 简言之:这两个差别很大,使用场景区别也很大。 先说flume: 日志采集。线上数据一般主要是落地文件或者通过socket传输给另外一个系统。这种情况下,你很难推动线上应用或服务去修改接口,直接向kafka里写数据。这时候你可能就需要flume这样的系统帮你去做传输。 对于数量级别,做过单机 阅读全文
posted @ 2019-07-28 14:15 _XiongH 阅读(762) 评论(0) 推荐(0) 编辑
摘要:概述 Apache Sqoop(SQL-to-Hadoop) 项目旨在协助 RDBMS 与 Hadoop 之间进行高效的大数据交流。用户可以在 Sqoop 的帮助下,轻松地把关系型数据库的数据导入到 Hadoop 与其相关的系统 (如HBase和Hive)中;同时也可以把数据从 Hadoop 系统里 阅读全文
posted @ 2019-07-28 14:08 _XiongH 阅读(289) 评论(0) 推荐(0) 编辑
摘要:Hbase HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文《Bigtable》一个结构化数据的分布式存储系统" 非关系型数据库和关系型数据库 传统关系型数据库的缺陷 1)高并发读写的瓶颈 2)可扩展性的限制 3)事务一致性的负面影响 4)复杂 阅读全文
posted @ 2019-07-28 14:03 _XiongH 阅读(457) 评论(0) 推荐(0) 编辑
摘要:概述 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。 主要作用:实时读取服务器本地磁盘数据,将数据写入HDFS; 优点: Flume使用两个独立的事务分别负责从soucrce到channel,以及从channel到 阅读全文
posted @ 2019-07-28 14:00 _XiongH 阅读(579) 评论(0) 推荐(1) 编辑
摘要:1. kafka介绍 1.1. 主要功能 根据官网的介绍,ApacheKafka®是一个分布式流媒体平台,它主要有3种功能: 1:It lets you publish and subscribe to streams of records.发布和订阅消息流,这个功能类似于消息队列,这也是kafka 阅读全文
posted @ 2019-07-27 21:36 _XiongH 阅读(212) 评论(0) 推荐(0) 编辑
摘要:1、分布式协调技术 在介绍ZooKeeper之前先介绍一种技术——分布式协调技术。什么是分布式协调技术?其实分布式协调技术主要用来解决分布式环境当中多个进程之间的同步控制,让他们有序的去访问某种临界资源,防止造成"脏数据"的后果。有人可能会说这个简单,写一个调度算法就轻松解决了。说这句话的人,可能对 阅读全文
posted @ 2019-07-27 20:56 _XiongH 阅读(201) 评论(0) 推荐(0) 编辑
摘要:1 堆内和堆外内存规划 Spark执行器(Executor)的内存管理建立在 JVM 的内存管理之上,Spark 对 JVM 的空间(OnHeap+Off-heap)进行了更为详细的分配,以充分利用内存。同时,Spark 引入了Off-heap 内存模式,使之可以直接在工作节点的系统内存中开辟空间, 阅读全文
posted @ 2019-07-24 20:34 _XiongH 阅读(9085) 评论(0) 推荐(0) 编辑
摘要:1、什么是数据仓库 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。 2、数据仓库的特点 阅读全文
posted @ 2019-07-18 19:43 _XiongH 阅读(1564) 评论(0) 推荐(0) 编辑
摘要:在开发python代码过程中,如果代码中有中文注释时,比如: 就会报如下错错误: 解决办法很简单,就是在代码最开始部分增加:# coding=gbk 即可: 阅读全文
posted @ 2019-07-17 19:40 _XiongH 阅读(6628) 评论(0) 推荐(0) 编辑
摘要:今天在看Python书籍的时候,有段代码中用到了 yield 关键字,不知道作什么用,不甚理解。查了些资料,觉得 yield 挺好用的,给大家分享下: 在Python3中任何使用到 yield 的函数称为生成器,如: 另外一种说法:生成器就是一个返回迭代器的函数,与普通函数的区别是生成器包含yiel 阅读全文
posted @ 2019-07-17 19:35 _XiongH 阅读(1960) 评论(0) 推荐(1) 编辑
摘要:基于用户统计学的推荐 基于用户统计学的推荐机制(Demographic-based Recommendation)是一种最易于实现的推荐方法,它只是简单的根据系统用户的基本信息发现用户的相关程度,然后将相似用户喜爱的其他物品推荐给当前用户,图1给出了这种推荐的工作原理。 (图1) 从图中可以很清楚的 阅读全文
posted @ 2019-07-13 15:56 _XiongH 阅读(2529) 评论(0) 推荐(3) 编辑
摘要:一,并行度 如果并行度设置的不足,那么就会导致集群浪费。Spark自动会根据文件的大小,是否可分割等因素来设置map的数目(后面会详细讲解输入格式,同时详细讲解各种输入的map数的决定)。对于分布式reduce操作,例如groupbykey和reducebykey,默认它使用的是分区数最大的父RDD 阅读全文
posted @ 2019-07-09 12:38 _XiongH 阅读(280) 评论(0) 推荐(0) 编辑
摘要:Anaconda3在运行引入numpy模块时,报错:“import numpy ImportError: DLL load failed:找不到指定的模块”解决方案 从Traceback中可以看出问题在于numpy包,卸载重装后依旧有问题。 添加以下Path环境变量后,问题得到解决。 C:\Prog 阅读全文
posted @ 2019-07-08 20:41 _XiongH 阅读(11164) 评论(0) 推荐(0) 编辑
摘要:大数据整体技术框架 大数据技术框架简单入门知识。所有大数据项目都是遵循这套流程。 阅读全文
posted @ 2019-07-07 16:29 _XiongH 阅读(569) 评论(0) 推荐(0) 编辑
摘要:eclipse安装目录:D:\Program Files\IDE\eclipse 插件目录:D:\Program Files\IDE\eclipse\third-plug\PyDev (一般包含:features与plugins文件夹) 在eclipse的安装目录下新建links 文件夹,在link 阅读全文
posted @ 2019-07-07 11:44 _XiongH 阅读(261) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示