大数据学习笔记 - 随笔分类 - 沙漏哟

Mongodb配置

摘要：2.4 内建角色 Read：允许用户读取指定数据库 readWrite：允许用户读写指定数据库 dbAdmin：允许用户在指定数据库中执行管理函数，如索引创建、删除，查看统计或访问system.profile userAdmin：允许用户向system.users集合写入，可以找指定数据库里创建、删阅读全文

posted @ 2019-12-17 20:57 沙漏哟阅读(181) 评论(0) 推荐(0)

Hadoop家族学习路线图

摘要：1. Hadoop家族学习路线图阅读全文

posted @ 2017-09-22 00:55 沙漏哟阅读(193) 评论(0) 推荐(0)

《OD学spark》20161022

摘要：一、Spark Core 1. 什么是Spark Shuffle Wide Dependencies *ByKey： groupByKey,reduceByKey 关联操作：join，cogroup 窄依赖：父RDD的每个分区的数据，仅仅只会给子RDD的一个分区。 Spark性能优化：开发优化：阅读全文

posted @ 2016-10-22 12:12 沙漏哟阅读(213) 评论(0) 推荐(0)

《OD学spark》20160925 Spark Core

摘要：一、引言 Spark内存计算框架中国Spark技术峰会十二场演讲大数据改变世界，Spark改变大数据大数据：以Hadoop 2.x为主的生态系统框架（MapReduce并行计算框架）存储数据、处理数据分布式 Spark：类似于MapReduce的另外一种分布式计算框架核心：数据结阅读全文

posted @ 2016-09-25 14:53 沙漏哟阅读(239) 评论(0) 推荐(0)

《OD学spark》20160924scala基础

摘要：拓展： Hadoop 3.0 NameNode HA NameNode是Active NameNode是Standby可以有多个 HBase Cluster 单节点故障？ HBaster -> BackMaster HRegionServer WEBUI 60010 Spark 课程安排分为两个部分阅读全文

posted @ 2016-09-25 09:37 沙漏哟阅读(324) 评论(0) 推荐(0)

《OD学hadoop》20160910某旅游网项目实战

摘要：一、event事件分析叶子节点只计算一次父节点的触发次数由子节点的数量节点事件流：是由业务人员定义的一系列的具有前后顺序的事件构成的用户操作行为，至少包括两个事件以上。目标：以事件流为单位，分析事件流中各个事件的触发次数事件流特征： 1.事件流中每一个事件都会存在一个来源/父事件计算方式阅读全文

posted @ 2016-09-10 09:54 沙漏哟阅读(215) 评论(0) 推荐(0)

《OD学hadoop》20160904某旅游网项目实战

摘要：一、ETL操作抽取数据日志格式：分割符号：^A IP地址服务器时间二、Java工程 1. 创建项目 copy代码及配置文件 2. 改配置 core-site.xml hbase-site.xml 3. 代码描述 common包：常量(字段常量) dimension包：自定义key valu 阅读全文

posted @ 2016-09-04 10:50 沙漏哟阅读(185) 评论(0) 推荐(0)

《OD学hadoop》20160903某旅游网项目实战

摘要：一、大数据的落地点 1.数据出售数据商城：以卖数据为公司的核心业务 2. 数据分析百度统计友盟 GA IBM analysis 3.搜索引擎 4. 推荐系统 mahout 百分比 5.精准营销（1）广告投入：网站所有者集成广告联盟的js->访问者访问页面->js发送用户数据->广告联盟发送一阅读全文

posted @ 2016-09-03 14:18 沙漏哟阅读(373) 评论(0) 推荐(0)

《OD学storm》20160828

摘要：一、Storm项目 1. 架构 javasdk -> nginx -> 日志文件 -> flume agent(collector) -> hdfs -> kafka -> storm -> hbased kafka吞吐量达，可以被不同的消费者重复消费 2. 项目需求电商用户提交订单并且成功支付阅读全文

posted @ 2016-08-28 12:52 沙漏哟阅读(187) 评论(0) 推荐(0)

《OD学storm》20160827

摘要：http://www.cnblogs.com/lujinhong2/p/4686512.html http://blog.csdn.net/paul_wei2008/article/details/20830329 http://shiyanjun.cn/archives/1472.html 一、t 阅读全文

posted @ 2016-08-27 14:49 沙漏哟阅读(234) 评论(0) 推荐(0)

《OD学HBase》20160821

摘要：一、HBase性能调优 1. JVM内存调优 MemStore内存空间，设置合理大小 memstore.flush.size 刷写大小 134217728 = 128M memstore.mslab.enabled preclose.flush.size JVM堆内存初生代内存空间：数据停留时间较阅读全文

posted @ 2016-08-21 09:23 沙漏哟阅读(212) 评论(0) 推荐(0)

《OD学HBase》20160820

摘要：一、案例微博：微博内容：关注用户和粉丝用户：添加或移除关注用户查看关注用户的微博内容微博数据存储：响应时间秒级无延迟（1）mysql分布式（2）hbase数据库使用HBase数据库实现微博系统数据的存储表的设计：命名空间：weibo 1. 微博内容表 TableName：阅读全文

posted @ 2016-08-20 12:54 沙漏哟阅读(230) 评论(0) 推荐(0)

《OD学HBase》20160814

摘要：一、HBase引入 http://hbase.apache.org/ 大数据的数据库 1. 概述 Hadoop生态系统中的一个分布式、可拓展、面向列、可伸缩，具有自动容错功能的数据库。 NoSQL数据库 BigTable：一种分布式海量结构化数据存储系统 HBase基于google论文实现的开源数据阅读全文

posted @ 2016-08-14 09:25 沙漏哟阅读(217) 评论(0) 推荐(0)

《OD学oozie》20160813

摘要：一、日志收集项目案例 1. oozie中依赖jar包在工作目录下创建lib目录，上传依赖包的lib目录下 2. 作业将日志收集与处理项目案例使用oozie的workflow执行 3. coordinator 在workflow基础上添加了一个coordinator.xml coordinator 阅读全文

posted @ 2016-08-13 09:31 沙漏哟阅读(260) 评论(0) 推荐(0)

《OD学Oozie》20160807Oozie

摘要：一、引入 MapReduce Job Hive 脚本任务同一个业务：先后、定时调度工作流：定义工作流程 activity jbpm oozie：大数据工作流定义与调度框架专门定义与调度MapReduce Job工作流程拓展：shell、hive、sqoop、hdfs oozie演变过程：阅读全文

posted @ 2016-08-07 11:21 沙漏哟阅读(215) 评论(0) 推荐(0)

《OD学Flume》20160806Flume和Kafka

摘要：一、Flume http://flume.apache.org/FlumeUserGuide.html Flume是一个分布式的，可靠的，可用的，非常有效率的对大数据量的日志数据进行收集、聚集、移动信息的服务。 1. 架构方式 1）所有应用使用一台flume服务器； 2）所有应用共享flume集群；阅读全文

posted @ 2016-08-06 10:08 沙漏哟阅读(227) 评论(0) 推荐(0)

《OD学hive》第六周20160731

摘要：一、hive的压缩 1. hadoop的压缩 1）为什么需要压缩 MapReduce的性能瓶颈：网络IO、磁盘IO 数据量：对于MapReduce的优化，最主要、根本就是要能够减少数据量 Combiner：减少跨网络传输的数据量压缩：将数据量减少，但是需要消耗CPU计算功能 2）哪些地方可以压缩阅读全文

posted @ 2016-07-31 09:43 沙漏哟阅读(254) 评论(0) 推荐(0)

《OD学Hive》第六周20160730

摘要：一、Hive的JDBC连接日志分析结果数据，存储在hive中 hive.server2.thrift.bind.host 如果需要远程连接，则改成主机名beifeng-hadoop-02,或者0.0.0.2（表示任何主机都可以连接） hiveserver2进程的启动:nohup hiveserve 阅读全文

posted @ 2016-07-30 09:08 沙漏哟阅读(264) 评论(0) 推荐(0)

《OD学Sqoop》数据转换工具Sqoop

摘要：一、第二阶段课程回顾 hadoop 2.x HDFS YARN MapReduce Zookeeper Hive 二、大数据协作框架对日志类型的海量数据进行分析 hdfs mapreduce/hive 1. 数据来源（1）RDBMS（Oracle、MySQL、DB2...） -> sqoop（阅读全文

posted @ 2016-07-19 13:33 沙漏哟阅读(338) 评论(0) 推荐(0)

《OD学hive》第五周0723

摘要：https://cwiki.apache.org/confluence/display/Hive/LanguageManual 一、创建表二、函数 show functions; describe function extended upper; select id, upper(name) fr 阅读全文

posted @ 2016-07-18 13:37 沙漏哟阅读(171) 评论(0) 推荐(0)

沙漏哟计算机的未来在于联结

哲学 + 社会学 ==> 计算机技术（计算机是人造科学）经济学 + 心理学 + 大数据 ==> 互联网产品经理（产品设计是社会科学）

随笔分类 - 大数据学习笔记

公告

沙漏哟 计算机的未来在于联结

哲学 + 社会学 ==> 计算机技术（计算机是人造科学） 经济学 + 心理学 + 大数据 ==> 互联网产品经理（产品设计是社会科学）

随笔分类 - 大数据学习笔记

公告

沙漏哟计算机的未来在于联结

哲学 + 社会学 ==> 计算机技术（计算机是人造科学）经济学 + 心理学 + 大数据 ==> 互联网产品经理（产品设计是社会科学）