上一页 1 ··· 5 6 7 8 9 10 11 下一页
摘要: # -*- coding:utf-8 -*- import sys from pymongo import MongoClient import pandas as pd from sqlalchemy import create_engine import MySQLdb import json reload(sys) sys.setdefaultencoding('utf-8') d... 阅读全文
posted @ 2018-07-19 09:55 因为专注。所以专业 阅读(251) 评论(1) 推荐(0) 编辑
摘要: Rstudio 爬虫 文本分词个性化词云设计 目录 目录 1、环境准备,加载依赖 2、rvest 爬虫,数据爬取 3、jiebaR用于分词,词频统计 4、wordcloud2 结果可视化 1、环境准备,加载依赖 2、数据爬取 3、数据清洗 4、词云设计 阅读全文
posted @ 2018-04-24 14:08 因为专注。所以专业 阅读(508) 评论(0) 推荐(0) 编辑
摘要: Hadoop之数据仓库Hive运行机制,常用操作,数据倾斜原因及优化详解2017-12-17 一、Hive是什么 Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制 阅读全文
posted @ 2017-12-17 16:05 因为专注。所以专业 阅读(1242) 评论(0) 推荐(0) 编辑
摘要: 基于 Eclipse 的 MapReduce 开发环境搭建 基于 Eclipse 的 MapReduce 开发环境搭建 原文连接:http://www.cnblogs.com/vincentzh/p/6055850.html 上周末本来要写这篇的,结果没想到上周末自己环境都没有搭起来,运行起来有问题 阅读全文
posted @ 2017-08-22 22:43 因为专注。所以专业 阅读(193) 评论(0) 推荐(0) 编辑
摘要: 大数据中mapreduce的核心,shuffle的理解,以及在shuffle中的优化问题 关于shuffle的过程图。 一:概述shuffle Shuffle是mapreduce的核心,链接map与reduce的中间过程。 Mapp负责过滤分发,而reduce则是归并整理,从mapp输出到reduc 阅读全文
posted @ 2017-08-22 22:32 因为专注。所以专业 阅读(1128) 评论(0) 推荐(0) 编辑
摘要: HDFS中高可用性HA的讲解 HDFS Using QJM HA使用的是分布式的日志管理方式 一:概述 1.背景 如果namenode出现问题,整个HDFS集群将不能使用。 是不是可以有两个namenode呢 一个为对外服务->active 一个处于待机->standby 他们的之间共享的元数据交 阅读全文
posted @ 2017-08-22 22:30 因为专注。所以专业 阅读(1019) 评论(0) 推荐(0) 编辑
摘要: 关于HIVE的配置 一:安装配置hive 1.检测hadoop 2.解压hive 3.修改环境 sudo vi /etc/profile 4.source以下 5.复制hive-env.sh 6.编辑hive-env.sh 7.在HDFS上创建文件夹并修改写权限 8.验证hive的安装 二:操作hi 阅读全文
posted @ 2017-08-22 22:27 因为专注。所以专业 阅读(168) 评论(0) 推荐(0) 编辑
摘要: sqoop的使用 sqoop的使用 一:导入 mysql--》hdfs 1.准备 2.导入数据 可以看到在跑yarn。 3.在HDFS上看结果 默认的地址:hdfs的家目录。 4.在HDFS上指定目录 5.指定map的个数,相同目录时,先删除原来的目录 6.查看结果 7.指定分隔符 默认是‘,’,在 阅读全文
posted @ 2017-08-22 22:25 因为专注。所以专业 阅读(259) 评论(0) 推荐(0) 编辑
摘要: Flume协作框架 Flume协作框架 1.概述 -》flume的三大功能 collecting, aggregating, and moving 收集 聚合 移动 2.框图 3.架构特点 -》on streaming data flows 基于流式的数据 数据流:job-》不断获取数据 任务流:j 阅读全文
posted @ 2017-08-22 22:23 因为专注。所以专业 阅读(139) 评论(0) 推荐(0) 编辑
摘要: Oozie协作框架 一:概述 1.大数据协作框架 2.Hadoop的任务调度 3.Oozie的三大功能 Oozie Workflow jobs Oozie Coordinator jobs Oozie Bundle 4.Oozie的架构 控制流节点 起始,分支,并发,汇合,结束 动作节点action 阅读全文
posted @ 2017-08-22 22:21 因为专注。所以专业 阅读(225) 评论(0) 推荐(0) 编辑
上一页 1 ··· 5 6 7 8 9 10 11 下一页