silvan_happy - 博客园

2021年3月10日

摘要：操作符说明实例 . 表示任何单个字符 [] 字符集，对单个字符给出取值范围 [abc]表示a、b、c，[a-z]表示a到z单个字符 [^ ] 非字符集，对单个字符给出排除范围 [^abc]表示非a或b或c的单个字符 * 前一个字符0次或无限次扩展 abc*表示 ab、abc、abcc、abccc 阅读全文

posted @ 2021-03-10 21:20 silvan_happy 阅读(165) 评论(0) 推荐(0) 编辑

python爬取大学排名

摘要：来自北理嵩老师的案例，之前嵩老师的网址我没办法访问，新的网址爬虫不成功，所以改了一下。import requestsfrom bs4 import BeautifulSoupimport bs4#通过URL信息从网页爬取数据def getHTMLText(url): try: r = request 阅读全文

posted @ 2021-03-10 20:38 silvan_happy 阅读(384) 评论(0) 推荐(0) 编辑

2020年9月24日

MapReduce执行卡在Running job不动

摘要： hadoop启动后一切正常，执行mr任务时卡住如图：开启hadoop详细日志会有如下情况（不会开启的跳过），一直在连接：通过查看日志发现提示如下错误： 2016-03-15 15:51:01,740 ERROR org.apache.hadoop.yarn.server.resourceman 阅读全文

posted @ 2020-09-24 17:11 silvan_happy 阅读(1692) 评论(0) 推荐(0) 编辑

2020年2月8日

HiveQL：数据查询

摘要：实验目的基本的select操作基于分区的查询 Join查询硬件环境要求实验环境 PC机至少4G内存，硬盘至少预留50G空间。软件要求已安装并启动Hadoop 已安装并启动Hive 实验要求应用基本的Select 操作应用基于分区的查询应用Join进行查询实验步骤第7章 Hive 阅读全文

posted @ 2020-02-08 09:33 silvan_happy 阅读(601) 评论(0) 推荐(0) 编辑

HiveQL：数据操作

摘要：实验目的理解LOAD DATA语句:向数据表内加载文件理解INSERT语句:将查询结果插入数据表或者覆盖数据表硬件环境要求实验环境 PC机至少4G内存，硬盘至少预留50G空间。软件要求已安装并启动Hadoop 已安装并启动Hive 实验要求应用LOAD DATA语句向数据表内加载文件阅读全文

posted @ 2020-02-08 09:29 silvan_happy 阅读(334) 评论(0) 推荐(0) 编辑

HiveQL：数据定义

摘要：实验目的掌握应用HiveQL创建数据库掌握应用HiveQL创建表掌握应用HiveQL创建视图硬件环境要求实验环境 PC机至少4G内存，硬盘至少预留50G空间。软件要求已安装并启动Hadoop 已安装并启动Hive 实验要求应用HiveQL创建数据库应用HiveQL创建表应用Hiv 阅读全文

posted @ 2020-02-08 09:27 silvan_happy 阅读(389) 评论(0) 推荐(0) 编辑

2019年12月27日

Hive的安装部署

摘要：实验一 Hive的安装部署实验目的实验环境 PC机至少4G内存，硬盘至少预留50G空间。 l 安装部署好Hadoop，本次实验演示是基于3个节点的Hadoop集群，主节点主机名为Hadoop00，两个从节点主机名为Hadoop01和Hadoop02。 l 安装好mysql数据库实验要求实验步阅读全文

posted @ 2019-12-27 14:16 silvan_happy 阅读(432) 评论(0) 推荐(0) 编辑

2018年11月29日

Configuration must specify a spooling directory

摘要：启动spooling源时报错：原因：spooling配置文件有误 a1.sources.r1.type = spooldir a1.sources.r1.spooldir = /usr/local/flume/test 改成 a1.sources.r1.type = spooldir a1.sou 阅读全文

posted @ 2018-11-29 13:07 silvan_happy 阅读(1029) 评论(0) 推荐(0) 编辑

2018年9月26日

Flume安装部署

摘要： Flume安装部署 Flume的安装（非常简单）上传安装包到数据源所在节点上，实际上不是数据源节点也是可以的，只要运行Flume的这台机器与数据源节点的这台机器能够通过某种协议进行通信即可。然后解压tar –zxvf apache-flume-1.8.0-bin.tar.gz，并修改（mv）文件阅读全文

posted @ 2018-09-26 08:09 silvan_happy 阅读(3280) 评论(0) 推荐(0) 编辑

Flume基本概念

摘要： 1 Apache Flume 1.1 概述 Flume是Cloudera提供的一个高可用，高可靠的，分布式的海量日志采集、聚合和传输的软件。 Flume的核心是把数据从数据源（source）收集过来，再将收集到的数据送到指定的目的地（sink）。为了保证输送的过程一定成功，在送到目的地（sink）之阅读全文

posted @ 2018-09-26 08:03 silvan_happy 阅读(1492) 评论(0) 推荐(0) 编辑

zhouyeqin

公告