上一页 1 2 3 4 5 6 7 8 9 10 ··· 17 下一页
摘要: 操作符 说明 实例 . 表示任何单个字符 [] 字符集,对单个字符给出取值范围 [abc]表示a、b、c,[a-z]表示a到z单个字符 [^ ] 非字符集,对单个字符给出排除范围 [^abc]表示非a或b或c的单个字符 * 前一个字符0次或无限次扩展 abc*表示 ab、abc、abcc、abccc 阅读全文
posted @ 2021-03-10 21:20 silvan_happy 阅读(165) 评论(0) 推荐(0) 编辑
摘要: 来自北理嵩老师的案例,之前嵩老师的网址我没办法访问,新的网址爬虫不成功,所以改了一下。import requestsfrom bs4 import BeautifulSoupimport bs4#通过URL信息从网页爬取数据def getHTMLText(url): try: r = request 阅读全文
posted @ 2021-03-10 20:38 silvan_happy 阅读(384) 评论(0) 推荐(0) 编辑
摘要: hadoop启动后一切正常,执行mr任务时卡住 如图: 开启hadoop详细日志会有如下情况(不会开启的跳过),一直在连接: 通过查看日志发现提示如下错误: 2016-03-15 15:51:01,740 ERROR org.apache.hadoop.yarn.server.resourceman 阅读全文
posted @ 2020-09-24 17:11 silvan_happy 阅读(1692) 评论(0) 推荐(0) 编辑
摘要: 实验目的 基本的select操作 基于分区的查询 Join查询 硬件环境要求 实验环境 PC机至少4G内存,硬盘至少预留50G空间。 软件要求 已安装并启动Hadoop 已安装并启动Hive 实验要求 应用基本的Select 操作 应用基于分区的查询 应用Join进行查询 实验步骤 第7章 Hive 阅读全文
posted @ 2020-02-08 09:33 silvan_happy 阅读(601) 评论(0) 推荐(0) 编辑
摘要: 实验目的 理解LOAD DATA语句:向数据表内加载文件 理解INSERT语句:将查询结果插入数据表或者覆盖数据表 硬件环境要求 实验环境 PC机至少4G内存,硬盘至少预留50G空间。 软件要求 已安装并启动Hadoop 已安装并启动Hive 实验要求 应用LOAD DATA语句向数据表内加载文件 阅读全文
posted @ 2020-02-08 09:29 silvan_happy 阅读(334) 评论(0) 推荐(0) 编辑
摘要: 实验目的 掌握应用HiveQL创建数据库 掌握应用HiveQL创建表 掌握应用HiveQL创建视图 硬件环境要求 实验环境 PC机至少4G内存,硬盘至少预留50G空间。 软件要求 已安装并启动Hadoop 已安装并启动Hive 实验要求 应用HiveQL创建数据库 应用HiveQL创建表 应用Hiv 阅读全文
posted @ 2020-02-08 09:27 silvan_happy 阅读(389) 评论(0) 推荐(0) 编辑
摘要: 实验一 Hive的安装部署 实验目的 实验环境 PC机至少4G内存,硬盘至少预留50G空间。 l 安装部署好Hadoop,本次实验演示是基于3个节点的Hadoop集群,主节点主机名为Hadoop00,两个从节点主机名为Hadoop01和Hadoop02。 l 安装好mysql数据库 实验要求 实验步 阅读全文
posted @ 2019-12-27 14:16 silvan_happy 阅读(432) 评论(0) 推荐(0) 编辑
摘要: 启动spooling源时报错: 原因:spooling配置文件有误 a1.sources.r1.type = spooldir a1.sources.r1.spooldir = /usr/local/flume/test 改成 a1.sources.r1.type = spooldir a1.sou 阅读全文
posted @ 2018-11-29 13:07 silvan_happy 阅读(1029) 评论(0) 推荐(0) 编辑
摘要: Flume安装部署 Flume的安装(非常简单) 上传安装包到数据源所在节点上,实际上不是数据源节点也是可以的,只要运行Flume的这台机器与数据源节点的这台机器能够通过某种协议进行通信即可。 然后解压tar –zxvf apache-flume-1.8.0-bin.tar.gz,并修改(mv)文件 阅读全文
posted @ 2018-09-26 08:09 silvan_happy 阅读(3280) 评论(0) 推荐(0) 编辑
摘要: 1 Apache Flume 1.1 概述 Flume是Cloudera提供的一个高可用,高可靠的,分布式的海量日志采集、聚合和传输的软件。 Flume的核心是把数据从数据源(source)收集过来,再将收集到的数据送到指定的目的地(sink)。为了保证输送的过程一定成功,在送到目的地(sink)之 阅读全文
posted @ 2018-09-26 08:03 silvan_happy 阅读(1492) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 10 ··· 17 下一页