随笔分类 -  大二暑假大数据

摘要:今天在使用sqoop将hive数据库到如MySQL时遇到了这个问题并解决。 解决办法:使用了8.x版本的MySQL连接驱动。 之后遇到了内存不足问题,更改内存后,顺利完成。 阅读全文
posted @ 2024-09-05 23:59 a_true 阅读(92) 评论(0) 推荐(0) 编辑
摘要:1、爬虫爬取相应的数据。 2、爬取后进行数据清洗,可使用MapReduce,也可使用csv文件。 3、在虚拟机创建好数据库,表,使用hive或beeline创建。 4、导出到本地MySQL数据库,进行数据分析。 阅读全文
posted @ 2024-09-03 21:36 a_true 阅读(10) 评论(0) 推荐(0) 编辑
摘要:最后两个星期完成一个完整的可视化项目,成品展示: 阅读全文
posted @ 2024-08-26 21:07 a_true 阅读(15) 评论(0) 推荐(0) 编辑
摘要:效果图展示: 源码: <template> <div> <!-- Header 部分 --> <div class="heads"> <h3>大数据可视化分析</h3> <span>2023-12-12 12:20:45</span> </div> <!-- 中间部分 --> <div class= 阅读全文
posted @ 2024-08-23 23:05 a_true 阅读(251) 评论(0) 推荐(0) 编辑
摘要:1、navicat远程连接Hive数据库 1、打开navicat里的mysql连接 2、使用SSH隧道 出现上面这个显示连接就是成功 3、设置常规连接 显示成功后点击确定,navicat远程连接Hive数据库成功 阅读全文
posted @ 2024-08-14 19:58 a_true 阅读(23) 评论(0) 推荐(0) 编辑
摘要:HDFS 概述:向磁盘中写入数据的时间一般是读取时间的3倍。HDFS以流处理访问模式来存储文件的,一次写入,多次读取。磁盘存储文件时,是按照数据块来进行存储的,数据块是磁盘读写的最小单位。构建与的那个磁盘上的文件系统是通过磁盘块来管理文件系统,文件系统块的大小一般是磁盘块的整数倍。磁盘块的大小一般是 阅读全文
posted @ 2024-08-09 10:20 a_true 阅读(9) 评论(0) 推荐(0) 编辑
摘要:Word Count Word Count 就是"词语统计",这是 MapReduce 工作程序中最经典的一种。它的主要任务是对一个文本文件中的词语作归纳统计,统计出每个出现过的词语一共出现的次数。 Hadoop 中包含了许多经典的 MapReduce 示例程序,其中就包含 Word Count。 阅读全文
posted @ 2024-07-27 23:14 a_true 阅读(15) 评论(0) 推荐(0) 编辑
摘要:经常在修改了hive配置,或者服务重启后,就出现了这样的错误,数据库不能读取,不能写入。 这时重启一下idea就好了。 阅读全文
posted @ 2024-07-22 21:22 a_true 阅读(20) 评论(0) 推荐(0) 编辑
摘要:试了好几次,基本上所有服务都是启动失败,试过重启,网上也没有相关问题。 这些全是红色,启动失败 打开日志后发现了很多问题: 2024-07-18 09:50:26,791 - Retrying after 10 seconds. Reason: Execution of '/usr/hdp/curr 阅读全文
posted @ 2024-07-18 10:03 a_true 阅读(58) 评论(0) 推荐(0) 编辑
摘要:第一周,基于Ambari搭建了大数据分析平台,根据教程创建了三台Linux虚拟机。根据教程一点一点做,发现了很多问题,通过网上搜索资料解决了以后,顺利地搭建起了该平台,发现这块东西真的很难,主要是很抽象,不像之前学的搭建一个网站,写一款安卓软件,现在大数据这个东西看不见摸不着,而且我也没有Linux 阅读全文
posted @ 2024-07-13 21:45 a_true 阅读(4) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示