合集-大数据
摘要:前情提要:飞物作者屡次四级考试未能通过,进而恼羞成怒,制作了基于Hadoop实现的对历年四级单词的词频分析项目,希望督促自己尽快通过四级(然而并没有什么卵用) 项目需求:Pycharm、IDEA、Linux、Hadoop运行环境、Hive、beeline、八爪鱼采集器 数据来源:https://zh
阅读全文
摘要:在学习Hadoop工具中的Flume时,有的小伙伴会遇到这句话: “Flume要想将数据输出到HDFS,必须持有Hadoop相关jar包” 然后小伙伴就懵逼了,这些包要去什么地方来找呢? (远在天边,近在眼前) 首先,我们需要的包有 commons-configuration-1.6.jar、 ha
阅读全文
摘要:目录选择单选多选判断填空简答 选择 单选 查看HDFS系统版本的Shell命令,以下正确的是()。 hdfs -ver hdfs version (答案) dfsadmin version hadoop -ver 数据存储单位从小到大排列顺序是() TB、PB、EB、ZB、YB (答案) TB、YB
阅读全文
摘要:写了一些使用sparksql以及spark机器学习来进行数据分析的东西,希望能给大家做一些参考 项目需求:对某大型商超客户采购数据集进行数据分析 数据来源:https://www.heywhale.com/mw/dataset/656069b19a74cc18269207c4/content 首先使
阅读全文
摘要:在用键值对RDD进行操作时,经常会遇到不知道如何筛选出想要数据的情况,这里提供了一些解决方法 目录1、对固定的Key数据进行查询2、对不固定的Key数据进行模糊查询 1、对固定的Key数据进行查询 代码说明: SparkConf:配置 Spark 应用程序的一些基本信息。 SparkContext:
阅读全文
摘要:题目内容: 对学生选课成绩进行分析计算 题目要求: (1)该系总共有多少学生; (2)该系共开设来多少门课程; (3)每个学生的总成绩多少; (4)每门课程选修的同学人数; (5)每位同学选修的课程门数; (6)该系DataBase课程共有多少人选修; (7)每位同学平均成绩; 数据预览: 每行数据
阅读全文
摘要:需求:编写程序利用Spark Streaming 监控HDFS 目录/input目录下的文件,并对上传的文件进行词频统计。 首先,linux中需要有netcat,来实现监听功能,有的linux会自带这个软件,可以用下面的命令测试一下,如果不报错就没问题,Ctrl+z可以退出 nc -l 9999 没
阅读全文
摘要:目录单选多选 单选 网络中很多数据是以图的形式呈现的,比如社交网络、交通事故,现场证据采集等,为了解决大型图的分布式计算问题,最适合采用以下哪种计算框架: Spark Core Storm Pregel (答案) Dremel Hadoop的生态系统组件之一Sqoop的功能是? 负责集群资源调度管理
阅读全文
摘要:目录单项选择题不定项选择题判断题 单项选择题 以下描述中正确的是( )。 (传统)商务智能主要关注的是对“过去时间”的“解释性研究” (答案) 数据科学的主要处理对象以结构化数据为主 数据科学主要关注的是对“未来时间”的“诊断性研究” (传统)商务智能的主要处理对象以非结构化数据为主 与传统科学不同
阅读全文
摘要:ALS(Alternating Least Squares)是一种广泛使用的推荐系统算法,特别用于协同过滤(Collaborative Filtering)任务。在 Apache Spark 中,ALS 被实现为 org.apache.spark.ml.recommendation.ALS 类,适用
阅读全文
摘要:这篇博客中,选取openjudge网站上“百练”小组中的用户答题数据,作为材料进行教学 目录爬取主页面内容主页面内容提取需求数据爬取数据处理数据分析 网站地址:http://bailian.openjudge.cn/ 使用到的Python包:requests、pandas、re、BeautifulS
阅读全文