上一页 1 2 3 4 5 6 ··· 38 下一页
摘要: 三、利用HiveSql语句离线分析信件内容数据 基础概述 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduc 阅读全文
posted @ 2023-05-11 11:54 萧贾jzm 阅读(56) 评论(0) 推荐(0) 编辑
摘要: 四、利用Sqoop导出Hive分析数据到MySQL库 Sqoop概述 Sqoop是一款开源的工具,主要用于在Hadoop生态系统(Hadoop、Hive等)与传统的数据库(MySQL、Oracle等)间进行数据的传递,可以将一个关系型数据库中的数据导入到Hadoop的HDFS中,也可以将HDFS的数 阅读全文
posted @ 2023-05-11 11:54 萧贾jzm 阅读(1272) 评论(0) 推荐(0) 编辑
摘要: 二、编写MapReduce程序清洗信件内容数据 数据清洗概述 数据清洗是对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。 数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等 阅读全文
posted @ 2023-05-05 10:40 萧贾jzm 阅读(144) 评论(0) 推荐(0) 编辑
摘要: 一、 采集北京市政百姓信件内容 什么是爬虫 网络爬虫,也叫网络蜘蛛(spider),是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。 网络搜索引擎等站点通过爬虫软件更新自身的网站内容或其对其他网站的索引。网络爬虫可以将自己所访问的页面保存下来,以便搜索引擎事后生成索引供用户搜索。 爬 阅读全文
posted @ 2023-04-28 12:41 萧贾jzm 阅读(54) 评论(0) 推荐(0) 编辑
摘要: 石家庄铁道大学2023年春季 2020 级Spark项目应用测试试卷 -电子商务大数据分析 课程名称:大数据技术与应用 任课教师:王建民 测试时间:180分钟 一、测试要求: 1、 数据采集(要求至少爬取三千条记录,要求必须有近一周的数据,时间跨度超过一星期): 要求Python 编写程序爬取京东手 阅读全文
posted @ 2023-04-26 13:02 萧贾jzm 阅读(46) 评论(0) 推荐(0) 编辑
摘要: (1)本周做了什么,花在学习上多长时间,花在代码上多长时间,花在解决问题用了多长时间。 本周主要学习了软件体系结构的相关课堂作业: 花在学习上16个小时,花在代码上10个小时,花在解决问题上6个小时。 (2)下周准备做什么? 下周开始继续学习和电子商务大数据分析 (3)本周遇到的问题? 一些程序和代 阅读全文
posted @ 2023-04-23 09:54 萧贾jzm 阅读(6) 评论(0) 推荐(0) 编辑
摘要: 石家庄铁道大学2023年春季 2020 级大数据技术与应用课堂测试 -神经网络计算过程 课程名称:大数据技术与应用 任课教师:王建民 1、通过下述模型计算出各个神经元的输入与输出 其中 X1 =1,X2 = -1,要求计算Z_1, Z_2, Z_3,并写出计算过程。 Z_1=wx+b=1 Z_2=w 阅读全文
posted @ 2023-04-20 18:16 萧贾jzm 阅读(51) 评论(0) 推荐(0) 编辑
摘要: 石家庄铁道大学2023年春季 2020 级课前测试试卷-电子商务大数据分析 课程名称:大型数据库应用技术 任课教师:王建民 测试时间:2023.3.9 测试要求: 一、测试要求: 1、 数据采集(要求至少爬取三千条记录,时间跨度超过一星期):(10分) 要求Python 编写程序爬取京东手机的评论数 阅读全文
posted @ 2023-04-19 09:48 萧贾jzm 阅读(22) 评论(0) 推荐(0) 编辑
摘要: 软件架构师的架构之道 第一节讲的是什么是架构,在文中,他首先列举了Wikepadia上的定义。然后他从早期人们为了生命的延续分工合作来解释了为什么要产生架构?——把一个整体(完成人类生存的所有工作)切分成不同的部分(分工),由不同角色来完成这些分工,并通过建立不同部分相互沟通的机制,使得这些部分能够 阅读全文
posted @ 2023-04-18 13:43 萧贾jzm 阅读(10) 评论(0) 推荐(0) 编辑
摘要: (1)本周做了什么,花在学习上多长时间,花在代码上多长时间,花在解决问题用了多长时间。 本周主要学习了软件体系结构的相关课堂作业: 花在学习上16个小时,花在代码上10个小时,花在解决问题上6个小时。 (2)下周准备做什么? 下周开始继续学习和电子商务大数据分析 (3)本周遇到的问题? 一些程序和代 阅读全文
posted @ 2023-04-16 10:05 萧贾jzm 阅读(7) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 38 下一页
//歌单id