01 2021 档案
摘要:引言 通过学习RDD,并了解和掌握RDD的转换算子和行动算子。现在对所有能实现wordCount的功能的算子总结一下。 正文 用了8个方法来实现wordCount。通过对比,发现有些方法类似。运行结果读者自行验证 代码 package com.xiao.spark.core.wc import or
阅读全文
摘要:数据准备: agent.log:时间戳,省份,城市,用户,广告,中间字段使用空格分隔。 数据截图: 需求描述: 统计出每一个省份每个广告被点击数量排行的 Top3 需求分析: 1、拆分数据,将每条数据转化为 > ((省份,广告),1) 2、对相同的key进行累加求和 3、重新拆分数据,将数据由((省
阅读全文
摘要:引言 本文主要讲一些双value类型的函数,主要用于两个RDD的操作 正文 intersection 函数签名:def intersection(other: RDD[T]): RDD[T] 函数说明:对源 RDD 和参数 RDD 求交集后返回一个新的 RDD 解释:必须要求两个RDD的数据类型相同
阅读全文
摘要:引言 接上一篇博客 正文 sample 函数签名:def sample(withReplacement: Boolean,fraction: Double,seed: Long = Utils.random.nextLong): RDD[T] 函数说明:根据指定的规则从数据集中抽取数据 案例:随机抽
阅读全文
摘要:引言 RDD 根据数据处理方式的不同将算子整体上分为 Value 类型、双 Value 类型和 Key-Value类型,本文主要讲一些Value 类型 正文 资源路径和资源内容 map ###函数签名:def map[U: ClassTag](f: T ⇒ U): RDD[U] ###函数说明:将处
阅读全文
摘要:项目源码: https://github.com/yx1300/kaoqing/ 1、项目需求: 企业员工考勤管理系统是一个企业单位信息化建设不可缺少的部分。考勤管理系统是针对某公司对该公司职工的考勤、查询、信息录入、核查、统计分析等功能为一体的应用软件,为用户提供充足的信息和快捷的查询手段。 2.
阅读全文
摘要:引言 案例背景 泰坦尼克号沉没是历史上最臭名昭着的沉船之一。1912年4月15日,在她的处女航中,泰坦尼克号在与冰山相撞后沉没,在2224名乘客和机组人员中造成1502人死亡。这场耸人听闻的悲剧震惊了国际社会,并为船舶制定了更好的安全规定。 造成海难失事的原因之一是乘客和机组人员没有足够的救生艇。尽
阅读全文
摘要:文件路径 代码一 package com.xiao.spark.core.wc import org.apache.spark.{SparkConf, SparkContext} object Spark01_WoldCount { def main(args: Array[String]): Un
阅读全文
摘要:分类评估方法 精确率与召回率 混淆矩阵:在分类任务下,预测结果(Predicted Condition)与正确标记(True Condition)之间存在四种不同的组合,构成混淆矩阵(适用于多分类)。如下图 精确率(Precision)与召回率(Recall) 精确率:预测结果为正例样本中真实为正例
阅读全文
摘要:引言 假如现存在一个房屋价格和一些数据的关系,真实关系是:真实房子价格 = 0.02×中心区域的距离 + 0.04×城市一氧化氮浓度 + (-0.12×自住房平均房价) + 0.254×城镇犯罪率 那么现在呢,我们随意指定一个关系(猜测)随机指定关系:预测房子价格 = 0.25×中心区域的距离 +
阅读全文
摘要:什么是交叉验证(cross validation) 交叉验证:将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成4份,其中一份作为验证集。然后经过4次(组)的测试,每次都更换不同的验证集。即得到4组模型的结果,取平均值作为最终结果。又称4折交叉验证。 为了让从训练得到模型结果更加准确,但是并
阅读全文
摘要:引言 什么是特征预处理 特征预处理定义 scikit-learn的解释 provides several common utility functions and transformer classes to change raw feature vectors into a representat
阅读全文
摘要:需求 现在我们有一组从2006年到2016年1000部最流行的电影数据 数据来源:https://www.kaggle.com/damianpanek/sunday-eda/data 问题1:我们想知道这些电影数据中评分的平均分,导演的人数等信息,我们应该怎么获取? 问题2:对于这一组电影数据,如果
阅读全文
摘要:石家庄铁道大学选课管理系统 项目地址 1、项目需求: 本项目所开发的学生选课系统完成学校对学生的选课信息的统计与管理,减少数据漏掉的情况,同时也节约人力、物力和财力。告别以往的人工统计。 2.系统要求与功能设计 2.1 页面要求 (1)能够在Tomcat服务器中正确部署,并通过浏览器查看; (2)网
阅读全文
摘要:##引言 ###1、什么是MyBatis-Plus ####MyBatis-Plus(简称 MP)是一个 MyBatis 的增强工具,在 MyBatis 的基础上只做增强不做改变,为简化开发、提高效率而生。 ####mybatis plus 官网 建议安装 MybatisX 插件 ###2、整合My
阅读全文
摘要:##引言 ###由于本节代码比较简单,就不上代码了,一切以截图为准 ###学习目标 了解Numpy运算速度上的优势 应用numpy的基本操作 ###开发工具 python3.8 jupyter notebook ##1、numpy的介绍 ###Numpy(Numerical Python)是一个开源
阅读全文
摘要:#学习目标 ##目标 了解什么是matplotlib 为什么要学习matplotlib matplotlib简单图形的绘制 ##1、什么是matplotlib matplotlib是专门用于开发2D图表(包括3D图表) 以渐进、交互式方式实现数据可视化 ##2、matplotlib作用 可视化是在整
阅读全文
摘要:##引言 ###web开发中,文件上传是必不可少的。在springboot开发中,文件上传很是简单,sb为我们写好了文件上传工具MultipartFile。即用MultipartFile来接收文件,只需几行代码即可实现 ##内容 ###文件上传有单文件和多文件,多文件是在单文件的基础上添加multi
阅读全文
摘要:##引言 ###在做后台管理系统时,要进入功能页需要判断一下用户是否登录,此时就体现出拦截器的作用了。 ###springBoot实现拦截器主要有三步: 编写一个拦截器实现HandlerInterceptor接口,并实现preHandle拦截方法 将拦截器注册到容器中(实现WebMvcConfigu
阅读全文