04 2022 档案
摘要:力扣 数据结构入门 217.存在重复元素 给你一个整数数组 nums 。如果任一值在数组中出现 至少两次 ,返回 true ;如果数组中每个元素互不相同,返回 false 。 示例 1:输入:nums = [1,2,3,1] 输出:true 示例 2:输入:nums = [1,2,3,4] 输出:f
阅读全文
摘要:今天开始为前端面试做准备啦,这两天可能不会学很多,因为这周准备把大创结题报告写完,还有项目的软著申请也要写完了,拖得时间太长了。 因为之前刚刚把计算机网络看完第一遍,所以这两天准备把HTML相关面试知识看完。 今天是第一天的学习! 1、src 和 href 的区别 相同点:都是用来引用外部的资源;
阅读全文
摘要:txtFile = r'C:\Desktop\1.txt' rdd = sparkContext.textFile(txtFile) rdd.flatMap(lambda x: x.split()).map(lambda x: (x, 1)).reduceByKey(lambda x, y: x+y
阅读全文
摘要:六、对图相关的概念要理解,掌握GraphFrames的使用以及实现的经典算法。 1、图概念 在计算机科学中,图是一种重要的数据结构,它具有强大的表达能力,广泛应用于通信网络、搜索引擎、社交网络及自然语言处理等领域。 一般地,图(Graph)是由顶点的非空有限集和边的有限集构成的,记作G=<V,E>,
阅读全文
摘要:四、掌握spark streaming的工作原理、离散化流、实时数据获取(套接字和文件夹)等内容,掌握Dstream的各种转换(具体到代码的编写使用); 1、流数据 (1)流数据的概念 流数据是一组顺序、大量、快速、连续到达的数据序列,一般情况下,数据流可被视为一个随时间延续而无限增长的动态数据集合
阅读全文
摘要:五、掌握spark 在机器学习的应用,包括MLlib(简单了解)和ML(重点掌握),对机器学习的整个流程要理解,对ML的转换器、预测器和管道要理解并知道如何在实际例子中使用,掌握管道和模型保存和加载的方法,对模型的评估指标有大概的认识理解; 1、机器学习 目前机器学习主流分为:监督学习,无监督学习,
阅读全文
摘要:二、掌握spark RDD的概念、算子的作用和使用(包括创建和各种转换运算,具体到代码的编写使用),不同共享变量的作用和使用、对于RDD的依赖关系要理解,知道持久化的方法以及类型; 1、Spark RDD的概念 RDD是可扩展的弹性分布式数据集(一种容错的并行数据结构); 是只读、分区且不变的数据集
阅读全文
摘要:三、掌握对spark dataframe和spark sql的认识和使用(包括创建、各种常用操作,具体到代码的编写使用); 1、DataFrame介绍 在Spark中,Spark DataFrame和Spark SQL是SparkRDD高层次的封装,Spark DataFrame以RDD为基础,是一
阅读全文
摘要:一、对spark有总体的认识,包括生态、架构、原理和特性等; 1、Spark的概念: Spark 是一个类于 Hadoop MapReduce 的通用并行框架, 由Scala语言实现的专门为大规模数据处理而设计的快速通用的技术分析引擎。 Spark的特点:快速、通用、易用、兼容性好。 Spark具备
阅读全文
摘要:ACID特性 保证关系型数据库在事务过程中数据正确性的ACID特性,即:原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)、持久性(Durability)。 原子性:是指事务包含的所有操作要么全部成功,要么全部失败回滚。失败回滚的操作事务,将不能对事务有任何
阅读全文
摘要:1.怎么样为属性填上缺失值? (1)忽略元组 (2)人工填写缺失值 (3)使用一个全局常量填充缺失值 (4)使用属性的中心度量(如均值或中位数)填充缺失值 (5)使用与给定元组属同一类的所有样本的属性值或中位数(6)使用最可能的值填充缺失值 2.噪声数据 噪声是被测量变量的随机误差或方差 3.数据变
阅读全文
阅读目录(Content)
此页目录为空