01 2021 档案
摘要:特征值分解 设A是n阶方阵,如果有常数λ和n维非零列向量α的关系式,Aα = λα 成立,则称 λ 为方阵A的特征值,非零向量 α 称为方阵A的对应于特征值λ的特征向量。 什么是降维? 主成分分析: 主成分分析(Principal Component Analysis, PCA),1901年由Kar
阅读全文
摘要:数学知识:凸函数与Jensen不等式 什么是聚类?“物以类聚人以群分” 应用举例:客户分群 K-Means 模型 模型求解 固定c,优化r 固定r,优化c K-Means算法流程 高斯混合模型 GMM 的求解 EM 算法
阅读全文
摘要:模型误差的来源 非线性模型 深度学习 模型集成 为什么能提高效果 增强模型的表达能力 降低误差 假设单个分类器误差p,分类器之间独立,T个分类器采用投票进行预测,得到集成模型H 集成分类器误差为 T = 5,p = 0.1时,e(H) =< 0.01 决策树:把问题问到点子上 决策树:空间的方块划分
阅读全文
摘要:1. 数学知识回顾:点到平面距离、梯度下降法、最大似然估计 点到平面的距离: 梯度下降法: 随机梯度下降法 最大似然估计: 什么是分类: 如何做分类: 感知机、支持向量机和逻辑回归 训练集的矩阵表示 2. 感知机 感知机的优化目标 感知机算法: 3. 支持向量机 间隔最大化 样本损失函数 优化目标
阅读全文
摘要:矩阵的逆 NumPy 矩阵求逆函数 numpy.linalg 模块包含线性代数的函数,可计算逆矩阵、求特征值、解线性方程组以及求解行列式等 行列式:np.linalg.det(A) 计算逆矩阵:np.linalg.inv(A) import numpy as np # 格式化numpy输出 np.s
阅读全文
摘要:《架构设计之CAP定理》,原文链接:https://mp.weixin.qq.com/s/BtHPlZOvy8HNK1TuOrDxLA。 关于CAP定理,之前在数据库课程的学习中曾听老师讲过CAP定理的一些知识。在这篇文章中,作者主要讲的是CAP在分布式结构中的 应用。现在稍微有点规模的互联网项目就
阅读全文
摘要:大数据指数据采集,数据清洗,数据分析和数据应用的整个流程中理论,技术和方法,即上述公式的整个流程 机器学习是大数据分析的核心内容,解决的是找到关联X和Y的模型F,从Data到X的步骤通常是人工完成(特征工程) 深度学习是机器学习的一部分,核心是自动找到对特定任务有效的特征,即自动完成Data到X的转
阅读全文
摘要:1 spark streaming 1.1 Spark Streaming 介绍 批量计算 流计算 1.2 Spark Streaming 入门 Netcat 的使用 项目实例 目标:使用 Spark Streaming 程序和 Socket server 进行交互, 从 Server 处获取实时传
阅读全文
摘要:1 spark SQL基本操作 将下列 JSON 格式数据复制到 Linux 系统中,并保存命名为 employee.json。 { "id":1 , "name":" Ella" , "age":36 } { "id":2, "name":"Bob","age":29 } { "id":3 , "
阅读全文
摘要:1 聚合 1.1 使用 functions 进行聚合 import org.apache.spark.sql.functions._ val groupedDF: RelationalGroupedDataset = pmDF.groupBy('year) groupedDF.agg(avg('pm
阅读全文
摘要:1 Dataset(DataFrame)的基础操作 1.1 有类型操作 分类算子解释 转换 flatMap 通过 flatMap 可以将一条数据转为一个数组, 后再展开这个数组放入 Dataset import spark.implicits._ val ds = Seq("hello world"
阅读全文
摘要:1 数据读写 1.1 DataFrameReader 组件解释 schema 结构信息, 因为 Dataset 是有结构的, 所以在读取数据的时候, 就需要有 Schema 信息, 有可能是从外部数据源获取的, 也有可能是指定的 option 连接外部数据源的参数, 例如 JDBC 的 URL, 或
阅读全文
摘要:在阅读完上篇架构设计的分解篇之后,今天又阅读完《架构设计思维-集成》,原文地址:https://mp.weixin.qq.com/s/f1ZlEpvbnox_re14ceCgFQ。 分解的目的是加速开发和降低问题的复杂度,但是如果分解后的内容无法集成在一起,那么分解的存在则是没有意义的。分解+集成联
阅读全文
摘要:1 spark SQL 1.1 发展过程 1.2 解决的问题 Spark SQL 使用 Hive 解析 SQL 生成 AST 语法树, 将其后的逻辑计划生成, 优化, 物理计划都自己完成, 而不依赖 Hive 执行计划和优化交给优化器 Catalyst 内建了一套简单的 SQL 解析器, 可以不使用
阅读全文
摘要:综合案例 1 综合案例 1.0 文件排序 解法: 1.读取数据 2.数据清洗,变换数据格式 3.从新分区成一个分区 4.按照key排序,返还带有位次的元组 5.输出 @Test def filesort(): Unit ={ val source=sc.textFile("dataset/files
阅读全文
摘要:问题如下: 问题的原因: umi插件版本与umi的版本有冲突,现在直接使用命令安装umi的话,系统都会默认给你安装最新版umi3,而umi3已经对原来的插件进行了更新,所以如果你的umi是最新版的,就要参考官方文档最新版的配置方式,不能一味地使用原来的配置,否则会一直报错。 解决办法: 需要先执行
阅读全文
摘要:在idea的控制台输入umi dev 在网页中输入网址http://localhost:8000之后 问题如下,当我刷新页面后,没有结果 生成的index.js,改了之后是这样的 @T // 通过@符号进行引用该方法,类似java中的注释 class User{ constructor(name,
阅读全文
摘要:转自:https://blog.csdn.net/speedme/article/details/22398395 Set,List,Map的区别 java集合的主要分为三种类型: Set(集) List(列表) Map(映射) 要深入理解集合首先要了解下我们熟悉的数组: 数组是大小固定的,并且同一
阅读全文
摘要:Scala 编程 1. Scala 编程 1.1 计算级数 请用脚本的方式编程计算并输出下列级数的前 n 项之和 Sn,直到 Sn 刚好大于或等于 q为止,其中 q 为大于 0 的整数,其值通过键盘输入。 例如,若 q 的值为 50.0,则输出应为:Sn=50.416695。请将源文件保存为exer
阅读全文
摘要:实战测试 1 spark-shell 交互式编程 题目:该数据集包含了某大学计算机系的成绩,数据格式如下所示: Tom,DataBase,80 Tom,Algorithm,50 Tom,DataStructure,60 Jim,DataBase,90 Jim,Algorithm,60 Jim,Dat
阅读全文
摘要:今天看了云时代架构一篇名为《设计架构思维-分解》的文章,在此写一下自己的感受 原文地址: https://mp.weixin.qq.com/s/Rr9U8S8cLSfm186BHjtVLg 文章开篇首先说了一下好高骛远和高瞻远瞩之间的关系与区别,感觉作者说的很有道理,不仅是在架构师中,可能在平时的做
阅读全文
摘要:spark core学习2 1 Action算子 Action function 解释 reduce((T,T)=>U) 对整个结果集规约, 最终生成一条数据, 是整个数据集的汇总 count() 返回元素个数 collect() 以数组形式返回数据集中所有元素 first() 返回第一个元素 ta
阅读全文
摘要:spark core学习 1 RDD为什么会出现? MapReduce 执行迭代计算任务 多个 MapReduce 任务之间没有基于内存的数据共享方式, 只能通过磁盘来进行共享,这种方式明显比较低效 RDD执行迭代计算任务 在 Spark 中, 最终 Job3 从逻辑上的计算过程是: Job3 =
阅读全文
摘要:JDK的下载与安装 首先,百度直接搜索JDK,然后打开Oracle的jdk下载网页。(如果你比较懒 ,下方为链接) http://www.oracle.com/technetwork/java/javase/downloads/index.html 接下来别忘记选择接受协议,然后打开系统设置面板检查
阅读全文
摘要:RDD学习 1 RDD概念 1.1 定义 RDD(Resilient Distributed Datasets), 是一个容错的, 并行的数据结构, 可以让用户显式地将数据存储到磁盘和内存中, 并能控制数据的分区. 同时, RDD 还提供了一组丰富的操作来操作这些数据. 在这些操作中, 诸如 map
阅读全文
摘要:spark环境搭建 1 下载并上传 官网下载:下载 Spark 安装包, 下载时候选择对应的 Hadoop 版本,然后上传到虚拟机上 2 解压并拷贝 # 解压 Spark 安装包 tar xzvf spark-2.2.0-bin-hadoop2.7.tgz # 移动 Spark 安装包 mv spa
阅读全文