各种数学模型2,linux操作系统
通过已知类别的训练数据集,计算样本的先验概率,然后利⽤⻉叶斯
概率公式测算未知类别样本属于某个类别的后验概率
最终以最⼤后验概率所对应的类别作为样本的预测值
1.高斯贝叶斯分类器
适用于自变量为连续的数值类型的情况
2.多项式贝叶斯分类器
适用于自变量为离散型类型的情况(非数字类型)
3.伯努利贝叶斯分类器
适用于自变量为二元值的情况
超平面的概念
将样本点划分成不同的类别(三种表现形式:点、线、面)
超平面最优解
1.先随机选择一条直线
2.分别计算两边距离改直线最短的点距离 取更小的距离
3.以该距离左右两边做分隔带
4.依次直线上述三个步骤得出N多个分隔带 最优的就是分隔带最宽的
线性可分与非线性可分
线性可分:简单的理解为就是一条直线划分类别
非线性可分:一条直线无法直接划分 需要升一个维度在做划分
(核函数:高斯核函数>>>:支持无穷维)
K值的求解(K表示分成几类)
1.拐点法
计算不同K值下类别中离差平方和(看斜率 变化越明显越好)
2.轮廓系数法
计算轮廓系数(看大小 越大越好)
K均值聚类的两大缺点
1.聚类效果容易受到异常样本点的影响
2.无法准确的将非球形样本进行合理的聚类
(可以采用密度聚类解决上述两个缺点)
核心概念
核心对象:内部含有至少大于等于最少样本点的样本
非核心对象:内部少于最少样本点的样本
直接密度可达:在核心对象内部的样本点到核心对象的距离
密度可达:多个直接密度可达链接了多个核心对象(首尾点密度可达)
密度相连:两边的点由中间的核心对象分别密度可达
GBDT模型
Adaboost算法(既可以解决分类问题也可以解决预测问题)
由多颗基础决策树组成 并且这些决策树彼此之间有先后关系
SMOTE算法
通过算法将比例较少的数据样本扩大
服务器
作用:
1.可以尽量避免数据不会丢失
2.可以24小时不间断提供服务
3.可以提升用户体验
ps:运维人员的工作,本质上就是为了上述三点的实现
云主机服务器
将多台硬件服务器进行整合,根据用户的需求分配硬件资源给相应用户
物理主机服务器
机架式服务器
刀片服务器
塔式服务器
戴尔dell(常见)
华为
IBM(被联想收购更名为thinkserver)
浪潮(国内居多)
(服务器尺寸描述主要以U为单位
1U=1.75英寸=4.445CM=4.45CM
常见服务器尺寸 1U 2U 4U)
电源 主板 CPU 内存 硬盘 散热系统
工作原理
1.电源:
冗余技术:
UPS(不间断电源系统)、双路或多路供电、发电机
2.CPU: 做数据运算处理
CPU路数
单路==1个 双路==2个 四路==4个
CPU核数
把CPU比喻成厂房, 将CPU中的核数比喻成厂房中的工人, CPU核数是真正处理工作任务,CPU核数越多, 同时处理工作任务的效率越高
3.内存: 临时存储数据(断电数据即丢失)
程序 进程(存储在内存中) 守护进程
代码 运行起来的程序 根本停不下来的进程
缓存cache 缓冲buffer
内存存储空间一分为二(公交车上下车位置)
cache缓存 从缓存读数据
buffer缓冲 从缓冲写数据
企业案例:
高并发存储数据环境
存: 将数据先存储到内存 在存储到磁盘中
读: 将磁盘中的热点数据存储到内存中
低并发存储数据环境
存: 将数据先放到硬盘里
读: 将磁盘中的热点数据存储到内存中
4.硬盘: 永久存储数据(断电数据不会丢失)
硬盘种类:
机械硬盘(性能低)
固态硬盘(性能高)
硬盘接口(茶壶壶嘴):SATA< SCSI <SAS <PCI-E
服务器磁盘阵列(raid)
1.服务器上有多块硬盘保证数据不容易丢失
2.服务器上存储数据较多可以将多块硬盘进行整合
3.服务器上存储大容量数据效率更高
服务器磁盘阵列(raid) 见下图
按照不同级别进行多块硬盘整合
2块(raid0 raid1) 3块(raid5) 4块(raid01 raid10)
raid0 :存储量-没有浪费
优势:提升数据存储效率
缺点:容易丢失数据
raid1:存储量-浪费一半
优势:不容易丢失数据,数据更加安全
缺点:数据存储效率较低
raid5:(至少需要3块硬盘)存储量--损失一块盘容量
优势:安全 存储数据性能也比较高
缺点:最多只能坏一块盘
5.远程管理卡
远程控制管理服务器的运行状态
远程安装操作系统
远程配置raid阵列信息
PS:一定要确认远程管理卡的默认地址信息
6.光驱(安装系统)-- 淘汰
U盘安装系统
kickstart cobbler -- 无人值守安装系统
7.机柜
机柜里面线缆一定要布线整齐 设置标签
存储知识
什么是虚拟化?
将一台计算机硬件"拆分"成多份分配使用
如何实现虚拟化
vmware软件
vmware12 支持windows64
vmware8 支持windows32
vmware fusion 支持苹果系统
创建虚拟主机
参考详细图示即可
注意事项
内存设置
内存比较多分配 每个虚拟主机1G(建议)
内存少每个虚拟主机512m 安装系统时建议分配内存2G
配置虚拟主机
安装:
网络功能:
有监督学习与无监督学习
有监督意思就是有明确需要研究的因变量Y
无监督意思就是没有明确需要研究的因变量Y
算法
算法其实就是研究问题的解决方法
ps:算法工程师就是在研究解决某个问题的最优方法