各种数学模型2,linux操作系统

贝叶斯模型

通过已知类别的训练数据集,计算样本的先验概率,然后利⽤⻉叶斯

概率公式测算未知类别样本属于某个类别的后验概率

最终以最⼤后验概率所对应的类别作为样本的预测值

1.高斯贝叶斯分类器

  适用于自变量为连续的数值类型的情况

2.多项式贝叶斯分类器

  适用于自变量为离散型类型的情况(非数字类型)

 

 

 

 

3.伯努利贝叶斯分类器

  适用于自变量为二元值的情况

 

 

 

 

 

SVM模型

超平面的概念

  将样本点划分成不同的类别(三种表现形式:点、线、面)

超平面最优解

1.先随机选择一条直线

2.分别计算两边距离改直线最短的点距离 取更小的距离

3.以该距离左右两边做分隔带

4.依次直线上述三个步骤得出N多个分隔带 最优的就是分隔带最宽的

线性可分与非线性可分

  线性可分:简单的理解为就是一条直线划分类别

  非线性可分:一条直线无法直接划分 需要升一个维度在做划分

  (核函数:高斯核函数>>>:支持无穷维)

K均值聚类

K值的求解(K表示分成几类)

  1.拐点法

    计算不同K值下类别中离差平方和(看斜率 变化越明显越好)

  2.轮廓系数法

    计算轮廓系数(看大小 越大越好)

DBSCAN(密度)聚类

K均值聚类的两大缺点

  1.聚类效果容易受到异常样本点的影响

  2.无法准确的将非球形样本进行合理的聚类

  (可以采用密度聚类解决上述两个缺点)

核心概念

  核心对象:内部含有至少大于等于最少样本点的样本

  非核心对象:内部少于最少样本点的样本

  直接密度可达:在核心对象内部的样本点到核心对象的距离

  密度可达:多个直接密度可达链接了多个核心对象(首尾点密度可达)

  密度相连:两边的点由中间的核心对象分别密度可达

GBDT模型

Adaboost算法(既可以解决分类问题也可以解决预测问题)

  由多颗基础决策树组成 并且这些决策树彼此之间有先后关系

 

 

SMOTE算法

  通过算法将比例较少的数据样本扩大

电脑的种类

台式机

笔记本

服务器

  作用:

    1.可以尽量避免数据不会丢失

    2.可以24小时不间断提供服务

    3.可以提升用户体验

    ps:运维人员的工作,本质上就是为了上述三点的实现

服务器的种类

云主机服务器

  将多台硬件服务器进行整合,根据用户的需求分配硬件资源给相应用户

物理主机服务器

  机架式服务器

  刀片服务器

  塔式服务器

服务器的品牌

戴尔dell(常见)

华为

IBM(被联想收购更名为thinkserver)

浪潮(国内居多)

(服务器尺寸描述主要以U为单位

  1U=1.75英寸=4.445CM=4.45CM

  常见服务器尺寸 1U 2U 4U)

服务器内部组成

电源  主板 CPU 内存 硬盘 散热系统

工作原理

  1.电源:

    冗余技术: 

      UPS(不间断电源系统)、双路或多路供电、发电机

  2.CPU: 做数据运算处理

    CPU路数

      单路==1个   双路==2个  四路==4个

    CPU核数

      把CPU比喻成厂房, 将CPU中的核数比喻成厂房中的工人, CPU核数是真正处理工作任务,CPU核数越多, 同时处理工作任务的效率越高

  3.内存: 临时存储数据(断电数据即丢失)

    程序       进程(存储在内存中)        守护进程

    代码       运行起来的程序            根本停不下来的进程

 

    缓存cache  缓冲buffer

    内存存储空间一分为二(公交车上下车位置)

      cache缓存   从缓存读数据

      buffer缓冲  从缓冲写数据

  企业案例:

    高并发存储数据环境

      存: 将数据先存储到内存 在存储到磁盘中

      读: 将磁盘中的热点数据存储到内存中

    低并发存储数据环境

      存: 将数据先放到硬盘里

      读: 将磁盘中的热点数据存储到内存中

  4.硬盘: 永久存储数据(断电数据不会丢失)

    硬盘种类:

      机械硬盘(性能低)

      固态硬盘(性能高)

    硬盘接口(茶壶壶嘴):SATA< SCSI <SAS <PCI-E

    服务器磁盘阵列(raid)

      1.服务器上有多块硬盘保证数据不容易丢失

      2.服务器上存储数据较多可以将多块硬盘进行整合

      3.服务器上存储大容量数据效率更高

    服务器磁盘阵列(raid)  见下图

      按照不同级别进行多块硬盘整合

    2块(raid0 raid1) 3块(raid5) 4块(raid01 raid10)

    raid0 :存储量-没有浪费

      优势:提升数据存储效率

      缺点:容易丢失数据

    raid1:存储量-浪费一半

      优势:不容易丢失数据,数据更加安全

      缺点:数据存储效率较低

    raid5:(至少需要3块硬盘)存储量--损失一块盘容量

      优势:安全 存储数据性能也比较高

      缺点:最多只能坏一块盘

  5.远程管理卡

    远程控制管理服务器的运行状态

    远程安装操作系统

    远程配置raid阵列信息

      PS:一定要确认远程管理卡的默认地址信息

  6.光驱(安装系统)-- 淘汰

    U盘安装系统

    kickstart cobbler -- 无人值守安装系统

  7.机柜

    机柜里面线缆一定要布线整齐 设置标签

虚拟化

存储知识

  什么是虚拟化?

  将一台计算机硬件"拆分"成多份分配使用

如何实现虚拟化

  vmware软件

  vmware12  支持windows64

  vmware8   支持windows32

  vmware fusion  支持苹果系统

创建虚拟主机

  参考详细图示即可

  注意事项

    内存设置

    内存比较多分配 每个虚拟主机1G(建议)

    内存少每个虚拟主机512m 安装系统时建议分配内存2G

  配置虚拟主机

安装:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 网络功能:

 

 

 

补充知识

有监督学习与无监督学习

  有监督意思就是有明确需要研究的因变量Y

  无监督意思就是没有明确需要研究的因变量Y

算法

  算法其实就是研究问题的解决方法

  ps:算法工程师就是在研究解决某个问题的最优方法

 

posted @ 2021-10-25 22:37  雾雨黑白  阅读(116)  评论(0编辑  收藏  举报