摘要:
PCA方法及其应用 主成分分析(PCA) 主成分分析(Principal Component Analysis, PCA)是最常用的一种降维方法,通常用于高维数据集的探索与可视化,还可以用作数据压缩和预处理等。 PCA可以把具有相关性的高维变量合成为线性无关的低维变量,称为主成分。主成分能够尽可能保 阅读全文
摘要:
DBSCAN方法及应用 DBSCAN密度聚类 DBSCAN算法是一种基于密度的聚类算法: 聚类的时候不需要预先指定簇的个数 最终的簇的个数不定 DBSCAN算法将数据点分为三类: 核心点:在半径Eps内含有超过MinPts数目的点。 边界点:在半径Eps内点的数量小于MinPts,但是落在核心点的邻 阅读全文
摘要:
K-means方法及应用 K-means聚类算法 k-means算法以k为参数,把n个对象分成k个簇,使簇内具有较高的相似度,而簇间的相似度较低。 随机选择k个点作为初始的聚类中心。 对于剩下的点,根据其与聚类中心的距离,将其归人最近的簇。 对每个簇,计算所有点的均值作为新的聚类中心。 重复2、3直 阅读全文
摘要:
无监督学习的目标 利用无标签的数据学习数据的分布或数据与数据之间的关系被称作无监督学习。 有监督学习和无监督学习的最大区别在于数据是否有标签 无监督学习最常应用的场景是聚类(clustering)和降维(Dimension Reduction) 聚类(clustering ) 聚类,就是根据数据的“ 阅读全文
摘要:
Sklearn库标准数据集和基本功能 数据集总览 注:小数据集可以直接使用,大数据集要在调用时程序自动下载(一次即可)。 波士顿房价数据集 boston 波士顿房价数据集包含506组数据,每条数据包含房屋以及房屋周围的详细信息。其中包括城镇犯罪率、一氧化氮浓度、住宅平均房间数、到中心区域的加权距离以 阅读全文
摘要:
Sklearn库的安装 sklearn是scikit-learn的简称,是一个基于Python的第三方模块。sklearn库集成了一些常用的机器学习方法,在进行机器学习任务时,并不需要实现算法,只需要简单的调用sklearn库中提供的模块就能完成大多数的机器学习任务。 sklearn库是在Numpy 阅读全文
摘要:
机器学习的目标 机器学习是实现人工智能的手段,其主要研究内容是如何利用数据或经验进行学习,改善具体算法的性能。多领域交叉,涉及概率论、统计学,算法复杂度理论等多门学科。 广泛应用于网络搜索、垃圾邮件过滤、推荐系统、广告投放、信用评价、欺诈检测、股票交易和医疗诊断等应用。 机器学习分类 监督学习(Su 阅读全文
摘要:
包机制 为了更好的组织类,Java提供了包机制,用于区别类名的命名空间 包语句的语法格式为 package pkg1[ .pkg2 [pkg3.....] ]; 一般利用公司域名倒置作为包名 为了能够使用某一包的成员,需要在Java程序中明确导入该包 使用import语句 import pkg1[ 阅读全文
摘要:
运算符 Java语言支持如下运算符: 算术运算符:+,-,*,/,%,++,-- 赋值运算符:= 关系运算符:>,<,>=,<=,==,!=instance of 逻辑运算符:&&,||,! 位运算符:&,|,^,~,>>,<<,>>>(了解) 条件运算符:?: 扩展赋值运算符:+=,-=,*=,/ 阅读全文
摘要:
变量 变量:是可以变化的量 一个空间,位置是确定的,里面的东西不确定 Java是强类型语言,每个变量都必须声明其类型 Java变量是程序中最基本的存储单元,其要素包括 变量名 变量类型 作用域 type varName [=value] [{,varName[=value]}]; //数据类型 变量 阅读全文