春招准备(2021/03/16 第一天)
1、数据库系统概论复习:
1)三级模型:/二级映像;
1)外模式(子模式或用户模式);
* 外模式/模式映射:保证了数据的逻辑独立性;
2)模式(逻辑模式);DDL定义;
* 内模式/模式映射:保证了数据的物理独立性;
3)内模式(存储模式);物理级、存储方式、是否加密、是否压缩等;
2)数据库系统的组成:数据库、数据库管理系统、应用程序、数据库管理员;
3)笛卡尔积;关系;码;分量必须取原子值(不可分);
4)关系模式:
5)关系的三类完整性约束:实体完整性、参照完整性、用户定义的完整性
1)实体完整性:关系的主属性不能取空值;
2)参照完整性:关系间的引用;主码、外码问题。外码必须满足参照完整性。参照关系也是被参照关系。
3)用户定义的完整性;自己设置其中一个属性的值域。
2、Kmeans聚类:
1)优缺点:
* 简单、运算速度快
* 缺点:只能应用于连续型的数据
2)具体方法:(简述)
* 1)首先输入k的值,即期望的K个类。
* 2)从数据集中随机选择k个数据点作为质心;
* 3)对集合中每一个点,分别计算与每一个质心的欧式距离,离哪个质心近,就作为哪一个数据点的那一类。
* 4)此时,每个质心都形成了一个簇,一共有K个簇。然后每个簇再重新选出使整个簇距离和最小的质心。 这一步理解可能需要考虑,不太对。
* 5)比较现在的质心和第2)步的质心的欧氏距离,若小于一定的阈值,则表示质心的位置变化不太大,已经收敛了。停止聚类。此处阈值需要自己设置。
* 6)如果5)中发现质心位置变换很大,则表示未收敛,需要迭代3)~5)的步骤。
3)python语言题:
打开文件,存储数据类型;
1)文件分类:CSV文件、txt文件;
参考网址:
1) https://blog.csdn.net/sinat_36710456/article/details/88019323