春招准备(2021/03/16 第一天)

1、数据库系统概论复习:

  1)三级模型:/二级映像;

    1)外模式(子模式或用户模式);

    * 外模式/模式映射:保证了数据的逻辑独立性;

    2)模式(逻辑模式);DDL定义;

    * 内模式/模式映射:保证了数据的物理独立性;

    3)内模式(存储模式);物理级、存储方式、是否加密、是否压缩等;

  2)数据库系统的组成:数据库、数据库管理系统、应用程序、数据库管理员;

  3)笛卡尔积;关系;码;分量必须取原子值(不可分);

  4)关系模式:

  5)关系的三类完整性约束:实体完整性、参照完整性、用户定义的完整性

    1)实体完整性:关系的主属性不能取空值;

    2)参照完整性:关系间的引用;主码、外码问题。外码必须满足参照完整性。参照关系也是被参照关系。

    3)用户定义的完整性;自己设置其中一个属性的值域。

2、Kmeans聚类:

  1)优缺点:

    * 简单、运算速度快

    * 缺点:只能应用于连续型的数据

  2)具体方法:(简述)

    * 1)首先输入k的值,即期望的K个类。

    * 2)从数据集中随机选择k个数据点作为质心;

    * 3)对集合中每一个点,分别计算与每一个质心的欧式距离,离哪个质心近,就作为哪一个数据点的那一类。

    * 4)此时,每个质心都形成了一个簇,一共有K个簇。然后每个簇再重新选出使整个簇距离和最小的质心。 这一步理解可能需要考虑,不太对。

    * 5)比较现在的质心和第2)步的质心的欧氏距离,若小于一定的阈值,则表示质心的位置变化不太大,已经收敛了。停止聚类。此处阈值需要自己设置。

    * 6)如果5)中发现质心位置变换很大,则表示未收敛,需要迭代3)~5)的步骤。

3)python语言题:

  打开文件,存储数据类型;  

  1)文件分类:CSV文件、txt文件;  

 

参考网址:

1) https://blog.csdn.net/sinat_36710456/article/details/88019323

posted @ 2021-03-17 00:51  张幼安  阅读(54)  评论(0编辑  收藏  举报