2020年4月14日
摘要: 自己在家捣鼓了很久还是没弄明白什么是多值依赖,今天网课老师留了题“举出三个多值依赖的例子”,最后看了老师的例子,听了讲解,终于弄明白了怎么判断,怎么举例,什么是多值依赖。 先放上多值依赖的定义: 设R(U)是属性集U上的一个关系模式。X,Y,Z是U的子集,并且Z=U-X-Y。关系R(U)中多值依赖X 阅读全文
posted @ 2020-04-14 00:05 CC陈三愿 阅读(13710) 评论(3) 推荐(4) 编辑
  2020年4月13日
摘要: 决策树和贝叶斯分类 阅读全文
posted @ 2020-04-13 16:31 CC陈三愿 阅读(651) 评论(1) 推荐(0) 编辑
  2020年4月7日
摘要: 一. 函数依赖 定义: 设R(U)是属性集U上的关系模式,X,Y是U的子集。若对于R(U)的任意一个可能的关系r,r不可能存在两个元组在X上的属性值相等,而在Y上的属性值不等,则称X函数确定Y或Y函数依赖于X,记作X->Y。若函数Y不函数依赖于X,则记作X-/->Y。 例如: 一个身份证号码可以确定 阅读全文
posted @ 2020-04-07 18:23 CC陈三愿 阅读(13743) 评论(2) 推荐(2) 编辑
  2020年4月5日
摘要: 一. 数据预处理 数据不平衡时,无法体现模型好坏,就像让一群硕士去做小学题,并不能区分他们的能力,宁愿把题目设置成高考题。 · 过采样和欠采样可以同时采用。 留出法的缺点:可能会导致划分在测试集内的数据有一些特征没有在训练集内发现,会有误差。 k-折交叉验证法的优点:假如划分为10个互斥子集,我们就 阅读全文
posted @ 2020-04-05 20:45 CC陈三愿 阅读(393) 评论(0) 推荐(0) 编辑
摘要: 一. 什么是机器学习 机器学习是从人工智能中产生的一个重要学科分支,是实现智能化的关键。 机器学习是一门多领域的交叉学科,设计概率论,统计学,逼近论,凸分析,算法复杂度理论等多门学科,专门研究计算机怎样模拟或实现人类的学习行为,以获取新知识或技能,重新组织已有的知识结构使之不断改善自身的性能。 —— 阅读全文
posted @ 2020-04-05 19:35 CC陈三愿 阅读(459) 评论(0) 推荐(0) 编辑
  2020年4月3日
摘要: Hadoop平台的搭建流程之单机/伪分布配置 所需工具:VMware Workstation / Virtual Box 虚拟机; Hadoop安装文件; 实验环境:Ubuntu 32位或64位系统 / CentOS系统; ps: 该实验教程采用Ubuntu 64位系统进行讲解。 Ubuntu安装系 阅读全文
posted @ 2020-04-03 18:14 CC陈三愿 阅读(802) 评论(0) 推荐(0) 编辑
摘要: 前言:Windows和Linux系统之间共享文件的方式大致分为三种,一是通过ftp或sftp协议,二是通过http协议,三是通过ssh协议。 前两者一般都需要在远程服务器配置ftp或http服务后才能使用,而ssh协议基本上是所有的linux系统都默认支持的,可用来远程登录。 SSH Secure 阅读全文
posted @ 2020-04-03 18:12 CC陈三愿 阅读(1014) 评论(0) 推荐(0) 编辑
摘要: 当数据集中包含大量特征时: - 有些特征包含丰富的预测信息; - 有些特征之间具有一定的相关性; - 有些特征只包含噪声或不相关信息; 只保留有意义的特征不仅可以使数据集易于管理,而且可以使预测结果不受数据中噪声的影响,预测精度更好。 维数约简 消除输入数据集的某些特征,创建一个有限特征的数据集(包 阅读全文
posted @ 2020-04-03 15:09 CC陈三愿 阅读(773) 评论(0) 推荐(0) 编辑
  2020年3月30日
摘要: 当特征和目标变量不是很相关时,可以修改输入的数据集,应用线性,非线性变换(或者其他相似方法)来提高系统的精度。 - 数据是“死”的,人的思维是“活”的。 - 数据科学家负责改变数据集和输入数据,使数据更好的符合分类模型。 基本方法:A. 特征的线性修正 B. 特征的非线性修正 K近邻方法(K-Nea 阅读全文
posted @ 2020-03-30 22:31 CC陈三愿 阅读(530) 评论(0) 推荐(0) 编辑
摘要: 数据加载和数据预处理: (1)利用Pandas库进行数据加载和预处理:处理问题数据,日期格式解析,NaN值的处理,分组和聚类,排序和索引,文本数据的编码,词频统计等; (2)利用Numpy库进行数据处理:数组的创建,矩阵运算,数组切片,堆叠等。 数据分析: (1)数据的探索性分析; (2)高维数据的 阅读全文
posted @ 2020-03-30 14:02 CC陈三愿 阅读(1556) 评论(0) 推荐(0) 编辑