会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
C陈三愿
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
下一页
2020年4月14日
数据库系统之关系数据理论——多值依赖到底是什么
摘要: 自己在家捣鼓了很久还是没弄明白什么是多值依赖,今天网课老师留了题“举出三个多值依赖的例子”,最后看了老师的例子,听了讲解,终于弄明白了怎么判断,怎么举例,什么是多值依赖。 先放上多值依赖的定义: 设R(U)是属性集U上的一个关系模式。X,Y,Z是U的子集,并且Z=U-X-Y。关系R(U)中多值依赖X
阅读全文
posted @ 2020-04-14 00:05 CC陈三愿
阅读(13710)
评论(3)
推荐(4)
编辑
2020年4月13日
机器学习基础——分类问题(决策树和贝叶斯分类)
摘要: 决策树和贝叶斯分类
阅读全文
posted @ 2020-04-13 16:31 CC陈三愿
阅读(651)
评论(1)
推荐(0)
编辑
2020年4月7日
平凡依赖,非平凡依赖,完全依赖,部分依赖,传递依赖,直接依赖的区别
摘要: 一. 函数依赖 定义: 设R(U)是属性集U上的关系模式,X,Y是U的子集。若对于R(U)的任意一个可能的关系r,r不可能存在两个元组在X上的属性值相等,而在Y上的属性值不等,则称X函数确定Y或Y函数依赖于X,记作X->Y。若函数Y不函数依赖于X,则记作X-/->Y。 例如: 一个身份证号码可以确定
阅读全文
posted @ 2020-04-07 18:23 CC陈三愿
阅读(13743)
评论(2)
推荐(2)
编辑
2020年4月5日
机器学习基础——数据处理与特征工程
摘要: 一. 数据预处理 数据不平衡时,无法体现模型好坏,就像让一群硕士去做小学题,并不能区分他们的能力,宁愿把题目设置成高考题。 · 过采样和欠采样可以同时采用。 留出法的缺点:可能会导致划分在测试集内的数据有一些特征没有在训练集内发现,会有误差。 k-折交叉验证法的优点:假如划分为10个互斥子集,我们就
阅读全文
posted @ 2020-04-05 20:45 CC陈三愿
阅读(393)
评论(0)
推荐(0)
编辑
机器学习基础——机器学习概述
摘要: 一. 什么是机器学习 机器学习是从人工智能中产生的一个重要学科分支,是实现智能化的关键。 机器学习是一门多领域的交叉学科,设计概率论,统计学,逼近论,凸分析,算法复杂度理论等多门学科,专门研究计算机怎样模拟或实现人类的学习行为,以获取新知识或技能,重新组织已有的知识结构使之不断改善自身的性能。 ——
阅读全文
posted @ 2020-04-05 19:35 CC陈三愿
阅读(459)
评论(0)
推荐(0)
编辑
2020年4月3日
Hadoop平台如何搭建
摘要: Hadoop平台的搭建流程之单机/伪分布配置 所需工具:VMware Workstation / Virtual Box 虚拟机; Hadoop安装文件; 实验环境:Ubuntu 32位或64位系统 / CentOS系统; ps: 该实验教程采用Ubuntu 64位系统进行讲解。 Ubuntu安装系
阅读全文
posted @ 2020-04-03 18:14 CC陈三愿
阅读(802)
评论(0)
推荐(0)
编辑
SSH Secure Shell Client实现共享文件以及报错
摘要: 前言:Windows和Linux系统之间共享文件的方式大致分为三种,一是通过ftp或sftp协议,二是通过http协议,三是通过ssh协议。 前两者一般都需要在远程服务器配置ftp或http服务后才能使用,而ssh协议基本上是所有的linux系统都默认支持的,可用来远程登录。 SSH Secure
阅读全文
posted @ 2020-04-03 18:12 CC陈三愿
阅读(1014)
评论(0)
推荐(0)
编辑
数据科学流程之维数约简
摘要: 当数据集中包含大量特征时: - 有些特征包含丰富的预测信息; - 有些特征之间具有一定的相关性; - 有些特征只包含噪声或不相关信息; 只保留有意义的特征不仅可以使数据集易于管理,而且可以使预测结果不受数据中噪声的影响,预测精度更好。 维数约简 消除输入数据集的某些特征,创建一个有限特征的数据集(包
阅读全文
posted @ 2020-04-03 15:09 CC陈三愿
阅读(773)
评论(0)
推荐(0)
编辑
2020年3月30日
数据科学流程之创建新特征
摘要: 当特征和目标变量不是很相关时,可以修改输入的数据集,应用线性,非线性变换(或者其他相似方法)来提高系统的精度。 - 数据是“死”的,人的思维是“活”的。 - 数据科学家负责改变数据集和输入数据,使数据更好的符合分类模型。 基本方法:A. 特征的线性修正 B. 特征的非线性修正 K近邻方法(K-Nea
阅读全文
posted @ 2020-03-30 22:31 CC陈三愿
阅读(530)
评论(0)
推荐(0)
编辑
数据科学流程之EDA简介
摘要: 数据加载和数据预处理: (1)利用Pandas库进行数据加载和预处理:处理问题数据,日期格式解析,NaN值的处理,分组和聚类,排序和索引,文本数据的编码,词频统计等; (2)利用Numpy库进行数据处理:数组的创建,矩阵运算,数组切片,堆叠等。 数据分析: (1)数据的探索性分析; (2)高维数据的
阅读全文
posted @ 2020-03-30 14:02 CC陈三愿
阅读(1556)
评论(0)
推荐(0)
编辑
上一页
1
2
3
下一页