CC陈三愿 - 博客园

2020年4月14日

摘要：自己在家捣鼓了很久还是没弄明白什么是多值依赖，今天网课老师留了题“举出三个多值依赖的例子”，最后看了老师的例子，听了讲解，终于弄明白了怎么判断，怎么举例，什么是多值依赖。先放上多值依赖的定义：设R(U)是属性集U上的一个关系模式。X,Y,Z是U的子集，并且Z=U-X-Y。关系R(U)中多值依赖X 阅读全文

posted @ 2020-04-14 00:05 CC陈三愿阅读(14251) 评论(3) 推荐(5) 编辑

2020年4月13日

机器学习基础——分类问题（决策树和贝叶斯分类）

摘要：决策树和贝叶斯分类阅读全文

posted @ 2020-04-13 16:31 CC陈三愿阅读(662) 评论(1) 推荐(0) 编辑

2020年4月7日

平凡依赖，非平凡依赖，完全依赖，部分依赖，传递依赖，直接依赖的区别

摘要：一. 函数依赖定义：设R（U）是属性集U上的关系模式，X,Y是U的子集。若对于R（U）的任意一个可能的关系r，r不可能存在两个元组在X上的属性值相等，而在Y上的属性值不等，则称X函数确定Y或Y函数依赖于X，记作X->Y。若函数Y不函数依赖于X，则记作X-/->Y。例如：一个身份证号码可以确定阅读全文

posted @ 2020-04-07 18:23 CC陈三愿阅读(14179) 评论(2) 推荐(2) 编辑

2020年4月5日

机器学习基础——数据处理与特征工程

摘要：一. 数据预处理数据不平衡时，无法体现模型好坏，就像让一群硕士去做小学题，并不能区分他们的能力，宁愿把题目设置成高考题。 · 过采样和欠采样可以同时采用。留出法的缺点：可能会导致划分在测试集内的数据有一些特征没有在训练集内发现，会有误差。 k-折交叉验证法的优点：假如划分为10个互斥子集，我们就阅读全文

posted @ 2020-04-05 20:45 CC陈三愿阅读(401) 评论(0) 推荐(0) 编辑

机器学习基础——机器学习概述

摘要：一. 什么是机器学习机器学习是从人工智能中产生的一个重要学科分支，是实现智能化的关键。机器学习是一门多领域的交叉学科，设计概率论，统计学，逼近论，凸分析，算法复杂度理论等多门学科，专门研究计算机怎样模拟或实现人类的学习行为，以获取新知识或技能，重新组织已有的知识结构使之不断改善自身的性能。 —— 阅读全文

posted @ 2020-04-05 19:35 CC陈三愿阅读(520) 评论(0) 推荐(0) 编辑

2020年4月3日

Hadoop平台如何搭建

摘要： Hadoop平台的搭建流程之单机/伪分布配置所需工具：VMware Workstation / Virtual Box 虚拟机; Hadoop安装文件；实验环境：Ubuntu 32位或64位系统 / CentOS系统； ps: 该实验教程采用Ubuntu 64位系统进行讲解。 Ubuntu安装系阅读全文

posted @ 2020-04-03 18:14 CC陈三愿阅读(818) 评论(0) 推荐(0) 编辑

SSH Secure Shell Client实现共享文件以及报错

摘要：前言：Windows和Linux系统之间共享文件的方式大致分为三种，一是通过ftp或sftp协议，二是通过http协议，三是通过ssh协议。前两者一般都需要在远程服务器配置ftp或http服务后才能使用，而ssh协议基本上是所有的linux系统都默认支持的，可用来远程登录。 SSH Secure 阅读全文

posted @ 2020-04-03 18:12 CC陈三愿阅读(1052) 评论(0) 推荐(0) 编辑

数据科学流程之维数约简

摘要：当数据集中包含大量特征时： - 有些特征包含丰富的预测信息； - 有些特征之间具有一定的相关性； - 有些特征只包含噪声或不相关信息；只保留有意义的特征不仅可以使数据集易于管理，而且可以使预测结果不受数据中噪声的影响，预测精度更好。维数约简消除输入数据集的某些特征，创建一个有限特征的数据集（包阅读全文

posted @ 2020-04-03 15:09 CC陈三愿阅读(797) 评论(0) 推荐(0) 编辑

2020年3月30日

数据科学流程之创建新特征

摘要：当特征和目标变量不是很相关时，可以修改输入的数据集，应用线性，非线性变换（或者其他相似方法）来提高系统的精度。 - 数据是“死”的，人的思维是“活”的。 - 数据科学家负责改变数据集和输入数据，使数据更好的符合分类模型。基本方法：A. 特征的线性修正 B. 特征的非线性修正 K近邻方法（K-Nea 阅读全文

posted @ 2020-03-30 22:31 CC陈三愿阅读(541) 评论(0) 推荐(0) 编辑

数据科学流程之EDA简介

摘要：数据加载和数据预处理：（1）利用Pandas库进行数据加载和预处理：处理问题数据，日期格式解析，NaN值的处理，分组和聚类，排序和索引，文本数据的编码，词频统计等；（2）利用Numpy库进行数据处理：数组的创建，矩阵运算，数组切片，堆叠等。数据分析：（1）数据的探索性分析；（2）高维数据的阅读全文

posted @ 2020-03-30 14:02 CC陈三愿阅读(1590) 评论(0) 推荐(0) 编辑

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论