摘要: 大多数 UNIX 系统命令从你的终端接受输入并将所产生的输出发送回到您的终端。但是可以根据实际需要将输入输出重定向到想要的位置。 1、重定向命令列表: 注意的是文件描述符 0 通常是标准输入(STDIN),1 是标准输出(STDOUT),2 是标准错误输出(STDERR)。 2、重定向深入讲解 一般 阅读全文
posted @ 2021-12-01 16:02 亚北薯条 阅读(144) 评论(0) 推荐(0) 编辑
摘要: 1、概述 DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种很典型的密度聚类算法.和K-Means,BIRCH这些一般只适用于凸样本集的聚类相比,DBSCAN既可以适用于凸样本集, 阅读全文
posted @ 2021-10-22 11:11 亚北薯条 阅读(1117) 评论(0) 推荐(0) 编辑
摘要: K-Means算法是无监督的聚类算法,它实现起来比较简单,聚类效果也不错,因此应用很广泛。K-Means算法有大量的变体,比如最传统的K-Means算法,在其基础上优化变体方法:包括初始化优化K-Means++, 距离计算优化elkan K-Means算法和大数据情况下的优化Mini Batch K 阅读全文
posted @ 2021-10-19 13:54 亚北薯条 阅读(1075) 评论(0) 推荐(0) 编辑
摘要: 1、概述 最近邻算法(KNN),是一种基本的分类与回归方法,是数据挖掘技术中最简单的技术之一。 所谓最近邻,就是首先选取一个阈值为K,对在阈值范围内离测试样本最近的点进行投票,票数多的类别就是这个测试样本的类别,这是分类问题。那么回归问题也同理,对在阈值范围内离测试样本最近的点取均值,那么这个值就是 阅读全文
posted @ 2021-10-18 11:16 亚北薯条 阅读(1310) 评论(0) 推荐(0) 编辑
摘要: 1. 子序列和子串的区别 子序列(subsequene):子序列并不要求连续,例如:序列[4, 6, 5]是[1, 2, 4, 3, 7, 6, 5]的一个子序列; 子串(substring、subarray):子串一定是原始字符串的连续子串。 2. 最长上升子序列 (可不连续) 题目 方法1、暴力 阅读全文
posted @ 2021-03-10 23:31 亚北薯条 阅读(402) 评论(0) 推荐(0) 编辑
摘要: 一、01背包问题 题目 有N件物品和一个容量为V的背包。第i件物品的费用是c[i],价值是w[i]。求解将哪些物 品装入背包可使价值总和最大。 基本思路 这是最基础的背包问题,特点是:每种物品仅有一件,可以选择放或不放。 用子问题定义状态:即f[i][v]表示前i件物品恰放入一个容量为v的背包可以获 阅读全文
posted @ 2021-03-08 01:05 亚北薯条 阅读(650) 评论(0) 推荐(0) 编辑
摘要: 一. boosting算法简介 boosting算法是集成学习算法的一种,主要目标为将弱学习器“提升”为强学习器。个体学习器之间存在强依赖关系,必须串行生成。 大部分Boosting算法都是根据前一个学习器的训练效果对样本点的权重进行调整,提高前一轮中学习误差率高的训练样本点的权重,使得误差率高的样 阅读全文
posted @ 2020-12-25 11:29 亚北薯条 阅读(1129) 评论(0) 推荐(0) 编辑
摘要: 最近在学习算法常常遇到特征值和特征向量的问题,一直都一知半解没有领悟到本质。因此特意查阅了相关资料,自己的理解写一篇小结。 1. 矩阵乘法的本质 首先,我们来看一个线性方程式。为了更简洁的表示,我们常常使用矩阵乘法。 \[ \begin{cases} 2x+y=m \\ 3x+2y=n \end{c 阅读全文
posted @ 2020-12-05 20:57 亚北薯条 阅读(644) 评论(0) 推荐(0) 编辑
摘要: 一.概述 1. 特征工程 特征工程是将原始数据转换为更能代表预测模型的潜在问题的特征的过程,可以通过挑选最相关的特征,提取特征以及创造特征来实现。 可能面对的问题有:特征之间有相关性,特征和标签无关,特征太多或太小,或者干脆就无法表现出应有的数据现象或无法展示数据的真实面貌 特征工程的目的:1) 降 阅读全文
posted @ 2020-12-04 17:44 亚北薯条 阅读(974) 评论(0) 推荐(0) 编辑
摘要: 一.概述 1. 数据预处理 数据预处理是从数据中检测,修改或删除不准确或不适用于模型的记录的过程 可能面对的问题有:数据类型不同,比如有的是文字,有的是数字,有的含时间序列,有的连续,有的间断。 也可能,数据的质量不行,有噪声,有异常,有缺失,数据出错,量纲不一,有重复,数据是偏态,数据量太大或太小 阅读全文
posted @ 2020-12-04 17:41 亚北薯条 阅读(2563) 评论(0) 推荐(1) 编辑