02 2020 档案
摘要:不同的分类算法各有优缺点,可以将不同的分类器组合起来 这种组合被称为集成方法(ensemble method)或者元算法(meta algorithm) 使用集成方法有多种形式 ○ 可以是不同算法的集成 ○ 可以是同一算法在不同设置下的集成 ○ 可以是数据集不同部分分配给不同
阅读全文
摘要:优点:泛化错误率低,计算开销不大,结果易解释 缺点:对参数调节和核函数的选择敏感,原始分类器不加修改仅适用于处理二分类问题 线性可分 给定一个二维数据集,如果可以用一条直线,将数据分成两类,在直线的一边都是一种分类,另一边的都是另一种分类,我们说这个数据集线性可分 该直线称为分隔超平面(Separa
阅读全文
摘要:虽然名字里带回归,但实际上是一种分类方法,主要用于两分类问题,即只有两种分类 优点:计算代价不高,易于理解和实现 缺点:容易欠拟合,分类精度可能不高 原理 线性回归函数 其中 X 是特征值 W 是回归系数 X 和 W 都是向量,可展开为 $\small
阅读全文
摘要:导数 设有一元函数 则函数在点 处的导数为 $\normalsize f^{'}(x_{0})=\lim_{\Delta x\rightarrow 0}\frac{f(x_{0}+\Delta x) f(x_{0})}
阅读全文
摘要:朴素贝叶斯(Naive Bayesian)分类器可以给出一个最优的类别猜测结果,同时给出这个猜测的概率估计值 优点:在数据较少的情况下仍然有效,可以处理多类别问题 缺点:对于输入数据的准备方式较为敏感 贝叶斯准则 公式
阅读全文
摘要:ID3 决策树构建树的依据是简单的比较样本集分类前后的信息增益 此外还有 CART 决策树,C4.5 决策树等 优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据 缺点:只能处理离散数据,可能会过度匹配,实现较为复杂,存在特征值太多的问题 工作原理: 将样本数据转为
阅读全文
摘要:kNN 算法不需要经过算法训练,属于懒惰学习,需要训练的属于急切学习 kNN 是最简单的分类算法 优点:精度高、对异常值不敏感、无数据输入假定 缺点:计算复杂度高、空间复杂度高 工作原理: 输入没有标签的新数据后,将新数据的每个特征与样本集中每个数据对应的特征进行比较,然后算法提取样本集中 k 个特
阅读全文
摘要:用的比较多的算法有 SVM,贝叶斯 (数据少时仍有效),集成算法 (随机森林,xgboost),神经网络等 ###K-近邻算法 作用:分类算法 优点:最简单、不需要训练、容易理解 缺点:计算复杂度高、空间复杂度高 原理:计算新数据与样本集中所有数据的欧式距离,提取距离最近的 K 个样本的标签,取 K
阅读全文
摘要:1. 数据处理 转换数据格式 比如将名称用数字表示、浮点数转为整数 特征值的类型 离散型还是连续型,这会影响算法的选择 特征值的提取 去掉没用的数据比如 ID 值 去掉发生频率太低的特征 直接提取有用的特征 需要的话整合特征,比如 取一段时间内的均值做特征值 取两列数据的和做特征值 取两列数据的皮尔
阅读全文
摘要:###人工智能(Artificial Intelligence) - 通过计算机模拟人类智慧,以完成很多只有人类才可以完成,甚至连人类都无法完成的任务 - 比如专家系统、图像识别、语音识别、自然语言处理、自动驾驶、推荐系统、人机博弈、电脑游戏、机器人等 - 人类利用计算机完成了很多对人类而言非常困难
阅读全文
摘要:1. 下载并安装 Keycloak "下载地址" 这里以版本 7 为例子 解压,点击 bin\standalone.bat 直接运行即可 默认登陆地址 http://localhost:8080/auth 创建账号并登陆 官方文档 https://www.keycloak.org/docs/late
阅读全文
摘要:Python3 下 Redis 默认返回 bytes 类型数据,而 Python3 下 bytes 类型和 str 类型不能直接互用,容易出错,解决方法是在建立 Redis 连接的时候将 decode_responses 设置为 True,表示将返回的 bytes 数据解码为 str 数据
阅读全文
摘要:1. 下载并安装 Pycharm "windows 版下载地址" 2. 运行 Pycharm 可在 Configure Settings Appearance Theme 设置风格 3. 点击 Create New Project 创建新项目 Test 目录可以是一个空目录(新项目),也可以是包含了
阅读全文