摘要:
做过数据分析的孩子一般都知道:数据预处理很重要,大概会占用整个分析过程50%到80%的时间,良好的数据预处理会让建模结果达到事半功倍的效果。本文简单介绍python中一些常见的数据预处理,包括 数据加载 、 缺失值处理 、 异常值处理 、 描述性变量转换为数值型 、 训练集测试集划分 、 数据规范化 阅读全文
摘要:
最近接触到为客户的客服排班的需求,之前根据客户的需求,同事已经完成了自动排班系统,需要我继续支撑的是做一些优化即可。当我接触到这个项目之后,我便联想到以前所学的CSP最小冲突法或许可以解决排班问题。在这里,想要介绍一下这种方法。 CSP最小冲突法 CSP最小冲突法的主要思想是,找到满足约束条件的情况 阅读全文
摘要:
我们的目标是书写强化学习 Q learning的代码,然后利用代码解决 "汉诺塔问题" 强化学习简介 基础的详细定义之类的,就不再这里赘述了。下面直接说一些有用的东西。 强化学习的步骤: 对于每个状态,对这个状态下,所有的动作,计算这个状态 动作的潜在奖励。 一般记录在Q表格中,可以表示为 $Q[( 阅读全文
摘要:
一. 算法介绍 1.1. 算法简介 Xgboost从名字中可以看出是属于booting算法。Boosting就是一个强分类器,它是由若干个弱分类器(树模型)组合而成。这里的树模型是CART(分类回归树)模型。 1.2 .算法思想 通过不断地添加树,不断地进行特征分裂来生长一棵树,每次添加一个 阅读全文
摘要:
一. 模型泛化能力 1. 模型泛化能力 指模型对于未知数据的预测能力, 是模型最重要的性质,泛化误差越小,模型预测效果越好; 2. 利用最小化训练误差来训练模型,但是真正关心的是测试误差。因此通过测试误差来评估模型的泛化能力。 训练误差是模型在训练集的平均损失,其大小虽然有意义,但是本质上不重要。 阅读全文
摘要:
1. 查看代码修改状态 2. 添加代码到分支上 3. 添加提交注释内容,说明提交的内容 4. 拉取远程仓库的代码 5. 把代码推送到远程仓库 阅读全文
摘要:
一、环境准备 安装依赖包 python、tesseract依赖: caffe依赖: 源码位置 caffe: https://github.com/BVLC/caffe 下载部署包 python366:https://www.python.org/downloads/release/python 36 阅读全文
摘要:
一、安装前准备工作 1、查看当前服务器的显卡 查看VGA接口显卡:lspci | grep VGA 查看Nvidia:lspci | grep NVIDIA 这里结果中的“00:”前缀,表示该显卡是虚拟机上挂载的显卡。 2、查看是否有历史安装 执行如下命令: 如果没有找到命令,则说明驱动没有安装。 阅读全文
摘要:
TensorFlow是目前世界上最受欢迎的深度学习框架,主要应用于图像识别、语言理解、语音理解等领域方面。它具有快速、灵活并适合产品及大规模应用等特点。公司里的AI装维质检以及文本分析方面皆可通过TensorFlow实现。希望通过对本文的学习,大家对TensorFlow的有所了解,并可以使用Tens 阅读全文
摘要:
介绍本菜鸟怎么在Windows10系统上,登录Github,创建Repositories,上传代码。 step1:下载安装Git客户端 https://git scm.com/downloads/ 安装成功后电脑软件目录栏会出现 step2:新建Repositories 1、打开登录自己的githu 阅读全文
摘要:
一、环境搭建 当前:Windows10 + Anaconda3.6 1.1 创建PyTorch的虚拟环境 打开Anaconda中的Anaconda Prompt那个黑框框,输入: 之后输入y,创建pytorch虚拟环境。以下是一些常规命令: 1.2 安装PyTorch 链接PyTorch官网,可以任 阅读全文
摘要:
一、什么是类不平衡 在分类中经常会遇到:某些类别数据特别多,某类或者几类数据特别少。如二分类中,一种类别(反例)数据特别多,另一种类别(正例)数据少的可怜。如银行欺诈问题,客户流失问题,电力盗窃以及罕见疾病识别等都存在着数据类别不均衡的情况。 二、为什么要对类不平衡进行特殊处理 传统的分类算法旨在最 阅读全文
摘要:
概括 Perceptron(感知器)是一个二分类线性模型,其输入的是特征向量,输出的是类别。Perceptron的作用即将数据分成正负两类的超平面。可以说是机器学习中最基本的分类器。 模型 Perceptron 一样属于线性分类器。 对于向量$X={x}_1,{x}_2,...{x}_n$,对于权重 阅读全文