数据分析 - 随笔分类 - python我的最爱

跟我学算法 - 读取excel文件(xlrd)

摘要：import xlrd import numpy as np # fname 表示文件名 fname = '1白.xlsx'# 打开文件 bk = xlrd.open_workbook(fname)# 获取表格的个数 shxrange = bk.nsheets cast = []# 取第2个表格到最后一个表格 for i in range(1, shxrange): sh = bk.sh... 阅读全文

posted @ 2018-11-27 11:18 python我的最爱阅读(249) 评论(0) 推荐(0)

解决pip安装时的Readtime out问题

摘要：方法一 pip --default-timeout=100 install -U Pillow就可以了方法二 pip install pyinstaller -i https://pypi.doubanio.com/simple指定网站阅读全文

posted @ 2018-11-09 10:54 python我的最爱阅读(451) 评论(0) 推荐(0)

跟我学算法-图像识别之图像分类（下）(GoogleNet网络, ResNet残差网络, ResNext网络， CNN设计准则）

摘要：1.GoogleNet 网络： Inception V1 - Inception V2 - Inception V3 - Inception V4 1. Inception v1 split - merge - 1*1卷积，3*3卷积， 5*5卷积， 3*3池化输入层：inception 1*1 阅读全文

posted @ 2018-10-15 21:54 python我的最爱阅读(1775) 评论(0) 推荐(0)

跟我学算法-图像识别之图像分类（上）(基础神经网络，卷积神经网络（CNN)， AlexNet，NIN, VGG）

摘要：1.基础神经网络：输入向量ｘ，权重向量w，偏置标量b，激活函数sigmoid（增加非线性度）优化手段：梯度下降优化， BP向后传播（链式规则）梯度下降优化： 1. 使用得目标函数是交叉熵 c = 1/nΣΣ[yj*lnaj^2 + (1-yj)*ln(1-aj^2)] yj表示得是样本标阅读全文

posted @ 2018-10-15 18:31 python我的最爱阅读(648) 评论(0) 推荐(0)

跟我学算法-人脸识别（Siamese network) 推导

摘要：Siamese network 训练神经网络存在两种形式：第一种：通过Siamese network 和三元组损失函数来训练图片之间的间隔第二种：通过Siamese network 和 sigmoid函数来实现二分类的训练第一种情况：在最后一层使用得是128， 1， d(x(1), x 阅读全文

posted @ 2018-10-15 11:44 python我的最爱阅读(945) 评论(1) 推荐(1)

跟我学算法-xgboost(集成算法)基本原理推导

摘要：1.构造损失函数的目标函数 2.对目标函数进行泰勒展开 3.把样本遍历转换成叶子节点遍历，合并正则化惩罚项 4.求wj进行求导，使得当目标函数等于0时的wj的值 5.将求解得到的wj反导入方程中，解得最终的目标函数 6.对样本进行分割时，用分割前的目标函数的值-分割后左右子树的目标函数的值，来划分得阅读全文

posted @ 2018-10-14 15:01 python我的最爱阅读(244) 评论(0) 推荐(0)

跟我学算法-PCA(降维)基本原理推导

摘要：Pca首先 1.对数据进行去均值 2.构造一个基本的协方差矩阵1/m(X)*X^T 3对协方差矩阵进行变化，得到对角化矩阵，即对角化上有数值，其他位置上的数为0(协方差为0)，即求特征值和特征向量的过程 4.求得特征向量的单位化矩阵，单位化特征向量矩阵*原始数据（去均值后的）即降维操作,单位化特征向阅读全文

posted @ 2018-10-13 22:54 python我的最爱阅读(525) 评论(0) 推荐(1)

跟我学算法-svm支持向量机算法推导

摘要：Svm算法又称为支持向量机，是一种有监督的学习分类算法，目的是为了找到两个支持点，用来使得平面到达这两个支持点的距离最近。通俗的说：找到一条直线，使得离该线最近的点与该线的距离最远。我使用手写进行了推导求解实例软间隔，通过设置C，使得目标函数的松弛因子发生变化，松弛因子越大，表示分类越不严格阅读全文

posted @ 2018-10-13 21:19 python我的最爱阅读(199) 评论(0) 推荐(0)

决策树与树集成模型（bootstrap，决策树（信息熵，信息增益，信息增益率，基尼系数），回归树, Bagging, 随机森林， Boosting， Adaboost， GBDT， XGboost）

摘要：1.bootstrap 在原始数据的范围内作有放回的再抽样M个, 样本容量仍为n，原始数据中每个观察单位每次被抽到的概率相等, 为1/n , 所得样本称为Bootstrap样本。于是可得到参数θ的一个估计值θ^(b)，这样重复若干次，记为B 。为了可以避免一些误差点对少量树的决策影响。 2.决策树阅读全文

posted @ 2018-10-10 22:05 python我的最爱阅读(958) 评论(0) 推荐(0)

图片拼接SIFT

摘要：图片拼接 SIFT：特征点处理：位置插值，去除低对比度点，去除边缘点方向估计描述子提取下面的程序中使用：第一步：使用SIFT生成器提取描述子和特征第二步：使用KNN检测来自A，B图的SIFT特征匹配对，形成视觉变化矩阵H 第三步：将图片A进行视觉变化，将B图片放在变换图片的左边，阅读全文

posted @ 2018-10-08 17:04 python我的最爱阅读(1148) 评论(0) 推荐(0)

图像特征与描述子（直方图，聚类，边缘检测，兴趣点/关键点， Harris角点，斑点（Blob), SIFI, 纹理特征）

摘要：1.直方图用于计算图片特征，表达，使得数据具有总结性，颜色直方图对数据空间进行量化，好比10个bin 2. 聚类类内对象的相关性高类间对象的相关性差常用算法：kmeans， EM算法， meanshift，谱聚类（密度聚类），层次聚类 kmeans聚类选取k个类中心，随机选取计算阅读全文

posted @ 2018-10-08 15:30 python我的最爱阅读(1998) 评论(0) 推荐(0)

跟我学算法-吴恩达老师（误差分析, 正确标注, 开发集和测试集的划分，数据不匹配，迁移学习，多任务学习，端到端学习）

摘要：1. 误差分析通过分析错误的标记，来判断主要是哪个原因引起了错误,这是猫的分类，观察被分错图片的原因,总结需要优化的条件 image Dog Great cat blurry comment 1 2 3 4 5 6 2. 进行正确标注当前错误率为10%，进行误差分析后，由于0.6%的错误标记引阅读全文

posted @ 2018-10-02 15:32 python我的最爱阅读(271) 评论(0) 推荐(0)

跟我学算法-吴恩达老师（正交化，单实数评估指标, 满足指标, (训练集，开发集，测试集的分布), 改变指标，人类的表现）

摘要：1.正交化指使用单个手段来控制一个指标，如样本的偏差过大时，即欠拟合，就采用增加模型复杂程度，来降低样本偏差 2.单实数评估指标单实数评估样本也是我们平时常说的优化指标 accruacy = （tp +　tn）/ (tp+fp+tn+fn) precesion = (tp) / (tp+fp) r 阅读全文

posted @ 2018-09-30 22:03 python我的最爱阅读(188) 评论(0) 推荐(0)

跟我学算法-吴恩达老师（超参数调试, batch归一化, softmax使用，tensorflow框架举例）

摘要：1. 在我们学习中，调试超参数是非常重要的。超参数的调试可以是a学习率，（β1和β2，ε）在Adam梯度下降中使用, layers层数, hidden units 隐藏层的数目, learning_rate_dacay 学习率衰减, mini-batch size 每次迭代的样本数目当需要调节的阅读全文

posted @ 2018-09-28 20:21 python我的最爱阅读(403) 评论(0) 推荐(0)

跟我学算法-吴恩达老师(mini-batchsize，指数加权平均，Momentum 梯度下降法，RMS prop， Adam 优化算法， Learning rate decay)

摘要：1.mini-batch size 表示每次都只筛选一部分作为训练的样本,进行训练，遍历一次样本的次数为(样本数/单次样本数目) 当mini-batch size 的数量通常介于1，m 之间当为1时，称为随机梯度下降一般我们选择64，128， 256等样本数目 2. 指数加权平均 v0 = 0 阅读全文

posted @ 2018-09-25 16:25 python我的最爱阅读(919) 评论(0) 推荐(0)

跟我学算法-吴恩达老师（偏差方差，正则化，正则化输入，梯度消失和爆炸，梯度检测）

摘要：1.训练样本的分布交叉验证指的是训练集和验证集，为了防止在训练过程中受到部分训练样本的影响一般当样本数目较少时，采用60/20/20的比例，60%的训练集，20%的验证集，20%的测试集当样本数目较大时，一般可以采用2.5%的验证集和1%的测试集，其他都是训练样本。很多情况下，我们会不适用测试阅读全文

posted @ 2018-09-25 13:59 python我的最爱阅读(578) 评论(0) 推荐(0)

跟我学算法-吴恩达老师的浅层神经网络

摘要：浅层神经网络，这里使用的是一个输入层，一个隐层（4个神经元），一个输出层使用sigmoid函数做激活函数，在进行反向传播的梯度下降中，由于导数过小，速度下降会变得很慢,使用非线性激活函数，是为了使得中间层神经元连接是存在意义的. 一般我们在初始化w时，采用随机值做初始化，为了使得不同样本输入，在阅读全文

posted @ 2018-09-20 21:29 python我的最爱阅读(386) 评论(0) 推荐(0)

跟我学算法-吴恩达老师的logsitic回归

摘要：logistics回归是一种二分类问题，采用的激活函数是sigmoid函数，使得输出值转换为(0,1)之间的概率 A = sigmoid(np.dot(w.T, X) + b ) 表示预测函数 dz = A - Y ， A 表示的是预测结果， y 表示的是实际结果 cost = -y*logA - 阅读全文

posted @ 2018-09-18 23:36 python我的最爱阅读(499) 评论(0) 推荐(0)

跟我学算法-pca(降维)

摘要：pca是一种黑箱子式的降维方式，通过映射，希望投影后的数据尽可能的分散，因此要保证映射后的方差尽可能大，下一个映射的方向与当前映射方向正交 pca的步骤：第一步: 首先要对当前数据(去均值)求协方差矩阵，协方差矩阵= 数据*数据的转置/(m-1) m表示的列数，对角线上表示的是方差，其他位置表示阅读全文

posted @ 2018-08-24 22:16 python我的最爱阅读(670) 评论(0) 推荐(0)

跟我学算法聚类(DBSCAN)

摘要：DBSCAN 是一种基于密度的分类方法若一个点的密度达到算法设定的阖值则其为核心点（即R领域内点的数量不小于minPts）所以对于DBSCAN需要设定的参数为两个半径和minPts 我们以一个啤酒的分类指标来做第一步：提取数据，并分配变量第二步：构建模型,并做测试，我们使用的r半径为10，最小阅读全文

posted @ 2018-08-24 17:09 python我的最爱阅读(601) 评论(0) 推荐(0)

随笔分类 - 数据分析