随笔 - 480  文章 - 0 评论 - 45 阅读 - 73万
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

随笔分类 -  数据分析

1 2 下一页
跟我学算法 - 读取excel文件(xlrd)
摘要:import xlrd import numpy as np # fname 表示文件名 fname = '1白.xlsx'# 打开文件 bk = xlrd.open_workbook(fname)# 获取表格的个数 shxrange = bk.nsheets cast = []# 取第2个表格到最后一个表格 for i in range(1, shxrange): sh = bk.sh... 阅读全文
posted @ 2018-11-27 11:18 python我的最爱 阅读(230) 评论(0) 推荐(0) 编辑
解决pip安装时的Readtime out问题
摘要:方法一 pip --default-timeout=100 install -U Pillow就可以了方法二 pip install pyinstaller -i https://pypi.doubanio.com/simple指定网站 阅读全文
posted @ 2018-11-09 10:54 python我的最爱 阅读(435) 评论(0) 推荐(0) 编辑
跟我学算法-图像识别之图像分类(下)(GoogleNet网络, ResNet残差网络, ResNext网络, CNN设计准则)
摘要:1.GoogleNet 网络: Inception V1 - Inception V2 - Inception V3 - Inception V4 1. Inception v1 split - merge - 1*1卷积,3*3卷积, 5*5卷积, 3*3池化 输入层:inception 1*1 阅读全文
posted @ 2018-10-15 21:54 python我的最爱 阅读(1731) 评论(0) 推荐(0) 编辑
跟我学算法-图像识别之图像分类(上)(基础神经网络, 卷积神经网络(CNN), AlexNet,NIN, VGG)
摘要:1.基础神经网络: 输入向量x,权重向量w, 偏置标量b, 激活函数sigmoid(增加非线性度) 优化手段: 梯度下降优化, BP向后传播(链式规则) 梯度下降优化: 1. 使用得目标函数是交叉熵 c = 1/nΣΣ[yj*lnaj^2 + (1-yj)*ln(1-aj^2)] yj表示得是样本标 阅读全文
posted @ 2018-10-15 18:31 python我的最爱 阅读(618) 评论(0) 推荐(0) 编辑
跟我学算法-人脸识别(Siamese network) 推导
摘要:Siamese network 训练神经网络存在两种形式: 第一种:通过Siamese network 和 三元组损失函数 来训练图片之间的间隔 第二种: 通过Siamese network 和 sigmoid函数来实现二分类的训练 第一种情况: 在最后一层使用得是128, 1, d(x(1), x 阅读全文
posted @ 2018-10-15 11:44 python我的最爱 阅读(901) 评论(1) 推荐(1) 编辑
跟我学算法-xgboost(集成算法)基本原理推导
摘要:1.构造损失函数的目标函数 2.对目标函数进行泰勒展开 3.把样本遍历转换成叶子节点遍历,合并正则化惩罚项 4.求wj进行求导,使得当目标函数等于0时的wj的值 5.将求解得到的wj反导入方程中,解得最终的目标函数 6.对样本进行分割时,用分割前的目标函数的值-分割后左右子树的目标函数的值,来划分得 阅读全文
posted @ 2018-10-14 15:01 python我的最爱 阅读(219) 评论(0) 推荐(0) 编辑
跟我学算法-PCA(降维)基本原理推导
摘要:Pca首先 1.对数据进行去均值 2.构造一个基本的协方差矩阵1/m(X)*X^T 3对协方差矩阵进行变化,得到对角化矩阵,即对角化上有数值,其他位置上的数为0(协方差为0),即求特征值和特征向量的过程 4.求得特征向量的单位化矩阵,单位化特征向量矩阵*原始数据(去均值后的)即降维操作,单位化特征向 阅读全文
posted @ 2018-10-13 22:54 python我的最爱 阅读(499) 评论(0) 推荐(1) 编辑
跟我学算法-svm支持向量机算法推导
摘要:Svm算法又称为支持向量机,是一种有监督的学习分类算法,目的是为了找到两个支持点,用来使得平面到达这两个支持点的距离最近。 通俗的说:找到一条直线,使得离该线最近的点与该线的距离最远。 我使用手写进行了推导 求解实例 软间隔,通过设置C,使得目标函数的松弛因子发生变化,松弛因子越大,表示分类越不严格 阅读全文
posted @ 2018-10-13 21:19 python我的最爱 阅读(180) 评论(0) 推荐(0) 编辑
决策树与树集成模型(bootstrap, 决策树(信息熵,信息增益, 信息增益率, 基尼系数),回归树, Bagging, 随机森林, Boosting, Adaboost, GBDT, XGboost)
摘要:1.bootstrap 在原始数据的范围内作有放回的再抽样M个, 样本容量仍为n,原始数据中每个观察单位每次被抽到的概率相等, 为1/n , 所得样本称为Bootstrap样本。于是可得到参数θ的一个估计值θ^(b),这样重复若干次,记为B 。为了可以避免一些误差点对少量树的决策影响。 2.决策树 阅读全文
posted @ 2018-10-10 22:05 python我的最爱 阅读(922) 评论(0) 推荐(0) 编辑
图片拼接SIFT
摘要:图片拼接 SIFT: 特征点处理:位置插值,去除低对比度点,去除边缘点 方向估计 描述子提取 下面的程序中使用: 第一步: 使用SIFT生成器提取描述子和特征 第二步: 使用KNN检测来自A,B图的SIFT特征匹配对, 形成视觉变化矩阵H 第三步: 将图片A进行视觉变化,将B图片放在变换图片的左边, 阅读全文
posted @ 2018-10-08 17:04 python我的最爱 阅读(1119) 评论(0) 推荐(0) 编辑
图像特征与描述子(直方图, 聚类, 边缘检测, 兴趣点/关键点, Harris角点, 斑点(Blob), SIFI, 纹理特征)
摘要:1.直方图 用于计算图片特征,表达, 使得数据具有总结性, 颜色直方图对数据空间进行量化,好比10个bin 2. 聚类 类内对象的相关性高 类间对象的相关性差 常用算法:kmeans, EM算法, meanshift, 谱聚类(密度聚类), 层次聚类 kmeans聚类 选取k个类中心,随机选取 计算 阅读全文
posted @ 2018-10-08 15:30 python我的最爱 阅读(1895) 评论(0) 推荐(0) 编辑
跟我学算法-吴恩达老师(误差分析, 正确标注, 开发集和测试集的划分, 数据不匹配,迁移学习, 多任务学习, 端到端学习)
摘要:1. 误差分析 通过分析错误的标记,来判断主要是哪个原因引起了错误,这是猫的分类,观察被分错图片的原因,总结需要优化的条件 image Dog Great cat blurry comment 1 2 3 4 5 6 2. 进行正确标注 当前错误率为10%, 进行误差分析后,由于0.6%的错误标记引 阅读全文
posted @ 2018-10-02 15:32 python我的最爱 阅读(247) 评论(0) 推荐(0) 编辑
跟我学算法-吴恩达老师(正交化, 单实数评估指标, 满足指标, (训练集,开发集, 测试集的分布), 改变指标, 人类的表现 )
摘要:1.正交化 指使用单个手段来控制一个指标,如样本的偏差过大时,即欠拟合,就采用增加模型复杂程度,来降低样本偏差 2.单实数评估指标单实数评估样本也是我们平时常说的优化指标 accruacy = (tp + tn)/ (tp+fp+tn+fn) precesion = (tp) / (tp+fp) r 阅读全文
posted @ 2018-09-30 22:03 python我的最爱 阅读(177) 评论(0) 推荐(0) 编辑
跟我学算法-吴恩达老师(超参数调试, batch归一化, softmax使用,tensorflow框架举例)
摘要:1. 在我们学习中,调试超参数是非常重要的。 超参数的调试可以是a学习率,(β1和β2,ε)在Adam梯度下降中使用, layers层数, hidden units 隐藏层的数目, learning_rate_dacay 学习率衰减, mini-batch size 每次迭代的样本数目 当需要调节的 阅读全文
posted @ 2018-09-28 20:21 python我的最爱 阅读(380) 评论(0) 推荐(0) 编辑
跟我学算法-吴恩达老师(mini-batchsize,指数加权平均,Momentum 梯度下降法,RMS prop, Adam 优化算法, Learning rate decay)
摘要:1.mini-batch size 表示每次都只筛选一部分作为训练的样本,进行训练,遍历一次样本的次数为(样本数/单次样本数目) 当mini-batch size 的数量通常介于1,m 之间 当为1时,称为随机梯度下降 一般我们选择64,128, 256等样本数目 2. 指数加权平均 v0 = 0 阅读全文
posted @ 2018-09-25 16:25 python我的最爱 阅读(857) 评论(0) 推荐(0) 编辑
跟我学算法-吴恩达老师(偏差方差,正则化,正则化输入,梯度消失和爆炸,梯度检测)
摘要:1.训练样本的分布 交叉验证指的是训练集和验证集,为了防止在训练过程中受到部分训练样本的影响 一般当样本数目较少时,采用60/20/20的比例,60%的训练集,20%的验证集,20%的测试集当样本数目较大时,一般可以采用2.5%的验证集和1%的测试集,其他都是训练样本。 很多情况下,我们会不适用测试 阅读全文
posted @ 2018-09-25 13:59 python我的最爱 阅读(541) 评论(0) 推荐(0) 编辑
跟我学算法-吴恩达老师的浅层神经网络
摘要:浅层神经网络,这里使用的是一个输入层,一个隐层(4个神经元), 一个输出层 使用sigmoid函数做激活函数,在进行反向传播的梯度下降中,由于导数过小,速度下降会变得很慢,使用非线性激活函数,是为了使得中间层神经元连接是存在意义的. 一般我们在初始化w时,采用随机值做初始化,为了使得不同样本输入,在 阅读全文
posted @ 2018-09-20 21:29 python我的最爱 阅读(364) 评论(0) 推荐(0) 编辑
跟我学算法-吴恩达老师的logsitic回归
摘要:logistics回归是一种二分类问题,采用的激活函数是sigmoid函数,使得输出值转换为(0,1)之间的概率 A = sigmoid(np.dot(w.T, X) + b ) 表示预测函数 dz = A - Y , A 表示的是预测结果, y 表示的是实际结果 cost = -y*logA - 阅读全文
posted @ 2018-09-18 23:36 python我的最爱 阅读(470) 评论(0) 推荐(0) 编辑
跟我学算法-pca(降维)
摘要:pca是一种黑箱子式的降维方式,通过映射,希望投影后的数据尽可能的分散, 因此要保证映射后的方差尽可能大,下一个映射的方向与当前映射方向正交 pca的步骤: 第一步: 首先要对当前数据(去均值)求协方差矩阵,协方差矩阵= 数据*数据的转置/(m-1) m表示的列数,对角线上表示的是方差,其他位置表示 阅读全文
posted @ 2018-08-24 22:16 python我的最爱 阅读(638) 评论(0) 推荐(0) 编辑
跟我学算法聚类(DBSCAN)
摘要:DBSCAN 是一种基于密度的分类方法 若一个点的密度达到算法设定的阖值则其为核心点(即R领域内点的数量不小于minPts) 所以对于DBSCAN需要设定的参数为两个半径和minPts 我们以一个啤酒的分类指标来做第一步:提取数据,并分配变量 第二步:构建模型,并做测试,我们使用的r半径为10,最小 阅读全文
posted @ 2018-08-24 17:09 python我的最爱 阅读(555) 评论(0) 推荐(0) 编辑

1 2 下一页
点击右上角即可分享
微信分享提示