07 2016 档案
摘要:参看博文http://www.tuicool.com/articles/2qYjuy 逻辑回归的输出范围是[0,1],根据概率值来判断因变量属于0还是属于1 实现过程分三步: indicated function指示函数
阅读全文
摘要:有这么一个问题,说我在看一篇文章,觉得不错,想要从书架的众多书籍中找相类似的文章来继续阅读,这该怎么办? 于是我们想到暴力解决法,我一篇一篇的比对,找出相似的 最近邻的概念很好理解,我们通过计算知道了每一篇文章和目标文章的距离,选择距离最小的那篇作为最相近的候选文章或者距离最小的一些文章作为候选文章
阅读全文
摘要:检索是什么,有什么用? 检索是指从文献资料、网络信息等信息集合中查找到自己需要的信息或资料的过程,在信息冗余的时代,高效的检索显得越发重要。 比如说我们如何从众多图片中找到和自家小狗相似的小狗的图片 如何从众多产品中找到我们想要购买的按摩椅 如何从众多电影/歌曲/电视节目中找到我们喜欢的 如何从新闻
阅读全文
摘要:集中式VS分布式 集中式是指所有资源都存储在中央服务器上,所有客户端必须在连接服务器的前提下才能进行查询修改等操作 分布式是指每个终端都有一份完整的资源副本,可以在本地随意修改查询,只需要不定时的与远端交换中心进行交流以提交或获取最新版本 分布式优点: 充分利用“三个臭皮匠赛过诸葛亮”思想,具有较高
阅读全文
摘要:The goal of this first notebook is to explore logistic regression and feature engineering目标是探索逻辑回归和特征工程 In this notebook you will use product review d
阅读全文
摘要:Welcome! Linear Classifiers & Logistic Regression 测验: Linear Classifiers & Logistic Regression 测验: Linear Classifiers & Logistic Regression 测验: Predic
阅读全文
摘要:本课程共有七周的学习安排: week1 Welcome引子 week2 Learning Linear Classifiers线性分类 week3 Decision Trees决策树 week4 Preventing Overfitting in Decision Trees防止过拟合 week5
阅读全文
摘要:在做分类时常常需要估算不同样本之间的相似性,通常采用的方法就是计算样本间的距离。 常用的有: 欧氏距离:源于欧式空间中两点的距离公式,np.outer(计算内积) 曼哈顿距离(城市街区距离) 切比雪夫距离:国际象棋 闵可夫斯基距离:闵氏距离不是一种距离,而是一组距离的定义 两个n维变量a(x11,x
阅读全文
摘要:谱聚类(Spectral Clustering,SC)是一种基于图论的聚类方法,将带权无向图划分为两个或两个以上的最优子图,使子图内部尽量相似,而子图间距离尽量远。能够识别任意形状的样本空间且收敛于全局最优解,基本思想是利用样本数据的相似矩阵(拉普拉斯矩阵)进行特征分解后得到的特征向量进行聚类。 对
阅读全文
摘要:持续学习完善中~ 分类模型的构造方法有:决策树,关联规则,贝叶斯,神经网络,规则学习,k-临近法,遗传算法,粗糙集以及模糊逻辑技术。 朴素贝叶斯 利用概率统计知识进行分类的算法 最大化后验概率P(Ci|X)可转化为最大化先验概率P(X|Ci)P(Ci) 前提是各属性之间互相独立 逻辑回归 决策树SV
阅读全文
摘要:完成任务时遇到的相关知识点: http://docs.scipy.org/doc/numpy/reference/generated/numpy.random.multivariate_normal.html 服从多元正态分布的随机样本 参数: 均值mean 方差cov http://docs.sc
阅读全文
摘要:鼓捣好久 终于了然了一些 0-1背包问题描述 有一个窃贼在偷窃一家商店时发现有n件物品,第i件物品价值为vi元,重量为wi,假设vi和wi都为整数。他希望带走的东西越值钱越好,但他的背包中之多只能装下W磅的东西,W为一整数。他应该带走哪几样东西? 【注】0-1背包问题中:每件物品或被带走,或被留下,
阅读全文
摘要:Learning Outcomes: By the end of this course, you will be able to: -Create a collaborative filtering system. 构建一个协调过滤系统 -Reduce dimensionality of data
阅读全文
摘要:Learning Outcomes: By the end of this course, you will be able to:(通过本章的学习,你将掌握) -Create a document retrieval system using k-nearest neighbors.用K近邻构建文
阅读全文
摘要:sudo init 3 关闭图形化界面(init 5) pwd 输出工作目录 clear清空屏幕 cd 改变工作目录 cp复制文件 rm删除文件 mv移动文件或重命名文件 echo显示特定内容 ctrl + r 历史输入命令重现 ctrl + a = home ctrl + c 强制终止 ln -s
阅读全文
摘要:有多条线可以降低绝对误差,但只有一条线可以降低平方误差和 Sum of Squared Errors (SSE) 监督学习 决策树(ID3算法、信息熵[父节点的信息熵=1]、信息增益) 计算信息熵 分类和回归 准确率的缺陷: 对于偏斜类(有很多样本点,但属于该类别的数目特别少) 绝不错杀一个 宁可天
阅读全文
摘要:第1章 文本1 第2章 数据结构55 第3章 算法103 第4章 日期和时间138 第5章 数学计算157 第6章 文件系统197 第7章 数据持久存储与交换267 第8章 数据压缩与归档340 第9章 加密378 第10章 进程与线程387 第11章 网络通信452 第12章 internet51
阅读全文
摘要:1. 切分文本 对于一个文本字符串,可以使用string.split()方法将其切分。 去掉标点符号,可以使用正则表示式来切分。自行学习re 去掉空字符串: 将字符串全部转换成大写:(转大写.upper(),转小写.lower()) 2. Ctypes 在python中创建和处理C数据 3. 提取字
阅读全文
摘要:str.capitalize() 首字母大写,其他小写 str.center(width[, fillchar]) Return centered in a string of length width. Padding is done using the specified fillchar(de
阅读全文
摘要:工厂函数set():去除重复数据 Python求幂运算 两种方式创建字典: 模块-命名空间、局部和全局命名空间 time: sleep(2) import time/from time import * random: randint(0,100)生成0-100随机整数,random(0,100)生
阅读全文
摘要:第一章 After successfully completing this course, you will be able to use regression methods in practice, implement some of the most fundamental algorith
阅读全文