01 2019 档案
摘要:三句话总结: 原理:通过TCP/IP协议进行通信,实现扩屏 https://blog.csdn.net/qq_28106269/article/details/79297132 共屏软件:https://spacedesk.net/
阅读全文
摘要:推荐系统评测 什么才是好的推荐系统?这是推荐系统需要解决的首要问题。一个完整的推荐系统一般存在3个参与方:用户、物品系统者和提供推荐系统的网站。 推荐系统的实验方法 在介绍推荐系统的指标之前,首先看一下获取这些指标的主要实验方法。主要有3种:即离线实验、用户调查和在线实验 1.离线实验 离线实验的方
阅读全文
摘要:基于协同过滤的推荐系统 为了让推荐结果符合用户口味,我们需要深入了解用户和物品。用户的兴趣是不断变化的,但用户不会不停的更新兴趣描述。最后,很多时候用户并不知道自己喜欢什么,或者很难用语言描述自己喜欢什么,因此,我们需要通过算法自动发觉用户行为数据,从用户的行为中推测用户的兴趣,从而给用户推荐满足他
阅读全文
摘要:代码案例: 代码案例: import recsys.algorithm recsys.algorithm.VERBOSE = True from recsys.algorithm.factorize import SVD from recsys.datamodel.data import Data
阅读全文
摘要:k-means案例分析 手写数字数据上K-Means聚类的演示 from sklearn.metrics import silhouette_score from sklearn.cluster import KMeans def kmeans(): """ 手写数字聚类过程 :return: No
阅读全文
摘要:推荐系统 推荐系统 在研究如何涉及推荐系统之前,了解什么是好的推荐系统至关重要。 什么是推荐系统 如果想买牛肉,你有多少种方法?假设附近有一个24小时便利店,你可以走进店里,看看所有的货架,转一圈找到牛肉,然后比较几个牌子的口碑或者价格找到自己喜欢的牌子,掏钱付款。如果附近有宜家沃尔玛,你可以走进店
阅读全文
摘要:非监督学习之k-means 非监督学习之k-means K-means通常被称为劳埃德算法,这在数据聚类中是最经典的,也是相对容易理解的模型。算法执行的过程分为4个阶段。 1.首先,随机设K个特征空间内的点作为初始的聚类中心。 2.然后,对于根据每个数据的特征向量,从K个聚类中心中寻找距离最近的一个
阅读全文
摘要:非监督学习 从本节开始,将正式进入到无监督学习(Unsupervised Learning)部分。无监督学习,顾名思义,就是不受监督的学习,一种自由的学习方式。该学习方式不需要先验知识进行指导,而是不断地自我认知,自我巩固,最后进行自我归纳,在机器学习中,无监督学习可以被简单理解为不为训练集提供对应
阅读全文
摘要:回归算法之岭回归 具有L2正则化的线性最小二乘法。岭回归是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的拟合要强于最小二乘法。当数据集中存在共线性的时候,
阅读全文
摘要:岭回归案例分析 岭回归案例分析 def linearmodel(): """ 线性回归对波士顿数据集处理 :return: None """ # 1、加载数据集 ld = load_boston() x_train,x_test,y_train,y_test = train_test_split(l
阅读全文
摘要:线性回归案例分析 线性回归案例分析 波士顿房价预测 使用scikit-learn中内置的回归模型对“美国波士顿房价”数据进行预测。对于一些比赛数据,可以从kaggle官网上获取,网址:https://www.kaggle.com/datasets 1.美国波士顿地区房价数据描述 from sklea
阅读全文
摘要:欠拟合与过拟合 机器学习中的泛化,泛化即是,模型学习到的概念在它处于学习的过程中时模型没有遇见过的样本时候的表现。在机器学习领域中,当我们讨论一个机器学习模型学习和泛化的好坏时,我们通常使用术语:过拟合和欠拟合。我们知道模型训练和测试的时候有两套数据,训练集和测试集。在对训练数据进行拟合时,需要照顾
阅读全文
摘要:回归算法之线性回归 线性回归的定义是:目标值预期是输入变量的线性组合。线性模型形式简单、易于建模,但却蕴含着机器学习中一些重要的基本思想。线性回归,是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。 优点:结果易于理解,计算不复杂 缺点:对非线性
阅读全文
摘要:回归算法 回归是统计学中最有力的工具之一。机器学习监督学习算法分为分类算法和回归算法两种,其实就是根据类别标签分布类型为离散型、连续性而定义的。回归算法用于连续型分布预测,针对的是数值型的样本,使用回归,可以在给定输入的时候预测出一个数值,这是对分类方法的提升,因为这样可以预测连续型数据而不仅仅是离
阅读全文
摘要:逻辑回归算法案例分析 良/恶性乳腺癌肿瘤预测 原始数据的下载地址为:https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/ 数据预处理 import pandas as pd import
阅读全文
摘要:分类器性能评估 分类器性能评估 在许多实际问题中,衡量分类器任务的成功程度是通过固定的性能指标来获取。一般最常见使用的是准确率,即预测结果正确的百分比。然而有时候,我们关注的是负样本是否被正确诊断出来。例如,关于肿瘤的的判定,需要更加关心多少恶性肿瘤被正确的诊断出来。也就是说,在二类分类任务下,预测
阅读全文
摘要:分类算法之决策树 分类算法之决策树 决策树是一种基本的分类方法,当然也可以用于回归。我们一般只讨论用于分类的决策树。决策树模型呈树形结构。在分类问题中,表示基于特征对实例进行分类的过程,它可以认为是if-then规则的集合。在决策树的结构中,每一个实例都被一条路径或者一条规则所覆盖。通常决策树学习包
阅读全文
摘要:朴素贝叶斯 朴素贝叶斯 朴素贝叶斯(Naive Bayes)是一个非常简单,但是实用性很强的分类模型。朴素贝叶斯分类器的构造基础是贝叶斯理论。 概率论基础 概率定义为一件事情发生的可能性。事情发生的概率可以 通过观测数据中的事件发生次数来计算,事件发生的概率等于改事件发生次数除以所有事件发生的总次数
阅读全文
摘要:分类算法之逻辑回归 分类算法之逻辑回归 逻辑回归(Logistic Regression),简称LR。它的特点是能够是我们的特征输入集合转化为0和1这两类的概率。一般来说,回归不用在分类问题上,因为回归是连续型模型,而且受噪声影响比较大。如果非要应用进入,可以使用逻辑回归。了解过线性回归之后再来看逻
阅读全文
摘要:分类算法之k-近邻 分类算法之k-近邻 k-近邻算法采用测量不同特征值之间的距离来进行分类 优点:精度高、对异常值不敏感、无数据输入假定 缺点:计算复杂度高、空间复杂度高 使用数据范围:数值型和标称型 一个例子弄懂k-近邻 电影可以按照题材分类,每个题材又是如何定义的呢?那么假如两种类型的电影,动作
阅读全文
摘要:k-近邻算法案例分析 本案例使用最著名的”鸢尾“数据集,该数据集曾经被Fisher用在经典论文中,目前作为教科书般的数据样本预存在Scikit-learn的工具包中。 读入Iris数据集细节资料 from sklearn.datasets import load_iris # 使用加载器读取数据并且
阅读全文
摘要:estimator的工作流程 estimator的工作流程 在sklearn中,估计器(estimator)是一个重要的角色,分类器和回归器都属于estimator。在估计器中有有两个重要的方法是fit和transform。 fit方法用于从训练集中学习模型参数 transform用学习到的参数转换
阅读全文
摘要:模型检验-交叉验证 模型检验-交叉验证 一般在进行模型的测试时,我们会将数据分为训练集和测试集。在给定的样本空间中,拿出大部分样本作为训练集来训练模型,剩余的小部分样本使用刚建立的模型进行预测。 训练集与测试集 训练集与测试集的分割可以使用cross_validation中的train_test_s
阅读全文
摘要:模型的选择 模型的选择 算法是核心,数据和计算是基础。这句话很好的说明了机器学习中算法的重要性。那么我们开看下机器学习的几种分类: 监督学习 分类 k-近邻算法、决策树、贝叶斯、逻辑回归(LR)、支持向量机(SVM) 回归 线性回归、岭回归 标注 隐马尔可夫模型(HMM) 无监督学习 聚类 k-me
阅读全文
摘要:scikit-learn数据集 scikit-learn数据集 我们将介绍sklearn中的数据集类,模块包括用于加载数据集的实用程序,包括加载和获取流行参考数据集的方法。它还具有一些人工数据生成器。 sklearn.datasets (1)datasets.load_*() 获取小规模数据集,数据
阅读全文
摘要:sklearn数据集与机器学习组成 sklearn数据集与机器学习组成 机器学习组成:模型、策略、优化 《统计机器学习》中指出:机器学习=模型+策略+算法。其实机器学习可以表示为:Learning= Representation+Evalution+Optimization。我们就可以将这样的表示和
阅读全文
摘要:数据的特征选择 降维本质上是从一个维度空间映射到另一个维度空间,特征的多少别没有减少,当然在映射的过程中特征值也会相应的变化。举个例子,现在的特征是1000维,我们想要把它降到500维。降维的过程就是找个一个从1000维映射到500维的映射关系。原始数据中的1000个特征,每一个都对应着降维后的50
阅读全文
摘要:数据的特征选择 数据的特征选择 降维本质上是从一个维度空间映射到另一个维度空间,特征的多少别没有减少,当然在映射的过程中特征值也会相应的变化。举个例子,现在的特征是1000维,我们想要把它降到500维。降维的过程就是找个一个从1000维映射到500维的映射关系。原始数据中的1000个特征,每一个都对
阅读全文
摘要:数据的特征抽取 数据的特征抽取 现实世界中多数特征都不是连续变量,比如分类、文字、图像等,为了对非连续变量做特征表述,需要对这些特征做数学化表述,因此就用到了特征提取. sklearn.feature_extraction提供了特征提取的很多方法 分类特征变量提取 我们将城市和环境作为字典数据,来进
阅读全文
摘要:数据的特征预处理 数据的特征预处理 单个特征 (1)归一化 归一化首先在特征(维度)非常多的时候,可以防止某一维或某几维对数据影响过大,也是为了把不同来源的数据统一到一个参考区间下,这样比较起来才有意义,其次可以程序可以运行更快。 例如:一个人的身高和体重两个特征,假如体重50kg,身高175cm,
阅读全文
摘要:Scikit-learn与特征工程 Scikit-learn与特征工程 Scikit-learn与特征工程 “数据决定了机器学习的上限,而算法只是尽可能逼近这个上限”,这句话很好的阐述了数据在机器学习中的重要性。大部分直接拿过来的数据都是特征不明显的、没有经过处理的或者说是存在很多无用的数据,那么需
阅读全文
摘要:数据的来源与类型 数据的来源与类型 大部分的数据都来自已有的数据库,如果没有的话也可以交给很多爬虫工程师去采集,来提供。也可以来自平时的记录,反正数据无处不在,大都是可用的。 数据的类型 按照机器学习的数据分类我们可以将数据分成: 标称型:标称型目标变量的结果只在有限目标集中取值,如真与假(标称型目
阅读全文
摘要:分布式Tensorflow 分布式Tensorflow Tensorflow的一个特色就是分布式计算。分布式Tensorflow是由高性能的gRPC框架作为底层技术来支持的。这是一个通信框架gRPC(google remote procedure call),是一个高性能、跨平台的RPC框架。RPC
阅读全文
摘要:什么是机器学习 机器学习是人工智能的一个分支。人工智能的研究是从以“推理”为重点到以“知识”为重点,再到以“学习”为重点,一条自然、清晰的脉络。机器学习是实现人工智能的一个途径,即以机器学习为手段解决人工智能中的问题。机器学习算法是一类从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测的
阅读全文
摘要:训练以及高级会话函数 训练以及高级会话函数 主训练逻辑 我们将在cifar_train.py文件实现主要训练逻辑。在这里我们将使用一个新的会话函数,叫tf.train.MonitoredTrainingSession 优点: 1、它自动的建立events文件、checkpoint文件,以记录重要的信
阅读全文
摘要:分布式接口 分布式接口 创建集群的方法是为每一个任务启动一个服务,这些任务可以分布在不同的机器上,也可以同一台机器上启动多个任务,使用不同的GPU等来运行。每个任务都会创建完成一下工作 1、创建一个tf.train.ClusterSpec,用于对集群中的所有任务进行描述,该描述内容对所有任务应该是相
阅读全文
摘要:多分类图像识别案例 多分类图像识别案例 CIFAR-10 CIFAR-10数据集由10个类别的60000 32x32彩色图像组成,每个类别有6000张图像。有50000个训练图像和10000个测试图像。数据集分为五个训练集和一个测试集,每个集有10000个图像。测试集包含来自每个类的正好1000个随
阅读全文
摘要:模型接口建立 模型接口的建立 我们将模型接口都放在cifar_omdel.py文件当中,设计了四个函数,input()作为从cifar_data文件中数据的获取,inference()作为神经网络模型的建立,total_loss()计算模型的损失,train()来通过梯度下降训练减少损失 input
阅读全文
摘要:图像识别卷积网络实现案例 Mnist数据集卷积网络实现 前面在MNIST上获得92%的准确性是不好的,对于CNN网络来说,我们同样使用Mnist数据集来做案例,这可以使我们的准确率提升很多。在感受输入通道时不是那么明显,因为是黑白图像的只有一个输入通道。那么在Tensorflow中,神经网络相关的操
阅读全文
摘要:网络优化改进 网络优化改进 网络优化的方法有很多,在这里我们使用其中一种优化方式。在我们的模型训练时候,会有一个重要的因素需要设定,就是学习率。那么在手动设定学习率的时候不一定准确。 这种人为的设定对于模型的输出影响较大。所以在这里引入了一种自动更新学习率的函数。 指数衰减学习率exponentia
阅读全文
摘要:多分类图像识别案例 多分类图像识别案例 CIFAR-10 CIFAR-10数据集由10个类别的60000 32x32彩色图像组成,每个类别有6000张图像。有50000个训练图像和10000个测试图像。数据集分为五个训练集和一个测试集,每个集有10000个图像。测试集包含来自每个类的正好1000个随
阅读全文
摘要:卷积神经网络与图像识别 我们介绍了人工神经网络,以及它的训练和使用。我们用它来识别了手写数字,然而,这种结构的网络对于图像识别任务来说并不是很合适。本文将要介绍一种更适合图像、语音识别任务的神经网络结构——卷积神经网络(Convolutional Neural Network, CNN)。说卷积神经
阅读全文
摘要:ANN网络分析 Mnist手写数字识别 Mnist数据集可以从官网下载,网址: http://yann.lecun.com/exdb/mnist/ 下载下来的数据集被分成两部分:55000行的训练数据集(mnist.train)和10000行的测试数据集(mnist.test)。每一个MNIST数据
阅读全文
摘要:神经网络基础与人工神经网络 神经网络方面的研究很早就已出现,今天“神经网络”已是一个相当大的、多学科交叉的学科领域。神经网络中最基本的成分是神经元模型。 上图中每个圆圈都是一个神经元,每条线表示神经元之间的连接。我们可以看到,上面的神经元被分成了多层,层与层之间的神经元有连接,而层内之间的神经元没有
阅读全文
摘要:神经网络与深度学习 深度学习(deep learning)是机器学习拉出的分支,它试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的方法。观测值(例如一幅图像)可以使用多种方式来表示,如每个像素强度值的向量,或者更抽象地表
阅读全文
摘要:可视化学习Tensorboard TensorBoard 涉及到的运算,通常是在训练庞大的深度神经网络中出现的复杂而又难以理解的运算。为了更方便 TensorFlow 程序的理解、调试与优化,发布了一套叫做 TensorBoard 的可视化工具。你可以用 TensorBoard 来展现你的 Tens
阅读全文
摘要:图像操作 图像操作 图像基本概念 在图像数字化表示当中,分为黑白和彩色两种。在数字化表示图片的时候,有三个因素。分别是图片的长、图片的宽、图片的颜色通道数。那么黑白图片的颜色通道数为1,它只需要一个数字就可以表示一个像素位;而彩色照片就不一样了,它有三个颜色通道,分别为RGB,通过三个数字表示一个像
阅读全文
摘要:读取数据 小数量数据读取 这仅用于可以完全加载到存储器中的小的数据集有两种方法: 存储在常数中。 存储在变量中,初始化后,永远不要改变它的值。 使用常数更简单一些,但是会使用更多的内存,因为常数会内联的存储在数据流图数据结构中,这个结构体可能会被复制几次。 要改为使用变量的方式,您就需要在数据流图建
阅读全文
摘要:线程和队列 线程和队列 在使用TensorFlow进行异步计算时,队列是一种强大的机制。 为了感受一下队列,让我们来看一个简单的例子。我们先创建一个“先入先出”的队列(FIFOQueue),并将其内部所有元素初始化为零。然后,我们构建一个TensorFlow图,它从队列前端取走一个元素,加上1之后,
阅读全文
摘要:模型保存与恢复、自定义命令行参数、 在我们训练或者测试过程中,总会遇到需要保存训练完成的模型,然后从中恢复继续我们的测试或者其它使用。模型的保存和恢复也是通过tf.train.Saver类去实现,它主要通过将Saver类添加OPS保存和恢复变量到checkpoint。它还提供了运行这些操作的便利方法
阅读全文
摘要:图与会话 图与会话 图 tf.Graph TensorFlow计算,表示为数据流图。一个图包含一组表示 tf.Operation计算单位的对象和tf.Tensor表示操作之间流动的数据单元的对象。默认Graph值始终注册,并可通过调用访问 tf.get_default_graph。 a = tf.c
阅读全文
摘要:变量作用域 tensorflow提供了变量作用域和共享变量这样的概念,有几个重要的作用。 让模型代码更加清晰,作用分明 变量作用域域 通过tf.variable_scope(<scope_name>)创建指定名字的变量作用域 加上with语句就可以在整个itcast变量作用域下就行操作。 嵌套使用
阅读全文
摘要:变量的的创建、初始化、保存和加载 其实变量的作用在语言中相当,都有存储一些临时值的作用或者长久存储。在Tensorflow中当训练模型时,用变量来存储和更新参数。变量包含张量(Tensor)存放于内存的缓存区。建模时它们需要被明确地初始化,模型训练后它们必须被存储到磁盘。值可在之后模型训练和分析是被
阅读全文
摘要:张量操作 在tensorflow中,有很多操作张量的函数,有生成张量、创建随机张量、张量类型与形状变换和张量的切片与运算 生成张量 固定值张量 创建所有元素设置为零的张量。此操作返回一个dtype具有形状shape和所有元素设置为零的类型的张量。 给tensor定单张量(),此操作返回tensor与
阅读全文
摘要:Linux上安装Oracle 10g: http://69520.blog.51cto.com/59520/91156
阅读全文
摘要:2. Mybatis介绍 2. Mybatis介绍 MyBatis 本是apache的一个开源项目iBatis, 2010年这个项目由apache software foundation 迁移到了google code,并且改名为MyBatis 。2013年11月迁移到Github。 MyBatis
阅读全文
摘要:2 整合ssh框架 2.1 依赖传递 只添加了一个struts2-core依赖,发现项目中出现了很多jar, 这种情况 叫 依赖传递 2.2 依赖版本冲突的解决 1、 第一声明优先原则 2、 路径近者优先原则 自己添加jar包 3、 排除原则 4、 版本锁定原则 需求: 传客户ID 页面上显示客户信
阅读全文
摘要:1 Maven的概述 1.1 依赖管理 就是对jar包的统一管理 可以节省空间 1.2 项目一键构建 编码 编译 测试(junit) 运行 打包 部署 一个 tomcat:run就能把项目运行起来 Maven能干的事: 编译 测试(junit) 运行 打包 部署 1.3 可以跨平台 1.4 应用于大
阅读全文