07 2018 档案
摘要:文本 文本预处理 1. 中文分词:分词工具: "jieba" / "snownlp" /...,是否需要去除停用词? 2. word embedding:工具:word2vec/ doc2vec/ TF IDF/ CountVectorizer/ HashVectorizer/ ....作为模型输入
阅读全文
摘要:tf.nn.softmax softmax是神经网络的最后一层将实数空间映射到概率空间的常用方法,公式如下: 本文意于分析tensorflow中的 ,关于softmax的具体推导和相关知识点,参照
阅读全文
摘要:Deep Joint Rain Detection and Removal from a Single Image[1] 简介:多任务全卷积从单张图片中去除雨迹。本文在现有的模型上,开发了一种多任务深度学习框架,学习了三个方面,包括二元雨条纹映射(binary rain streak map),雨条
阅读全文
摘要:Benchmarking Streaming Computation Engines: Storm, Flink and Spark Streaming[1] 简介:雅虎发布的一份各种流处理引擎的基准测试,包括Storm, Flink, Spark Streaming 动机:贴近生产环境,使用Kaf
阅读全文
摘要:斯特林数和欧拉数 斯特林数主要处理的是将N个不同元素分成k个集合或环的个数问题,可以分为第一类斯特林数和第二类斯特林数,其中第一类斯特林数还分为有符号和无符号两种。 第一类斯特林数 第一类斯特林数表示的是将n个不同元素分成k个不同环的方案数,当且仅当两
阅读全文
摘要:1 Introduction 信息时代产生了大量的数据,运用和使用数据已经成为一个公司乃至一个国家核心实力的重要组成部分。当代大数据一般指的是:数据量巨大,需要运用新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长和多样化的信息资产。大数据的特征有四个层面:第一:数据量巨大,从TB级
阅读全文
摘要:老师的具体数学作业要电子版了,那就把我自己的解答放在这里。 10. $$ \begin{array}{l} \left \lceil \frac{2x+1} {2} \right \rceil \left \lceil \frac{2x+1} {4} \right \rceil+\left \lfl
阅读全文
摘要:Java简介 Java语言体系中,最基础的部分是Java SE,其是Java的标准版本,包含了Java的一些面向对象的特性等;Java EE是Java的企业版;Java ME用于嵌入式开发 JVM:Java Virtual Machine;JRE:Java Runtime Environment;J
阅读全文
摘要:如何表示词语的意思 语言学中meaning近似于“指代,代指,符号”。 计算机中如何处理词语的意思 过去一直采用 ,计算语言学中常见的方式时WordNet那样的词库,比如NLTK中可以通过WordNet查询熊猫的上位词(hypernums),得到“食肉动物”,“动物”之类的上位词。也可以查询“goo
阅读全文
摘要:何为自然语言处理 自然语言处理的目标是让计算机处理或者“理解”自然语言,以完成有意义的任务,如QA等。 自然语言处理涉及的层次 输入有两个来源:语音和文本,所以第一级是语音识别,OCR或者分词 形态学(Morphological analysis)或称词法或者词汇形态学。其研究词的内部结构,包括屈折
阅读全文
摘要:曲线拟合的几种方法 最大似然估计MLE,最大后验概率MAP: "MLE和MAP" MLE 给定一堆数据,假如我们知道它是从某一种分布中随机取出来的,可是我们并不知道这个分布具体的参,即“模型已定,参数未知”。最大化: MAP 假如这个参数有一个先验概率,比如说,在抛硬币的例子中,假如我们的经验告诉我
阅读全文
摘要:特征和数据决定了机器学习效果的上限,而算法和模型不过是接近这个上限而已,因此 对于机器学习是及其重要的。 一图胜前言[1]: 数据清洗 在实际的应用过程中,数据是十分的杂乱的,可能包含大量的噪音,缺失值等,所以需要通过一些方法,尽可能提高数据质量。一般包括: 分析数据 缺失值处理 异常值处理 噪音数
阅读全文
摘要:本文转载修改自: "知乎 科言君" 感知机(perceptron) 神经网络技术起源于上世纪五、六十年代,当时叫 ,拥有输入层、输出层和一个隐含层。输入的特征向量通过隐含层变换达到输出层,在输出层得到分类结果。早期感知机的推动者是Rosenblatt。但是,Rosenblatt的单层感知机有一个严重
阅读全文
摘要:Decision Tree builds classification or regression models in the form of a tree structure. It break down dataset into smaller and smaller subsets while
阅读全文
摘要:参考文献: "PRML2" 参数方法和非参数方法 机器学习上的方法分为参数方法(根据先验知识假定模型服从某种分布,然后利用训练集估计出模型参数,也就弄清楚了整个模型,例如感知器)和非参数方法(基于记忆训练集,然后根据训练集预测,例如kNN)。 参数方法 参数方法根据先验知识假定模型服从某种分布,然后
阅读全文
摘要:Bigtable最初是谷歌设计用来存储大规模结构化数据的分布式系统,其可以在数以千计的商用服务器上存储高达PB级别的数据量。开源社区根据Bigtable的设计思路开发了 "HBase" 。其优势在于提供了高效的随机读写,缺陷在于不(原生)支持类SQL的数据分析。 Bigtable的设计目标是:适应性
阅读全文
摘要:xgboost和gdbt 在科学研究中,有种优化方法叫组合,将很多人的方法组合在一起做成一个集成的方法,集百家之长,效果一般就会比单个的好,这个方法就是集成学习。集成学习将弱学习算法通过组合提升为强学习算法。这要求每个弱学习方法要具有一定的准确性,并且之间具有差异性,即集成学习,关键在于各个弱分类器
阅读全文
摘要:HDFS(Hadoop Distributed File System)是一个运行在商用机器上面的分布式文件系统,其设计思想来自于google著名的Google File System论文。 HDFS的设计目标:为何产生HDFS? 由于数据量的急剧增大,原有的单机多磁盘因为速度,存储量等原因,已经远
阅读全文
摘要:对模型参数进行限制或者规范化能将一些参数朝着0收缩(shrink)。使用收缩的方法的效果提升是相当好的,岭回归(ridge regression,后续以ridge代称),lasso和弹性网络(elastic net)是常用的变量选择的一般化版本。弹性网络实际上是结合了岭回归和lasso的特点。 La
阅读全文
摘要:常规参数General Parameters 1. booster[default=gbtree]:选择基分类器,可以是:gbtree,gblinear或者dart。gbtree和draf基于树模型,而gblinear基于线性模型。 2. slient[default=0]:是否有运行信息输出,设置
阅读全文
摘要:LightGBM介绍 xgboost是一种优秀的boosting框架,但是在使用过程中,其训练耗时过长,内存占用比较大。微软在2016年推出了另外一种boosting框架——lightgbm,在不降低准确度的的前提下,速度提升了10倍左右,占用内存下降了3倍左右。详细的实验结果参见: "LightG
阅读全文
摘要:我们可以使用最小二乘法求解线性回归: β即是我们模型训练获得的系数。但是这里有个问题即是涉及到了矩阵求逆,这就要求XTX可逆,在实际的应用中,很多情况下,矩阵是不可逆的,如何处理呢?我们可以求矩阵的伪逆,函数原型: 计算一个矩阵的伪逆(Moore Penrose)。 a:(m,n)要求逆的矩阵 rc
阅读全文
摘要:过拟合是机器学习的模型建立中,由于独立同分布的假设可能并不成立,为了提高模型泛化的能力(推广到未知数据的能力),所以必须在训练模型中抗过拟。 过拟合一直是机器学习中比较头疼的问题。常用的方法有:正则化Regularization(在目标函数或者代价函数加上正则项),early stopping,数据
阅读全文
摘要:什么是TF IDF TF IDF(term frequency inverse document frequency)词频 逆向文件频率。在处理文本时,如何将文字转化为模型可以处理的向量呢?TF IDF就是这个问题的解决方案之一。字词的重要性与其在文本中出现的频率成正比(TF),与其在语料库中出现的
阅读全文
摘要:sklearn中的LinearRegression 函数原型: fit\_intercept:模型是否存在截距 normalize:模型是否对数据进行标准化(在回归之前,对X减去平均值再除以二范数),如果fit\_intercept被设置为False时,该参数将忽略。 该函数有属性:coef\_可供
阅读全文
摘要:python的matplotlib包可以帮助我们绘制丰富的图表,有助于我们的数据分析。 matplotlib官方文档: "matplotlib" 本博客所有代码默认导入matplotlib.pyplot和numpy包,即默认有以下代码: import matplotlib.pyplot as plt
阅读全文
摘要:nltk(Natural Language Toolkit)是处理文本的利器。 安装 进入python命令行,键入nltk.download()可以下载nltk需要的语料库等等。 分词 按词语分割(传入句子) sentence='hello,world!' tokens=nltk.word_toke
阅读全文
摘要:Hadoop是一个利用大规模计算机集群,可处理大量数据的分布式并行框架。 "Hadoop 官网" Hadoop的核心设计包括HDFS和MapReduce。 HDFS HDFS(Hadoop Distributed File System)是一种分布式文件系统。 主要特点:1.高容错性;2.高吞吐量访
阅读全文
摘要:Hadoop是一个利用大规模计算机集群,可处理大量数据的分布式并行框架。 "Hadoop 官网" Hadoop的核心设计包括HDFS和MapReduce。 HDFS HDFS(Hadoop Distributed File System)是一种分布式文件系统。 主要特点:1.高容错性;2.高吞吐量访
阅读全文
摘要:微博评论API 想要爬取某一条微博的评论,首先会想到微博官方提供的API,但是不巧的是,官方提供的api能够获取的评论数量有限,不足以分析,那怎么办呢? 我们想到了网页端,手机端的微博,希望直接爬取上面的数据。试了下网页端,可能网页做得很完善了吧,网页端找不到突破口,于是想到手机端碰碰运气。通过使用
阅读全文
摘要:Power BI是微软开发的一款简单易用的数据可视化软件。 导入数据 使用Power BI的第一步是将数据导入到软件中。获取数据 更多,可以看到可使用多种数据源,甚至微软提供了一些联机的数据源供分析。 由于我要分析的数据在Mysql中,因此选择“Mysql 数据库”作为数据源,选中“Mysql 数据
阅读全文
摘要:在一个经典的数据架构中,Hadoop是处理复杂数据流的核心。数据从各种系统中收集而来,并汇总导入到Hadoop分布式文件系统HDFS中,然后通过MapReduce或者其它基于MapReduce封装的语言如Hive,Pig等进行处理,将处理后的数据导出即可。具体例子而言,如果一个大型网站需要做网站点击
阅读全文
摘要:Python优秀的集成开发环境有PyCharm,Visual Studio Code等,当然你仍然可以使用Visual Studio进行开发。如果你熟悉Visual Studio,使用Visual Studio你将获得更熟悉的开发体验。 在Visual Studio上安装Python 网络上的关于V
阅读全文
摘要:Support Vector Machines Unsupervised Learning Dimensionality Reduction
阅读全文
摘要:Neural Networks: Learning Advice for Applying Machine Learning Machine Learning System Design
阅读全文
摘要:在8月22日至8月23日期间利用爬虫,随机爬取了58,634名知乎用户的基本信息。信息条数有限,因此并不能保证准确,但应能反映大致的趋势。数据来源于 "知乎" ,数据分析使用Microsoft Power BI 现将所得数据粗略汇总如下: 知乎Top10榜单 在收集到的用户信息中,获赞数最多的10位
阅读全文
摘要:Anomaly Detection Recommender Systems Large Scale Machine Learning
阅读全文
摘要:代价函数cost function 公式: 其中,变量θ(Rn+1或者R(n+1) 1) 向量化: Octave实现: function J = computeCost(X, y, theta) %COMPUTECOST Compute cost for linear regression % J
阅读全文
摘要:Logistic Regression Regularization Neural Networks: Representation
阅读全文
摘要:吴恩达(Andrew Ng)机器学习课程: "课程主页" 由于博客编辑器有些不顺手,所有的课程笔记将全部以手写照片形式上传。有机会将在之后上传课程中各个ML算法实现的Octave版本。 Linear Regression with One Variable Linear Algebra Review
阅读全文
摘要:现在我们有了假设函数和评价假设准确性的方法,现在我们需要确定假设函数中的参数了,这就是梯度下降(gradient descent)的用武之地。 梯度下降算法 不断重复以下步骤,直到收敛(repeat until convergence): 其中,j=0,1表示特征索引值 对线性回归使用梯度下降法 另
阅读全文
摘要:coursera上吴恩达的机器学习课程使用Octave/Matlab实现算法,有必要知道Octave简单的语句。最重要的:在遇到不会的语句,使用'''help '''或者'''doc '''查看官方文档。 基本操作 help/显示命令的简要帮助信息 doc/显示命令的详细帮助文档 length/应用
阅读全文
摘要:从数据中寻找规律 1. 使用模型刻画(拟合)规律:正确的总体趋势;对每一点都有偏差 2. 机器学习发展的源动力:从历史数据找出规律,把这些规律用到对未来自动做出决定;用数据代替专家;经济驱动,数据变现 3. 业务系统的变化 离线学习:之前的数据,批处理,训练 在线学习:实时学习,用户每产生一条数据,
阅读全文
摘要:引入额外标记 xj(i) 第i个训练样本的第j个特征 x(i) 第i个训练样本对应的列向量(column vector) m 训练样本的数量 n 样本特征的数量 假设函数(hypothesis function) 公式: 向量化: 其中:令x0=1,x0引入的目的是为了“美化”,以便于矩阵计算 使用
阅读全文
摘要:本文参考w3cshool中文教程,网址:http://www.w3school.com.cn/jquery/index.asp 简介 jQuery是一个Javascript库,使用其的主要目的是简化Javascript的使用。 将jQuery引入网页中的方法: `` 注:HTML5不需要加 jQue
阅读全文
摘要:前言 视图即是用户与Web应用程序的接口,用户通常会看到视图,然后在视图上进行交互,Web应用程序的视图通常是HTML格式。 首先了解控制器选择返回哪个视图的问题。新建一个项目,浏览到/Home/About,可以发现,ASP.NET MVC自动返回了位于项目目录下的/Views/Home/About
阅读全文
摘要:什么是机器学习 1. 定义 对于某个任务T和表现的衡量P,当计算机程序在该任务T的表现上,经过P的衡量,随着经验E而增长,称计算机能够通过经验E来学习该任务。(Tom Mitchell) 2. 举例而言,在跳棋游戏中,任务T为玩跳棋游戏,衡量P是游戏输赢,经验E是一局又一局的游戏。 监督学习(sup
阅读全文
摘要:控制器的定义 MVC模式下的控制器(Controller)主要负责响应用户的输入,并且在响应时可能的修改模型(Model)。 之前的URL访问,通常是通过指定服务器的路径来实现,如访问URL:http://www.example.com/hello.html ,是访问域名为http://www.ex
阅读全文
摘要:前述文章参见: "ASP.NET MVC控制器Controller" 绪论 之前的控制器返回的均为常量字符串,接下来展示如何获取请求传来的参数,而返回“动态”的字符串。 可以在操作方法Browse添加一个string类型的genre参数,以实现获取请求传来的字符串值。当这个方法被调用时,ASP.NE
阅读全文
摘要:描述 一个街区有很多住户,街区的街道只能为东西、南北两种方向。 住户只可以沿着街道行走。 各个街道之间的间隔相等。 用(x,y)来表示住户坐在的街区。 例如(4,20),表示用户在东西方向第4个街道,南北方向第20个街道。 现在要建一个邮局,使得各个住户到邮局的距离之和最少。 求现在这个邮局应该建在
阅读全文
摘要:创建 新建 项目 展开Web ASP.NET Web应用程序 MVC 确认 ASP.NET MVC应用程序的目录结构 /Controllers该目录保存处理URL请求的Controller类 /Models该目录保存负责表示和操作数据的类 /Views该目录保存呈现输出的文件(一般为HTML文件等)
阅读全文
摘要:准备工作: 启动服务端; 启动客户端 创建和检索字符串 ,创建字符串: ,默认key不存在的情况下将自动创建。可以附加参数 /`xx`实现只有在key不存在的情况下成功/只有在key存在的情况下成功 ,检索字符串: 加法器, :value+1; :value+一个整数n ,`mget mset a
阅读全文
摘要:/`DEL` 判断某个key是否存在 删除某个key /`KEYS` 获取key的类型,返回值为none(不存在)/string/hash/set/zset/list 返回符合key_pattern的key列表,e.g.: 若名为mykey的key存在将被返回 /`CLEAR` 将返回随机的key
阅读全文
摘要:Redis介绍 Redis是一种Key Value存储系统(数据库),其提供了一组丰富的数据结构,如List,Sets,Hashes和Ordered Sets Redis安装 Redis下载地址百度即可,这里下载redis 2.8.9版本。 解压刚刚的压缩包 进入刚刚解压得到的目录 编译 测试安装是
阅读全文
摘要:1. 绪论 之前一直使用cnblog写博客,现在将博客迁移至Microsoft Azure上的Ghost博客上,Ghost博客使用Markdown书写博客,页面简洁,是我喜欢的风格。具体参见官网:https://ghost.org/ ,将创建流程介绍一下。 2. 在Azure上搭建Ghost博客 不
阅读全文
摘要:模型表达(model regression) 1. 用于描述回归问题的标记 m 训练集(training set)中实例的数量 x 特征/输入变量 y 目标变量/输出变量 (x,y) 训练集中的实例 (x(i),y(i)) 第i个观察实例 h 机器学习算法中的解决方案和函数,即假设(hypothes
阅读全文
摘要:超平面(hyperplane) 超平面:超平面是n维欧氏空间中余维度等于一的线性子空间,也就是说必须是(n 1)维度。这是平面中的直线、三维空间中平面的推广(n大于3才被称为“超”平面),是纯粹的数学概念,不是现实的物理概念。 线性可分(linearly separable):分布于 D 维空间中的
阅读全文
摘要:前言:这种问题,本来不应该写篇博客的,但是实在是折磨我太久了,现在终于修好了,必须记一下,否则对不起自己的时间,对自己的博客道歉 简介 环境:Windows 10+JDK1.8+Intellij Idea,无需手动安装Hadoop Maven Maven是项目管理及自动构建工具,由Apache软件基
阅读全文
摘要:Java语言是面向对象的,但Java中的基本数据类型却不是面向对象的。因此Java为每种基本数据类型也设计了一种对应的类,这8个和基本数据类型对应的类称为 (Wrapper Class),也称为外覆类或者数据类型类。包装类均位于java.lang包中。 | 基本数据类型 | 对应包装类 | | :
阅读全文
摘要:`J2SE Java 2 Stardard Edition`。Java 2包括:标准版J2SE,企业版J2EE和微缩版J2ME 动态实例化类 在Java中,类的实例化有以下方法: 使用 使用Class对象的 方法 使用 方法,对现有实例拷贝 通过 的`readObject()`方法反序列化类 的概念
阅读全文
摘要:Hadoop和Spark关系 Spark比Hadoop快的原因:Hadoop在MapReduce后会将结果写入磁盘,第二次MapReduce再取出,Spark去除了两次运算间多余的IO消耗,直接将数据缓存在内存中。 Spark运行原理 提交作业 启动Driver进程 申请资源,即Executor进程
阅读全文
摘要:本文作为SQL语句快速复习之用 SQL基础 1. 表具有一些特性,这些特性定义了数据在表中如何存储,包含存储什么样的数据,数据如何分解,各部分信息如何重命名等信息,描述表的这组信息的就是所谓的 2. SQL中,即使不一定需要,加上分号也没有坏处 3. SQL 不区分大小写 ,但是表名,列名和值可能有
阅读全文
摘要:Capsule Network最大的特色在于vector in vector out & 动态路由算法。 vector in vector out 所谓vector in vector out指的是将原先使用 标量表示 的神经元变为使用 向量表示 的神经元。这也即是所谓的“Capsule”,“vec
阅读全文