上一页 1 2 3 4 5 6 7 8 9 ··· 14 下一页
摘要: 已经有Windows 7,准备再安装一个CentOS 7。 1. 划分磁盘空间 从磁盘上划分安装CentOS 7的安装空间。如果有多个硬盘的话,一定要在主硬盘上划分2G的空间(其实1G就够了)作为boot。这是因为开机时BIOS读取的是主硬盘的MBR,如果boot也在从硬盘,GRUB修改的是从硬盘的 阅读全文
posted @ 2017-09-18 13:48 MSTK 阅读(1071) 评论(0) 推荐(0)
摘要: 选取了10个文档,其中4个来自于一篇论文,3篇来自于一篇新闻,3篇来自于另一篇新闻。 首先在pom文件中加入mysql-connector-java: main函数: 运行结果: 阅读全文
posted @ 2017-08-13 15:05 MSTK 阅读(3801) 评论(0) 推荐(0)
摘要: 从另一台机器上复制过来的项目,由于两台机器的库目录不一致,导致了stdio.h等很多文件都打不开: 解决的办法是从新设置包含目录。选择项目-->%项目名称%属性-->VC++目录,设置包含目录为C:\Program Files %28x86%29\Windows Kits\10\Include\10 阅读全文
posted @ 2017-07-30 20:51 MSTK 阅读(22116) 评论(1) 推荐(0)
摘要: 1. 神经网络基础知识 1.1 神经元 神经网络(Neural Net)是由大量的处理单元相互连接形成的网络。神经元是神经网络的最小单元,神经网络由若干个神经元组成。一个神经元的结构如下: 上面的神经元x1,x2,x3和1是输入,hw,b(x)是输出。 其中f(x)是激活函数,常用的激活函数有sig 阅读全文
posted @ 2017-07-27 17:32 MSTK 阅读(6244) 评论(0) 推荐(0)
摘要: 协同过滤(Collaborative Filtering,CF)算法是一种常用的推荐算法,它的思想就是找出相似的用户或产品,向用户推荐相似的物品,或者把物品推荐给相似的用户。怎样评价用户对商品的偏好?可以有很多方法,如用户对商品的打分、购买、页面停留时间、保存、转发等等。得到了用户对商品的偏好,就可 阅读全文
posted @ 2017-07-21 19:09 MSTK 阅读(1991) 评论(1) 推荐(0)
摘要: 1. Alternating Least Square ALS(Alternating Least Square),交替最小二乘法。在机器学习中,特指使用最小二乘法的一种协同推荐算法。如下图所示,u表示用户,v表示商品,用户给商品打分,但是并不是每一个用户都会给每一种商品打分。比如用户u6就没有给商 阅读全文
posted @ 2017-07-19 23:09 MSTK 阅读(19110) 评论(4) 推荐(2)
摘要: 关联规则挖掘最典型的例子是购物篮分析,通过分析可以知道哪些商品经常被一起购买,从而可以改进商品货架的布局。 1. 基本概念 首先,介绍一些基本概念。 (1) 关联规则:用于表示数据内隐含的关联性,一般用X表示先决条件,Y表示关联结果。 (2) 支持度(Support):所有项集中{X,Y}出现的可能 阅读全文
posted @ 2017-07-16 20:09 MSTK 阅读(10837) 评论(1) 推荐(2)
摘要: 1. LDA基础知识 LDA(Latent Dirichlet Allocation)是一种主题模型。LDA一个三层贝叶斯概率模型,包含词、主题和文档三层结构。 LDA是一个生成模型,可以用来生成一篇文档,生成时,首先根据一定的概率选择一个主题,然后在根据概率选择主题里面的一个单词,这样反复进行,就 阅读全文
posted @ 2017-07-12 12:19 MSTK 阅读(3086) 评论(0) 推荐(0)
摘要: KMenas算法比较简单,不详细介绍了,直接上代码。 运行结果: 阅读全文
posted @ 2017-07-11 18:10 MSTK 阅读(905) 评论(0) 推荐(1)
摘要: 1. 决策树基本知识 决策树就是通过一系列规则对数据进行分类的一种算法,可以分为分类树和回归树两类,分类树处理离散变量的,回归树是处理连续变量。 样本一般都有很多个特征,有的特征对分类起很大的作用,有的特征对分类作用很小,甚至没有作用。如决定是否对一个人贷款是,这个人的信用记录、收入等就是主要的判断 阅读全文
posted @ 2017-07-06 21:53 MSTK 阅读(5077) 评论(2) 推荐(0)
摘要: 1. SVM基本知识 SVM(Support Vector Machine)是一个类分类器,能够将不同类的样本在样本空间中进行分隔,分隔使用的面叫做分隔超平面。 比如对于二维样本,分布在二维平面上,此时超平面实际上是一条直线,直线上面是一类,下面是另一类。定义超平面为: f(x)=w0+wTx 可以 阅读全文
posted @ 2017-07-05 23:52 MSTK 阅读(5249) 评论(0) 推荐(0)
摘要: 1. 贝叶斯定理 条件概率公式: 这个公式非常简单,就是计算在B发生的情况下,A发生的概率。但是很多时候,我们很容易知道P(A|B),需要计算的是P(B|A),这时就要用到贝叶斯定理: 2. 朴素贝叶斯分类 朴素贝叶斯分类的推导过程就不详述了,其流程可以简单的用一张图来表示: 举个简单的例子来说,下 阅读全文
posted @ 2017-06-23 14:16 MSTK 阅读(2623) 评论(2) 推荐(0)
摘要: 保序回归即给定了一个无序的数字序列,通过修改其中元素的值,得到一个非递减的数字序列,要求是使得误差(预测值和实际值差的平方)最小。比如在动物身上实验某种药物,使用了不同的剂量,按理说剂量越大,有效的比例就应该越高,但是如果发现了剂量大反而有效率降低了,这个时候就只有把无序的两个元素合并了,重新计算有 阅读全文
posted @ 2017-06-15 18:46 MSTK 阅读(2975) 评论(0) 推荐(0)
摘要: 逻辑回归本质上也是一种线性回归,和普通线性回归不同的是,普通线性回归特征到结果输出的是连续值,而逻辑回归增加了一个函数g(z),能够把连续值映射到0或者1。 MLLib的逻辑回归类有两个:LogisticRegressionWithSGD和LogisticRegressionWithLBFGS,前者 阅读全文
posted @ 2017-06-15 17:55 MSTK 阅读(4957) 评论(0) 推荐(1)
摘要: 线性回归算法,是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。 1. 梯度下降法 线性回归可以使用最小二乘法,但是速度比较慢,因此一般使用梯度下降法(Gradient Descent),梯度下降法又分为批量梯度下降法(Batch Gradient Desce 阅读全文
posted @ 2017-06-13 18:33 MSTK 阅读(2381) 评论(0) 推荐(0)
摘要: 1. Aggregate Aggregate即聚合操作。直接上代码: acc即(0,0),number即data,seqOp将data的值累加到Tuple的第一个元素,将data的个数累加到Tuple的第二个元素。由于没有分区,所以combOp是不起作用的,这个例子里面即使分区了,combOp起作用 阅读全文
posted @ 2017-06-13 12:39 MSTK 阅读(8779) 评论(0) 推荐(0)
摘要: 下载apache-flume-1.7.0-bin.tar.gz,用 解压,在/etc/profile文件中增加设置: 修改$FLUME_HOME/conf/下的两个文件,在flume-env.sh中增加JAVA_HOME: 最重要的,修改flume-conf.properties文件: 以上文件设置 阅读全文
posted @ 2017-06-10 22:31 MSTK 阅读(4549) 评论(0) 推荐(0)
摘要: Kafka是一种分布式发布订阅消息系统。 Kafka有三种模式: (1)单节点单Broker,在一台机器上运行一个Kafka实例; (2)单节点多Broker,在一台机器上运行多个Kafka实例; (3)多截点多Broker,在多台机器上运行多个Kafka实例。 本文直接以第三种模式进行安装。 首先 阅读全文
posted @ 2017-06-08 18:15 MSTK 阅读(773) 评论(0) 推荐(0)
摘要: Nginx是一个高性能的HTTP服务器和反向代理服务器。当一个服务器访问量太大时(比如C10k问题,Concurrent 10,000 Connection),就可以安装设置一个Nginx服务器,将客户端的访问映射到多个服务器上,从而降低每一个服务器的负载。 1. Nginx的编译和安装 在Cent 阅读全文
posted @ 2017-06-07 17:01 MSTK 阅读(604) 评论(0) 推荐(0)
摘要: K-Means算法是一种基于距离的聚类算法,采用迭代的方法,计算出K个聚类中心,把若干个点聚成K类。 MLlib实现K-Means算法的原理是,运行多个K-Means算法,每个称为run,返回最好的那个聚类的类簇中心。初始的类簇中心,可以是随机的,也可以是KMean||得来的,迭代达到一定的次数,或 阅读全文
posted @ 2017-05-31 20:03 MSTK 阅读(12165) 评论(0) 推荐(0)
摘要: 7. 图的聚合操作 图的聚合操作主要的方法有: (1) Graph.mapReduceTriplets():该方法有一个mapFunc和一个reduceFunc,mapFunc对图中的每一个EdgeTriplet进行处理,生成一个或者多个消息,并且将这些消息发送个Edge的一个或者两个顶点,redu 阅读全文
posted @ 2017-05-30 16:29 MSTK 阅读(1361) 评论(0) 推荐(0)
摘要: 5. 图的转换操作 图的转换操作主要有以下的方法: (1) Graph.mapVertices():对图的顶点进行转换,返回一张新图; (2) Graph.mapEdges():对图的边进行转换,返回一张新图。 代码: 运行结果: 6. 图的结构操作 图的结构操作主要有: (1) Graph.sub 阅读全文
posted @ 2017-05-27 21:53 MSTK 阅读(780) 评论(0) 推荐(0)
摘要: Scala提供了三种字符串插值方式:s,f和raw。1. s字符串插值器简单的说就是解析字符串变量。 第2行是最简单的用法,第3行为了区分变量名加了{},第4行是进行了运算。 运行结果: 2. f字符串插值器 可以进行格式化的输出,变量名后用%指定格式,如果没有指定,其作用和s是一样的。 运行结果: 阅读全文
posted @ 2017-05-24 21:31 MSTK 阅读(932) 评论(0) 推荐(0)
摘要: Scala中如果一个Class和一个Object同名,则称Class是Object的伴生类。Scala没有Java的Static修饰符,Object下的成员和方法都是静态的,类似于Java里面加了Static修饰符的成员和方法。Class和Object都可以定义自己的Apply()方法,类名()调用 阅读全文
posted @ 2017-05-24 15:08 MSTK 阅读(661) 评论(0) 推荐(0)
摘要: Spark GraphX是一个分布式的图处理框架。社交网络中,用户与用户之间会存在错综复杂的联系,如微信、QQ、微博的用户之间的好友、关注等关系,构成了一张巨大的图,单机无法处理,只能使用分布式图处理框架处理,Spark GraphX就是一种分布式图处理框架。 1. POM文件 在项目的pom文件中 阅读全文
posted @ 2017-05-22 20:44 MSTK 阅读(6065) 评论(0) 推荐(0)
摘要: 出现这个错误可能有两种情况,Jar文件没有传上去,或者Build Path里面包含的Jar文件和Spark的运行环境有冲突。 对于第一种情况,需要在SparkConf语句后面加上Jar文件的路径: 对于第二种情况,需要把Build Path里面的Jar文件删除,因为Spark运行环境已经有这些文件了 阅读全文
posted @ 2017-05-18 20:29 MSTK 阅读(2087) 评论(0) 推荐(0)
摘要: 1. 首先安装Scala插件,File->Settings->Plugins,搜索出Scla插件,点击Install安装; 2. File->New Project->maven,新建一个Maven项目,填写GroupId和ArtifactId; 3. 编辑pom.xml文件,添加项目所需要的依赖: 阅读全文
posted @ 2017-05-18 19:12 MSTK 阅读(10643) 评论(0) 推荐(1)
摘要: 以Spark-Client模式运行,Spark-Submit时出现了下面的错误: 意思是说Container要用2.2GB的内存,而虚拟内存只有2.1GB,不够用了,所以Kill了Container。 我的SPARK-EXECUTOR-MEMORY设置的是1G,即物理内存是1G,Yarn默认的虚拟内 阅读全文
posted @ 2017-05-16 10:18 MSTK 阅读(3122) 评论(0) 推荐(1)
摘要: 3. Yarn-Cluster Yarn是一种统一资源管理机制,可以在上面运行多种计算框架。Spark on Yarn模式分为两种:Yarn-Cluster和Yarn-Client,前者Driver运行在Worker节点,后者Driver运行在Client节点上。采用Spark on Yarn模式, 阅读全文
posted @ 2017-05-15 17:14 MSTK 阅读(5546) 评论(0) 推荐(0)
摘要: Spark一共有5种运行模式:Local,Standalone,Yarn-Cluster,Yarn-Client和Mesos。 1. Local Local模式即单机模式,如果在命令语句中不加任何配置,则默认是Local模式,在本地运行。这也是部署、设置最简单的一种模式 2. Standalone 阅读全文
posted @ 2017-05-15 15:25 MSTK 阅读(5271) 评论(2) 推荐(0)
上一页 1 2 3 4 5 6 7 8 9 ··· 14 下一页