上一页 1 2 3 4 5 6 7 8 9 ··· 15 下一页
摘要: 推荐模型 推荐模型的种类分为: 1.基于内容的过滤:基于内容的过滤利用物品的内容或是属性信息以及某些相似度定义,来求出与该物品类似的物品。 2.协同过滤:协同过滤是一种借助众包智慧的途径。它利用大量已有的用户偏好来估计用户对其未接触过的物品的喜好程度。其内在思想是相似度的定义。 在基于用户的方法的中 阅读全文
posted @ 2017-04-29 21:39 tonglin0325 阅读(913) 评论(12) 推荐(2) 编辑
摘要: 数据获得的方式多种多样,常用的公开数据集包括: 1.UCL机器学习知识库:包括近300个不同大小和类型的数据集,可用于分类、回归、聚类和推荐系统任务。数据集列表位于:http://archive.ics.uci.edu/ml/ 2.Amazon AWS公开数据集:包含的通常是大型数据集,可通过Ama 阅读全文
posted @ 2017-04-29 11:38 tonglin0325 阅读(2714) 评论(0) 推荐(0) 编辑
摘要: 使用MLlib库中的机器学习算法对垃圾邮件进行分类 分类的垃圾邮件的如图中分成4个文件夹,两个文件夹是训练集合,两个文件夹是测试集合 build.sbt文件 代码 结果 阅读全文
posted @ 2017-04-28 22:53 tonglin0325 阅读(421) 评论(0) 推荐(0) 编辑
摘要: 许多应用需要即时处理收到的数据,例如用来实时追踪页面访问统计的应用、训练机器学习模型的应用, 还有自动检测异常的应用。Spark Streaming 是 Spark 为这些应用而设计的模型。它允许用户使用一套和批处理非常接近的 API 来编写流式计算应用,这样就可以大量重用批处理应用的技术甚至代码。 阅读全文
posted @ 2017-04-25 23:33 tonglin0325 阅读(391) 评论(0) 推荐(0) 编辑
摘要: 1.Option类型 Option类型可以有两种类型,一种是Some(x),一种是None对象 比如Scala的Map的get方法发现了指定键,返回Some(x),没有发现,返回None对象 2.列表 List类型中的所有元素都具有相同的类型。 空列表的类型为List[Nothing]。对于任意类型 阅读全文
posted @ 2017-04-19 23:46 tonglin0325 阅读(406) 评论(0) 推荐(0) 编辑
摘要: 1.样本类 在申明的类前面加上一个case修饰符,带有这种修饰符的类被称为样本类(case class)。 被申明为样本类的类的特点:1.会添加和类名一致的工厂方法;2.样本类参数列表中的所有参数隐式获得了val前缀,因此它被当做字段维护;3.编译器被这个样本类添加了toString、hashcod 阅读全文
posted @ 2017-04-19 23:04 tonglin0325 阅读(433) 评论(0) 推荐(0) 编辑
摘要: 1.断言 assert(conditon)将在条件不成立的时候,抛出assertionError assert(conditon,explanation)讲在条件不成立的时候,抛出explanation作为说明 2.单元测试 Scala中提供了多种单元测试的方法,比如ScalaTest ScalaT 阅读全文
posted @ 2017-04-19 17:45 tonglin0325 阅读(1826) 评论(0) 推荐(0) 编辑
摘要: 1.首先在HBase中建立一张表,名字为student 参考 Hbase学习笔记——基本CRUD操作 一个cell的值,取决于Row,Column family,Column Qualifier和Timestamp HBase表结构 2.往HBase中写入数据,写入的时候,需要写family和col 阅读全文
posted @ 2017-04-18 17:20 tonglin0325 阅读(668) 评论(0) 推荐(0) 编辑
摘要: 使用Spark读写HDFS中的parquet文件 文件夹中的parquet文件 build.sbt文件 Scala实现方法 df.show打印出来的信息,如果没放在一个case class中的话,name,url,info,summary这列信息会变成1,2,3,4 使用spark-shell查看写 阅读全文
posted @ 2017-04-18 14:54 tonglin0325 阅读(878) 评论(0) 推荐(0) 编辑
摘要: 1.简化代码 输出是 2.柯里化 3.继承 4.特质 阅读全文
posted @ 2017-04-16 11:45 tonglin0325 阅读(325) 评论(0) 推荐(0) 编辑
摘要: 1.使用Spark读取MySQL中某个表中的信息 build.sbt文件 Mysql.scala文件 输出 2.使用Spark写MySQL中某个表中的信息 阅读全文
posted @ 2017-04-13 09:53 tonglin0325 阅读(4419) 评论(0) 推荐(0) 编辑
摘要: 进入HBase的安装目录,启动HBase bin/start-hbase.sh 打开shell命令行模式 bin/hbase shell 关闭HBase bin/stop-hbase.sh 一个cell的值,取决于Row,Column family,Column Qualifier和Timestam 阅读全文
posted @ 2017-04-12 22:09 tonglin0325 阅读(1421) 评论(0) 推荐(0) 编辑
摘要: Spark运行的时候,采用的是主从结构,有一个节点负责中央协调, 调度各个分布式工作节点。这个中央协调节点被称为驱动器( Driver) 节点。与之对应的工作节点被称为执行器( executor) 节点。 所有的 Spark 程序都遵循同样的结构:程序从输入数据创建一系列 RDD, 再使用转化操作派 阅读全文
posted @ 2017-04-10 13:53 tonglin0325 阅读(803) 评论(0) 推荐(0) 编辑
摘要: spark所支持的文件格式 1.文本文件 在 Spark 中读写文本文件很容易。 当我们将一个文本文件读取为 RDD 时,输入的每一行 都会成为 RDD 的 一个元素。 也可以将多个完整的文本文件一次性读取为一个 pair RDD, 其中键是文件名,值是文件内容。 在 Scala 中读取一个文本文件 阅读全文
posted @ 2017-04-08 17:21 tonglin0325 阅读(31308) 评论(2) 推荐(1) 编辑
摘要: 键值对 RDD是 Spark 中许多操作所需要的常见数据类型 键值对 RDD 通常用来进行聚合计算。我们一般要先通过一些初始 ETL(抽取、转化、装载)操作来将数据转化为键值对形式。 Spark 为包含键值对类型的 RDD 提供了一些专有的操作。 1.创建Pair RDD 2.Pair RDD的转化 阅读全文
posted @ 2017-04-07 18:50 tonglin0325 阅读(569) 评论(0) 推荐(0) 编辑
摘要: 1.RDD——弹性分布式数据集(Resilient Distributed Dataset) RDD是一个分布式的元素集合,在Spark中,对数据的操作就是创建RDD、转换已有的RDD和调用RDD操作进行求值。 Spark 中的 RDD 就是一个不可变的分布式对象集合。每个 RDD 都被分为多个分区 阅读全文
posted @ 2017-04-06 10:36 tonglin0325 阅读(366) 评论(0) 推荐(0) 编辑
摘要: 1.通过realy机器登录relay-shell ssh XXX@XXX 2.登录了跳板机之后,连接可以用的机器 XXXX.bj 3.在本地的idea生成好程序的jar包(word-count_2.11-1.0.jar)之后,把jar包和需要put到远程机器的hdfs文件系统中的文件通过scp命令从 阅读全文
posted @ 2017-04-05 20:04 tonglin0325 阅读(876) 评论(0) 推荐(0) 编辑
摘要: 1.在清华镜像站点下载hbase的安装文件,选择的是stable的版本,版本号是hbase-1.2.5/ 2.解压放在/usr/local的目录下 3.修改权限 sudo chown -R hduser hadoop hbase-1.2.5/ 4.修改文件夹的名称为hbase 5.在~/.bashr 阅读全文
posted @ 2017-04-05 16:49 tonglin0325 阅读(2599) 评论(0) 推荐(0) 编辑
摘要: 1.本地函数 可以在一个方法内再次定义一个方法,这个方法就是外部方法的内部私有方法,省略了private关键字 2.头等函数 集合类的foreach方法 集合类的filter方法 3.函数字面量的短格式,使得函数写的更加简洁 4.占位符语法,如果想让函数字面量更加简洁,可以把下划线当做一个或更多参数 阅读全文
posted @ 2017-04-05 09:34 tonglin0325 阅读(229) 评论(0) 推荐(0) 编辑
摘要: 1. cd ~/.config 2.删除三个文件夹: SogouPY, SogouPY.users, sogou-qimpanel 然后重启输入法 阅读全文
posted @ 2017-04-05 09:05 tonglin0325 阅读(1839) 评论(0) 推荐(0) 编辑
摘要: Scala的内建控制结构包括:if、while、for、try、match和函数调用 1.if表达式 2.while循环,while循环和其他语言的一样,有while和do while Scala中对再次赋值语句的返回值是Unit,比如下面这个例子 3.for表达式 4.使用try表达式处理异常 抛 阅读全文
posted @ 2017-04-04 21:47 tonglin0325 阅读(215) 评论(0) 推荐(0) 编辑
摘要: 用创建一个函数式对象(类Rational)的过程来说明 类Rational是一种表示有理数(Rational number)的类 阅读全文
posted @ 2017-04-04 13:53 tonglin0325 阅读(222) 评论(0) 推荐(0) 编辑
摘要: 1.去清华的镜像站点下载文件spark-2.1.0-bin-without-hadoop.tgz,不要下spark-2.1.0-bin-hadoop2.7.tgz 2.把文件解压到/usr/local目录下,解压之后的效果,Hadoop和Spark都在Hadoop用户下 下面的操作都在Hadoop用 阅读全文
posted @ 2017-04-03 15:43 tonglin0325 阅读(2051) 评论(0) 推荐(0) 编辑
摘要: 0.在 scala> 下运行Scala程序 首先cd到.scala文件所在的目录下 scalac这个scala文件,然后import package的名字.object的名字 然后就能使用 object的名字.def的名字来运行这个def 1.表达式 scala> 1 + 2 res0: Int = 阅读全文
posted @ 2017-03-27 18:34 tonglin0325 阅读(265) 评论(0) 推荐(0) 编辑
摘要: 安装scala,不要使用sudo apt-get install scala来安装 1.从下面网址来下载Scala文件 http://www.scala-lang.org/download/2.11.8.html 2.下载下的 scala-2.11.8.tgz 文件解压,然后把文件mv到/usr/l 阅读全文
posted @ 2017-03-27 18:31 tonglin0325 阅读(190) 评论(0) 推荐(0) 编辑
摘要: Apache官方仓库 https://repository.apache.org/ Maven中央仓库 http://mvnrepository.com/ Maven介绍,包括作用、核心概念、用法、常用命令、扩展及配置 http://www.trinea.cn/android/maven/ Mave 阅读全文
posted @ 2017-03-27 11:50 tonglin0325 阅读(530) 评论(0) 推荐(0) 编辑
摘要: Maven介绍,包括作用、核心概念、用法、常用命令、扩展及配置 http://www.trinea.cn/android/maven/ 本文来源于铁木箱子的博客http://www.mzone.cc 在使用maven过程中,我们在开发阶段经常性的会有很多公共库处于不稳定状态,随时需要修改并发布,可能 阅读全文
posted @ 2017-03-27 11:38 tonglin0325 阅读(268) 评论(0) 推荐(0) 编辑
摘要: 1.在IDEA下新建工程,选择from Mevan GroupId:WordCount ArtifactId:com.hadoop.1st Project name:WordCount 2.pom.xml文件 3.main/java目录下新建WordCount.java文件 4.在src同级目录下新 阅读全文
posted @ 2017-03-26 18:31 tonglin0325 阅读(214) 评论(0) 推荐(0) 编辑
摘要: sudo mv /home/common/下载/hadoop-2.7.2.tar.gz /usr/local sudo tar -xzvf hadoop-2.7.2.tar.gz sudo mv hadoop-2.7.2 hadoop #改个名 在etc/profile文件中添加 export HA 阅读全文
posted @ 2017-03-10 22:44 tonglin0325 阅读(340) 评论(0) 推荐(0) 编辑
摘要: 1.使用VPN+ipv6(测试于2017-01,该方法已经不可用) 首先你需要有北邮的VPN账号和密码,只要是北邮的学生都有 账号和密码不懂的请查看 VPN账号密码说明 接下来登录https://sslvpn.bupt.edu.cn,输入账号和密码 已经登录好了 但是还是不能上BYR BT,是因为没 阅读全文
posted @ 2017-01-23 21:29 tonglin0325 阅读(3624) 评论(0) 推荐(0) 编辑
摘要: 奇异值分解(Singular Value Decompositon,SVD),可以实现用小得多的数据集来表示原始数据集。 优点:简化数据,取出噪声,提高算法的结果 缺点:数据的转换可能难以理解 适用数据类型:数值型数据 SVD最早的应用之一是信息检索,我们称利用SVD的方法为隐形语义索引(LSI)或 阅读全文
posted @ 2017-01-19 16:43 tonglin0325 阅读(738) 评论(0) 推荐(0) 编辑
摘要: jieba——“结巴”中文分词是sunjunyi开发的一款Python中文分词组件,可以在Github上查看jieba项目。 要使用jieba中文分词,首先需要安装jieba中文分词,作者给出了如下的安装方法: 1.全自动安装:easy_install jieba 或者 pip install ji 阅读全文
posted @ 2017-01-18 23:05 tonglin0325 阅读(6237) 评论(1) 推荐(0) 编辑
摘要: pandas是python特征预处理常用的框架 1.查看数据 加载数据 #-*- coding: utf-8 -*- import pandas as pd train_data = pd.read_csv("./data/train.csv") print(train_data) pandas显示 阅读全文
posted @ 2017-01-18 22:02 tonglin0325 阅读(793) 评论(0) 推荐(0) 编辑
摘要: 降维技术的好处: 1.使得数据集更易使用 2.降低很多算法的计算开销 3.取出噪声 4.使得结果易懂 在已标注和未标注的数据上都有降维技术,降维的方法: 1.主成分分析(Principal Component Analysis,PCA)。在PCA中,数据从原来的坐标系转换到新的坐标系,新坐标系的选择 阅读全文
posted @ 2017-01-18 10:45 tonglin0325 阅读(902) 评论(0) 推荐(0) 编辑
摘要: 从大规模的数据集中寻找隐含关系被称作为关联分析(association analysis)或者关联规则学习(association rule learning)。 Apriori算法 优点:易编码实现 缺点:在大数据集上可能较慢 使用数据类型:数值型或者标称型数据 关联分析寻找的是隐含关系,这些关系 阅读全文
posted @ 2017-01-17 20:33 tonglin0325 阅读(266) 评论(0) 推荐(0) 编辑
摘要: 安装mongo数据库,在shell下输入 sudo apt-get install mongodb 如果需要在Python中使用mongo数据库,还需要额外安装Python封装库 pip install pymongo 检测安装是否成功,可以使用下面命令在本地启动MongoDB mongod -db 阅读全文
posted @ 2017-01-13 22:31 tonglin0325 阅读(208) 评论(0) 推荐(0) 编辑
摘要: 1.首先在浏览器中进入WAP版微博的网址,因为手机版微博的内容较为简洁,方便后续使用正则表达式或者beautifulSoup等工具对所需要内容进行过滤 https://login.weibo.cn/login/ 2.人工输入账号、密码、验证字符,最后最重要的是勾选(记住登录状态) 3.使用Wires 阅读全文
posted @ 2017-01-13 14:38 tonglin0325 阅读(7525) 评论(0) 推荐(0) 编辑
摘要: 用homebrew 在电脑上安装tesseract库 brew install tesseract 用pip安装支持python的tesseract 接口 pip install pytesseract 使用pytesseract库对图片文件(jpg、png、bmp等)进行识别,把图片转换成字符串输 阅读全文
posted @ 2017-01-12 23:42 tonglin0325 阅读(645) 评论(0) 推荐(0) 编辑
摘要: 堆排序 阅读全文
posted @ 2017-01-09 19:10 tonglin0325 阅读(208) 评论(0) 推荐(0) 编辑
摘要: 阻塞队列与Semaphore有些相似,但也不同,阻塞队列是一方存放数据,另一方释放数据,Semaphore通常则是由同一方设置和释放信号量。 ArrayBlockingQueue 只有put方法和take方法才具有阻塞功能 用3个空间的队列来演示阻塞队列的功能和效果。 用两个具有1个空间的队列来实现 阅读全文
posted @ 2017-01-09 16:05 tonglin0325 阅读(307) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 ··· 15 下一页