tonglin0325 - 博客园

2017年4月29日

摘要：推荐模型推荐模型的种类分为： 1.基于内容的过滤：基于内容的过滤利用物品的内容或是属性信息以及某些相似度定义,来求出与该物品类似的物品。 2.协同过滤：协同过滤是一种借助众包智慧的途径。它利用大量已有的用户偏好来估计用户对其未接触过的物品的喜好程度。其内在思想是相似度的定义。在基于用户的方法的中阅读全文

posted @ 2017-04-29 21:39 tonglin0325 阅读(913) 评论(12) 推荐(2) 编辑

Spark学习笔记——Spark上数据的获取、处理和准备

摘要：数据获得的方式多种多样，常用的公开数据集包括： 1.UCL机器学习知识库:包括近300个不同大小和类型的数据集,可用于分类、回归、聚类和推荐系统任务。数据集列表位于:http://archive.ics.uci.edu/ml/ 2.Amazon AWS公开数据集:包含的通常是大型数据集,可通过Ama 阅读全文

posted @ 2017-04-29 11:38 tonglin0325 阅读(2714) 评论(0) 推荐(0) 编辑

2017年4月28日

Spark学习笔记——基于MLlib的机器学习

摘要：使用MLlib库中的机器学习算法对垃圾邮件进行分类分类的垃圾邮件的如图中分成4个文件夹，两个文件夹是训练集合，两个文件夹是测试集合 build.sbt文件代码结果阅读全文

posted @ 2017-04-28 22:53 tonglin0325 阅读(421) 评论(0) 推荐(0) 编辑

2017年4月25日

Spark学习笔记——Spark Streaming

摘要：许多应用需要即时处理收到的数据，例如用来实时追踪页面访问统计的应用、训练机器学习模型的应用，还有自动检测异常的应用。Spark Streaming 是 Spark 为这些应用而设计的模型。它允许用户使用一套和批处理非常接近的 API 来编写流式计算应用，这样就可以大量重用批处理应用的技术甚至代码。阅读全文

posted @ 2017-04-25 23:33 tonglin0325 阅读(391) 评论(0) 推荐(0) 编辑

2017年4月19日

Scala学习笔记——类型

摘要： 1.Option类型 Option类型可以有两种类型，一种是Some(x)，一种是None对象比如Scala的Map的get方法发现了指定键，返回Some(x)，没有发现，返回None对象 2.列表 List类型中的所有元素都具有相同的类型。空列表的类型为List[Nothing]。对于任意类型阅读全文

posted @ 2017-04-19 23:46 tonglin0325 阅读(406) 评论(0) 推荐(0) 编辑

Scala学习笔记——样本类和模式匹配

摘要： 1.样本类在申明的类前面加上一个case修饰符，带有这种修饰符的类被称为样本类（case class）。被申明为样本类的类的特点：1.会添加和类名一致的工厂方法；2.样本类参数列表中的所有参数隐式获得了val前缀，因此它被当做字段维护；3.编译器被这个样本类添加了toString、hashcod 阅读全文

posted @ 2017-04-19 23:04 tonglin0325 阅读(433) 评论(0) 推荐(0) 编辑

Scala学习笔记——断言和单元测试

摘要： 1.断言 assert(conditon)将在条件不成立的时候，抛出assertionError assert(conditon,explanation)讲在条件不成立的时候，抛出explanation作为说明 2.单元测试 Scala中提供了多种单元测试的方法，比如ScalaTest ScalaT 阅读全文

posted @ 2017-04-19 17:45 tonglin0325 阅读(1826) 评论(0) 推荐(0) 编辑

2017年4月18日

Spark学习笔记——读写HBase

摘要： 1.首先在HBase中建立一张表，名字为student 参考 Hbase学习笔记——基本CRUD操作一个cell的值,取决于Row,Column family,Column Qualifier和Timestamp HBase表结构 2.往HBase中写入数据，写入的时候，需要写family和col 阅读全文

posted @ 2017-04-18 17:20 tonglin0325 阅读(668) 评论(0) 推荐(0) 编辑

Spark学习笔记——读写HDFS

摘要：使用Spark读写HDFS中的parquet文件文件夹中的parquet文件 build.sbt文件 Scala实现方法 df.show打印出来的信息，如果没放在一个case class中的话，name,url,info,summary这列信息会变成1,2,3,4 使用spark-shell查看写阅读全文

posted @ 2017-04-18 14:54 tonglin0325 阅读(878) 评论(0) 推荐(0) 编辑

2017年4月16日

Scala学习笔记——简化代码、柯里化、继承、特质

摘要： 1.简化代码输出是 2.柯里化 3.继承 4.特质阅读全文

posted @ 2017-04-16 11:45 tonglin0325 阅读(325) 评论(0) 推荐(0) 编辑

2017年4月13日

Spark学习笔记——读写MySQL

摘要： 1.使用Spark读取MySQL中某个表中的信息 build.sbt文件 Mysql.scala文件输出 2.使用Spark写MySQL中某个表中的信息阅读全文

posted @ 2017-04-13 09:53 tonglin0325 阅读(4419) 评论(0) 推荐(0) 编辑

2017年4月12日

HBase学习笔记——基本CRUD操作

摘要：进入HBase的安装目录，启动HBase bin/start-hbase.sh 打开shell命令行模式 bin/hbase shell 关闭HBase bin/stop-hbase.sh 一个cell的值,取决于Row,Column family,Column Qualifier和Timestam 阅读全文

posted @ 2017-04-12 22:09 tonglin0325 阅读(1421) 评论(0) 推荐(0) 编辑

2017年4月10日

Spark学习笔记——Spark on YARN

摘要： Spark运行的时候，采用的是主从结构，有一个节点负责中央协调，调度各个分布式工作节点。这个中央协调节点被称为驱动器（ Driver）节点。与之对应的工作节点被称为执行器（ executor）节点。所有的 Spark 程序都遵循同样的结构：程序从输入数据创建一系列 RDD，再使用转化操作派阅读全文

posted @ 2017-04-10 13:53 tonglin0325 阅读(803) 评论(0) 推荐(0) 编辑

2017年4月8日

Spark学习笔记——数据读取和保存

摘要： spark所支持的文件格式 1.文本文件在 Spark 中读写文本文件很容易。当我们将一个文本文件读取为 RDD 时，输入的每一行都会成为 RDD 的一个元素。也可以将多个完整的文本文件一次性读取为一个 pair RDD，其中键是文件名，值是文件内容。在 Scala 中读取一个文本文件阅读全文

posted @ 2017-04-08 17:21 tonglin0325 阅读(31308) 评论(2) 推荐(1) 编辑

2017年4月7日

Spark学习笔记——键值对操作

摘要：键值对 RDD是 Spark 中许多操作所需要的常见数据类型键值对 RDD 通常用来进行聚合计算。我们一般要先通过一些初始 ETL(抽取、转化、装载)操作来将数据转化为键值对形式。 Spark 为包含键值对类型的 RDD 提供了一些专有的操作。 1.创建Pair RDD 2.Pair RDD的转化阅读全文

posted @ 2017-04-07 18:50 tonglin0325 阅读(569) 评论(0) 推荐(0) 编辑

2017年4月6日

Spark学习笔记——RDD编程

摘要： 1.RDD——弹性分布式数据集（Resilient Distributed Dataset） RDD是一个分布式的元素集合，在Spark中，对数据的操作就是创建RDD、转换已有的RDD和调用RDD操作进行求值。 Spark 中的 RDD 就是一个不可变的分布式对象集合。每个 RDD 都被分为多个分区阅读全文

posted @ 2017-04-06 10:36 tonglin0325 阅读(366) 评论(0) 推荐(0) 编辑

2017年4月5日

Spark学习笔记——在远程机器中运行WordCount

摘要： 1.通过realy机器登录relay-shell ssh XXX@XXX 2.登录了跳板机之后，连接可以用的机器 XXXX.bj 3.在本地的idea生成好程序的jar包（word-count_2.11-1.0.jar）之后，把jar包和需要put到远程机器的hdfs文件系统中的文件通过scp命令从阅读全文

posted @ 2017-04-05 20:04 tonglin0325 阅读(876) 评论(0) 推荐(0) 编辑

Ubuntu下安装HBase

摘要： 1.在清华镜像站点下载hbase的安装文件，选择的是stable的版本，版本号是hbase-1.2.5/ 2.解压放在/usr/local的目录下 3.修改权限 sudo chown -R hduser hadoop hbase-1.2.5/ 4.修改文件夹的名称为hbase 5.在～/.bashr 阅读全文

posted @ 2017-04-05 16:49 tonglin0325 阅读(2599) 评论(0) 推荐(0) 编辑

Scala学习笔记——函数和闭包

摘要： 1.本地函数可以在一个方法内再次定义一个方法，这个方法就是外部方法的内部私有方法，省略了private关键字 2.头等函数集合类的foreach方法集合类的filter方法 3.函数字面量的短格式，使得函数写的更加简洁 4.占位符语法，如果想让函数字面量更加简洁，可以把下划线当做一个或更多参数阅读全文

posted @ 2017-04-05 09:34 tonglin0325 阅读(229) 评论(0) 推荐(0) 编辑

Ubuntu下搜狗输入法只显示黑框，不显示输入的汉字选项

摘要： 1. cd ~/.config 2.删除三个文件夹: SogouPY, SogouPY.users, sogou-qimpanel 然后重启输入法阅读全文

posted @ 2017-04-05 09:05 tonglin0325 阅读(1839) 评论(0) 推荐(0) 编辑

2017年4月4日

Scala学习笔记——内建控制结构

摘要： Scala的内建控制结构包括：if、while、for、try、match和函数调用 1.if表达式 2.while循环，while循环和其他语言的一样，有while和do while Scala中对再次赋值语句的返回值是Unit，比如下面这个例子 3.for表达式 4.使用try表达式处理异常抛阅读全文

posted @ 2017-04-04 21:47 tonglin0325 阅读(215) 评论(0) 推荐(0) 编辑

Scala学习笔记——函数式对象

摘要：用创建一个函数式对象（类Rational）的过程来说明类Rational是一种表示有理数（Rational number）的类阅读全文

posted @ 2017-04-04 13:53 tonglin0325 阅读(222) 评论(0) 推荐(0) 编辑

2017年4月3日

Spark学习笔记——安装和WordCount

摘要： 1.去清华的镜像站点下载文件spark-2.1.0-bin-without-hadoop.tgz，不要下spark-2.1.0-bin-hadoop2.7.tgz 2.把文件解压到/usr/local目录下，解压之后的效果，Hadoop和Spark都在Hadoop用户下下面的操作都在Hadoop用阅读全文

posted @ 2017-04-03 15:43 tonglin0325 阅读(2051) 评论(0) 推荐(0) 编辑

2017年3月27日

Scala学习笔记——入门

摘要： 0.在 scala> 下运行Scala程序首先cd到.scala文件所在的目录下 scalac这个scala文件，然后import package的名字.object的名字然后就能使用 object的名字.def的名字来运行这个def 1.表达式 scala> 1 + 2 res0: Int = 阅读全文

posted @ 2017-03-27 18:34 tonglin0325 阅读(265) 评论(0) 推荐(0) 编辑

Scala学习笔记——安装

摘要：安装scala，不要使用sudo apt-get install scala来安装 1.从下面网址来下载Scala文件 http://www.scala-lang.org/download/2.11.8.html 2.下载下的 scala-2.11.8.tgz 文件解压，然后把文件mv到/usr/l 阅读全文

posted @ 2017-03-27 18:31 tonglin0325 阅读(190) 评论(0) 推荐(0) 编辑

Maven常用命令

摘要： Apache官方仓库 https://repository.apache.org/ Maven中央仓库 http://mvnrepository.com/ Maven介绍，包括作用、核心概念、用法、常用命令、扩展及配置 http://www.trinea.cn/android/maven/ Mave 阅读全文

posted @ 2017-03-27 11:50 tonglin0325 阅读(530) 评论(0) 推荐(0) 编辑

maven中snapshot快照库和release发布库的区别和作用 (转)

摘要： Maven介绍，包括作用、核心概念、用法、常用命令、扩展及配置 http://www.trinea.cn/android/maven/ 本文来源于铁木箱子的博客http://www.mzone.cc 在使用maven过程中，我们在开发阶段经常性的会有很多公共库处于不稳定状态，随时需要修改并发布，可能阅读全文

posted @ 2017-03-27 11:38 tonglin0325 阅读(268) 评论(0) 推荐(0) 编辑

2017年3月26日

Hadoop学习笔记——WordCount

摘要： 1.在IDEA下新建工程,选择from Mevan GroupId:WordCount ArtifactId:com.hadoop.1st Project name:WordCount 2.pom.xml文件 3.main/java目录下新建WordCount.java文件 4.在src同级目录下新阅读全文

posted @ 2017-03-26 18:31 tonglin0325 阅读(214) 评论(0) 推荐(0) 编辑

2017年3月10日

Hadoop学习笔记——安装Hadoop

摘要： sudo mv /home/common/下载/hadoop-2.7.2.tar.gz /usr/local sudo tar -xzvf hadoop-2.7.2.tar.gz sudo mv hadoop-2.7.2 hadoop #改个名在etc/profile文件中添加 export HA 阅读全文

posted @ 2017-03-10 22:44 tonglin0325 阅读(340) 评论(0) 推荐(0) 编辑

2017年1月23日

Ubuntu下从外网上北邮人BT

摘要： 1.使用VPN+ipv6（测试于2017-01，该方法已经不可用）首先你需要有北邮的VPN账号和密码，只要是北邮的学生都有账号和密码不懂的请查看 VPN账号密码说明接下来登录https://sslvpn.bupt.edu.cn，输入账号和密码已经登录好了但是还是不能上BYR BT，是因为没阅读全文

posted @ 2017-01-23 21:29 tonglin0325 阅读(3624) 评论(0) 推荐(0) 编辑

2017年1月19日

机器学习——利用SVD简化数据

摘要：奇异值分解（Singular Value Decompositon,SVD），可以实现用小得多的数据集来表示原始数据集。优点：简化数据，取出噪声，提高算法的结果缺点：数据的转换可能难以理解适用数据类型：数值型数据 SVD最早的应用之一是信息检索，我们称利用SVD的方法为隐形语义索引（LSI）或阅读全文

posted @ 2017-01-19 16:43 tonglin0325 阅读(738) 评论(0) 推荐(0) 编辑

2017年1月18日

Python自然语言处理学习——jieba分词

摘要： jieba——“结巴”中文分词是sunjunyi开发的一款Python中文分词组件，可以在Github上查看jieba项目。要使用jieba中文分词，首先需要安装jieba中文分词，作者给出了如下的安装方法： 1.全自动安装：easy_install jieba 或者 pip install ji 阅读全文

posted @ 2017-01-18 23:05 tonglin0325 阅读(6237) 评论(1) 推荐(0) 编辑

特征预处理——异常值处理

摘要： pandas是python特征预处理常用的框架 1.查看数据加载数据 #-*- coding: utf-8 -*- import pandas as pd train_data = pd.read_csv("./data/train.csv") print(train_data) pandas显示阅读全文

posted @ 2017-01-18 22:02 tonglin0325 阅读(793) 评论(0) 推荐(0) 编辑

机器学习——利用PCA来简化数据

摘要：降维技术的好处： 1.使得数据集更易使用 2.降低很多算法的计算开销 3.取出噪声 4.使得结果易懂在已标注和未标注的数据上都有降维技术，降维的方法： 1.主成分分析（Principal Component Analysis，PCA）。在PCA中，数据从原来的坐标系转换到新的坐标系，新坐标系的选择阅读全文

posted @ 2017-01-18 10:45 tonglin0325 阅读(902) 评论(0) 推荐(0) 编辑

2017年1月17日

机器学习——使用Apriori算法进行关联分析

摘要：从大规模的数据集中寻找隐含关系被称作为关联分析（association analysis）或者关联规则学习（association rule learning）。 Apriori算法优点：易编码实现缺点：在大数据集上可能较慢使用数据类型：数值型或者标称型数据关联分析寻找的是隐含关系，这些关系阅读全文

posted @ 2017-01-17 20:33 tonglin0325 阅读(266) 评论(0) 推荐(0) 编辑

2017年1月13日

ubuntu安装mongo数据库

摘要：安装mongo数据库，在shell下输入 sudo apt-get install mongodb 如果需要在Python中使用mongo数据库，还需要额外安装Python封装库 pip install pymongo 检测安装是否成功，可以使用下面命令在本地启动MongoDB mongod -db 阅读全文

posted @ 2017-01-13 22:31 tonglin0325 阅读(208) 评论(0) 推荐(0) 编辑

Python爬虫——使用Cookie登录新浪微博

摘要： 1.首先在浏览器中进入WAP版微博的网址，因为手机版微博的内容较为简洁，方便后续使用正则表达式或者beautifulSoup等工具对所需要内容进行过滤 https://login.weibo.cn/login/ 2.人工输入账号、密码、验证字符，最后最重要的是勾选（记住登录状态） 3.使用Wires 阅读全文

posted @ 2017-01-13 14:38 tonglin0325 阅读(7525) 评论(0) 推荐(0) 编辑

2017年1月12日

Python爬虫——光学字符识别

摘要：用homebrew 在电脑上安装tesseract库 brew install tesseract 用pip安装支持python的tesseract 接口 pip install pytesseract 使用pytesseract库对图片文件（jpg、png、bmp等）进行识别，把图片转换成字符串输阅读全文

posted @ 2017-01-12 23:42 tonglin0325 阅读(645) 评论(0) 推荐(0) 编辑

2017年1月9日

Java排序算法——堆排序

摘要：堆排序阅读全文

posted @ 2017-01-09 19:10 tonglin0325 阅读(208) 评论(0) 推荐(0) 编辑

Java多线程——可阻塞的队列BlockingQueue

摘要：阻塞队列与Semaphore有些相似，但也不同，阻塞队列是一方存放数据，另一方释放数据，Semaphore通常则是由同一方设置和释放信号量。 ArrayBlockingQueue 只有put方法和take方法才具有阻塞功能用3个空间的队列来演示阻塞队列的功能和效果。用两个具有1个空间的队列来实现阅读全文

posted @ 2017-01-09 16:05 tonglin0325 阅读(307) 评论(0) 推荐(0) 编辑

tonglin0325.github.io

公告