摘要: 上篇文章介绍了协同过滤的安装与配置,这篇找了几个协同过滤的简单例子,看一下Mahout给我们提供的强大的协同过滤算法。需要新建一个基于Maven的工程,下面是pom.xml需要导入的包。<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache. 阅读全文
posted @ 2012-12-17 10:32 cstar(小乐) 阅读(4864) 评论(0) 推荐(0) 编辑
摘要: Mahout 是Apache旗下的一个机器学习和数据挖掘的分布式框架,包括聚类,分类,协同过滤,关联规则挖掘等经典的算法。 1. 安装Maven wget http://apache.etoak.com//maven/maven-3/3.0.4/binaries/apache-maven-3.0.4-bin.tar.gz下载最新版本的Maven. tar xvf apache-maven-3.0.2-bin.tar.gz 解压后配置路径,vi ~/.bashrc 在此文件添加如下两行export M3_HOME=maven的实际安装路径export PATH=${M3_HOME}/bin:$. 阅读全文
posted @ 2012-12-16 12:42 cstar(小乐) 阅读(2449) 评论(1) 推荐(1) 编辑
摘要: (2013年1月5日)近日在网上找到两篇关于Ubuntu下Hadoop单机和集群安装的文章,英文的可以用来参考一下:1.http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-single-node-cluster/2.http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-multi-node-cluster/ 总体来说,跟单机版的差不多,只是配置文件需要做些修改,以及各个服务器之间可以无密码ssh切换。现在简单描述一下: 1. 阅读全文
posted @ 2012-12-16 11:27 cstar(小乐) 阅读(828) 评论(0) 推荐(0) 编辑
摘要: 这个是在自己笔记本上的实验版本,在不熟悉的情况还是先考虑在自己的电脑上安装一个试验版本,然后再考虑安装部署生产环境中的机器。首先自己的电脑上需要安装一个虚拟机VMWare WorkStation, 安装好了之后,再在此虚拟机上安装Ubutun操作系统,我这里装的是Ubutun 11.10, 可以通过lsb_release -a 命令查看,如果没有这个命令的话可以用下面的命令安装一下sudo apt-get install lsb。 1. 在此操作系统上新建一个账号hadoop.tinyfun@ubuntu:/home$ sudo addgroup hadoopAdding group `ha. 阅读全文
posted @ 2012-12-16 10:56 cstar(小乐) 阅读(1051) 评论(0) 推荐(0) 编辑
摘要: 1. 为什么要使用Http Trunked协议? 一般http通信时会使用content_length头信息来表示服务器发送的文档内容长度,这是因为我们已经提前知道了文档内容的长度,但有时候我们无法提前知道我们需要传输的文档的长度,这时我们就要采用分块传输的方式来发送内容,也就是通过我们的http trunked协议。Http1.1x协议的chunked编码方式,可以确保接收端能够准确的判断不定长内容收取是否完整。2. http RFC文档中的chunked编码格式chunked编码一般使用若干个chunk串联而成,最后一个chunk的长度为0,表示chunk数据结束。每个chunked分为头 阅读全文
posted @ 2012-06-28 12:57 cstar(小乐) 阅读(8218) 评论(8) 推荐(1) 编辑
摘要: 前言:前段时间在网上看到腾讯后台开发总监bison分享的一篇文章《浅谈过载保护》,读来受益匪浅。刚好自己也在处理系统请求过载的问题,把自己的一些心得体会总结出来拿来与大家一起探讨。在bison的文章中谈到:对于延时敏感的服务,当外部请求超过系统处理能力,如果系统没有做相应保护,可能导致历史累计的超时请求达到一定的规模,像雪球一样形成恶性循环,由于系统处理的每个请求都因为超时而无效,系统对外呈现的服务能力为0,且这种情况不能自动恢复。我们的系统就是要尽量避免这种情况的出现,下面将详细来分析一个现实中的案例。一 有过载问题的系统数据处理流程: 1) 前端将请求发送给数据解析及转发系统, 2)数据解 阅读全文
posted @ 2012-06-25 16:19 cstar(小乐) 阅读(4036) 评论(4) 推荐(2) 编辑
摘要: 前言:最近在做分布式海量数据处理项目,使用到了java的线程池,所以搜集了一些资料对它的使用做了一下总结和探究,前面介绍的东西大多都是从网上搜集整理而来。文中最核心的东西在于后面两节无界队列线程池和有界队列线程池的实例使用以及线上问题处理方案。1. 为什么要用线程池?在Java中,如果每当一个请求到达就创建一个新线程,开销是相当大的。在实际使用中,每个请求创建新线程的服务器在创建和销毁线程上花费的时间和消耗的系统资源,甚至可能要比花在实际处理实际的用户请求的时间和资源要多的多。除了创建和销毁线程的开销之外,活动的线程也需要消耗系统资源。如果在一个JVM中创建太多的线程,可能会导致系统由于过度消 阅读全文
posted @ 2012-06-14 16:36 cstar(小乐) 阅读(19258) 评论(4) 推荐(5) 编辑
摘要: 1. 磁盘使用情况 du -h 查看当前用户每个文件的大小,格式化显示 du -h --max-depth=1 当前各个目录下的总大小 du -sh 查看总的大小 df -h 磁盘使用情况 iostat -xm 3 磁盘的读写情况 2. VI常用命令 esc切换文件读写状态,I键插入,O键追加 :q 阅读全文
posted @ 2012-02-22 16:04 cstar(小乐) 阅读(749) 评论(0) 推荐(0) 编辑