随笔分类 - 数据挖掘及机器学习
protobuf,log4j,日志处理及挖掘
摘要:转:http://blog.csdn.net/huagong_adu/article/details/7362908最近参加KDD Cup 2012比赛,选了track1,做微博推荐的,找了推荐相关的论文学习。“Item-Based Collaborative Filtering Recommendation Algorithms”这篇是推荐领域比较经典的论文,现在很多流行的推荐算法都是在这篇论文提出的算法的基础上进行改进的。 一、协同过滤算法描述 推荐系统应用数据分析技术,找出用户最可能喜欢的东西推荐给用户,现在很多电子商务网站都有这个应用。目前用的比较多、比较成熟的推荐算法是协同过...
阅读全文
摘要:主要的推荐算法简介转载:http://blog.sina.com.cn/s/blog_602feaa80100fjq9.html在推荐系统简介中,我们给出了推荐系统的一般框架。很明显,推荐方法是整个推荐系统中最核心、最关键的部分,很大程度上决定了推荐系统性能的优劣。目前,主要的推荐方法包括:基于内容推荐、协同过滤推荐、基于关联规则推荐、基于效用推荐、基于知识推荐和组合推荐。一、基于内容推荐基于内容的推荐(Content-based Recommendation)是信息过滤技术的延续与发展,它是建立在项目的内容信息上作出推荐的,而不需要依据用户对项目的评价意见,更多地需要用机器学习的方法从关于内
阅读全文
摘要:Sep 6, 2013Tags:HadoopMahoutroadmapComments:3 CommentsMahout学习路线图Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。从2011年开始,中国进入大数据风起云涌的时代,以Hadoop为代表的家族软件,占据了
阅读全文
摘要:http://blog.fens.me/category/hadoop-action/Jan 20, 2014Tags:HadoopMapReducePageRankpeoplerranksocialComments:0 CommentsPeopleRank从社交网络中发现个体价值Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Wh
阅读全文
摘要:转自:http://blog.fens.me/hadoop-mapreduce-recommend/Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。从2011年开始,中国进入大数据风起云涌的时代,以Hadoop为代表的家族软件,占据了大数据处理的广阔地盘。开源界及
阅读全文
摘要:转自:http://www.infoq.com/cn/articles/zjl-sns-automatic-mining一.为何要在大规模SNS中挖掘兴趣圈子随着国外的facebook、twitter以及国内的人人、新浪微博等SNS及内容分享平台的逐步流行,如何从上亿的海量用户中自动挖掘兴趣圈子成为了一个有趣也非常必要的工作。所谓“兴趣圈子”,指的是在同一分享平台下,有着共同的兴趣爱好的用户群体,比如新浪微博里哪些用户是对云计算感兴趣的?他们是否形成了一个密切交互的圈子?对这些信息的挖掘是很有趣也很有实际用处的。如果能够从海量用户中通过自动手段挖掘出一个个的兴趣圈子,对于很多具体应用来说是非常
阅读全文
摘要:转自:http://blog.163.com/guaiguai_family/blog/static/20078414520138911393767/http://sites.computer.org/debull/A12june/pipeline.pdf这一套可以成为互联网公司的标准基础架构了,摘要如下:把数据的 source of truth 放在数据总线里,而非 Hadoop 和数据仓库里。这是个很违反直觉的做法,但得益与 Kafka 巧妙的数据持久性以及分区、备份的设计,数据总线成了实时系统和批处理系统的非常可靠的数据源头,兼顾两种处理范式;ActiveMQ 各种问题,不堪数据收集重任
阅读全文
摘要:转自:http://blog.163.com/guaiguai_family/blog/static/20078414520132181010189/写代码的人都知道日志很重要,机器不多的时候,查看日志很简单,ssh 上去 grep + awk + perl 啥的 ad hoc 的搞几把就行,但面对上百台甚至上千台机器时,如何有效的收集和分析日志就成了个很头疼的事情。日志处理必然有如下过程:从各个服务器读取日志把日志存放到集中的地方挖掘日志数据,用友好的 UI 展示出来,最好能做到实时的输入表达式做过滤、聚合下面分三个方面聊聊,整个过程是需要多方配合的,包括写日志、读日志、转储日志、分析日志,
阅读全文
摘要:转自:http://www.zhihu.com/topic/195528261. C 程序员对于内存管理,计算机体系的理解能力;2. C++ 程序员对元编程的理解能力;3. Java程序员对于OO和设计模式的理解,对规模项目掌控的能力, 对虚拟机实现理解的能力;4. Ruby程序员创造Web应用的能力;5. Python 程序员在小中型Startup中应对各种问题的能力;6. Javascript 程序员研究颠覆同行对Web交互认知的技术的能力;
阅读全文
摘要:http://www.cnblogs.com/azai/archive/2010/11/11/1875062.htmllog4j日志配置关键字: apache log4j1、配置根Logger:log4j.rootLogger = [ level ] , appenderName, appenderName2level:日志的级别,指定这条日志信息的重要性。分为ALL < DEBUG < INFO < WARN 一般常用的为DEBUG , INFO ,WARN ,ERROR四种,分别对应Logger类的四种方法debug(Object message ) ;info(Obje
阅读全文
摘要:架构相关领域的学习材料http://hi.baidu.com/linsd99/item/c51cbb773c9be25a0c0a074f对于工程师来说,到一定阶段后往往会遇到成长瓶颈。要突破此瓶颈,需要在所属技术领域更深入学习,了解本领域的问题本质、方法论与设计理念、发展历史等。以下提供一些架构相关领域的学习材料,附上简单点评,供有兴趣的工程师参考。希望大家能通过对这些领域的了解和学习,掌握更多system design principles,在自己的工作中得心应手,步入自由王国。1. Operating SystemsMach[Intro:http://www-2.cs.cmu.edu/af
阅读全文
摘要:1.protobuf实例-PHP版http://blog.hucde.com/2011/07/20/180protobuf简介protobuf是google提供的一个开源序列化框架,类似于XML,JSON这样的数据表示语言,其最大的特点是基于二进制,因此比传统的XML表示高效短小得多。虽然是二进制数据格式,但并没有因此变得复杂,开发人员通过按照一定的语法定义结构化的消息格式,然后送给命令行工具,工具将自动生成相关的类,可以支持php、java、c++、python等语言环境。通过将这些类包含在项目中,可以很轻松的调用相关方法来完成业务消息的序列化与反序列化工作。protobuf在google中
阅读全文