随笔档案「2013年10月」 - AI001

贝叶斯分类器

摘要：原文https://cwiki.apache.org/confluence/display/MAHOUT/NaiveBayes贝叶斯分类器是对属性集和类变量的概率关系建模的方法。定理定义：假设H[,1],H[,2]…,H[,n]互斥且构成一个完全事件，已知它们的概率P(H[,i]),i=1,2,…,... 阅读全文

posted @ 2013-10-31 14:48 AI001 阅读(217) 评论(0) 推荐(0)

mahout算法说明【0.8版本】

摘要：原文地址http://mahout.apache.org/users/basics/algorithms.html算法原始论文：多核机器学习的Map Reduce有关MapReduce的论文:评估MapReduce的多核和多处理器系统机器学习的MapReduce分布式计算对于一般机器学习相关的论文，... 阅读全文

posted @ 2013-10-29 17:20 AI001 阅读(262) 评论(0) 推荐(0)

ganglia监控redis和mongodb

摘要：由于ganglia是默认安装，打开了python插件功能，就不需要设置了从https://github.com/ganglia/gmond_python_modules获取插件的代码redis的插件是redis-gmond文件夹mongodb的插件是mongodb文件夹使用whereis命令查看ga... 阅读全文

posted @ 2013-10-29 14:33 AI001 阅读(342) 评论(0) 推荐(0)

redis安装的一个问题

摘要：在安装redis2.6.16时碰到一个问题报jemalloc的相关文件找不到但是使用yum install jemalloc后，仍然出错安装yum install jemalloc-devel，还错，报找不到一个c文件make MALLOC=libcok了原因见redis安装目录里的README文件... 阅读全文

posted @ 2013-10-28 16:54 AI001 阅读(97) 评论(0) 推荐(0)

中国最完整的sysctl.conf优化方案

摘要：网上关于sysctl.conf的优化方案有各种版本，大多都是抄来抄去的，让新人看了很迷茫。为解决此问题，经过两天的整理，查了N多资料，将大家常用的总结如下，很多默认的不需要修改的暂未涉及，今后将逐步把所有的项目都有个翻译、讲解、修改建议，如有修改，将以此文为准，其他地方的内容，本人不负责更新。因此转... 阅读全文

posted @ 2013-10-28 10:32 AI001 阅读(182) 评论(0) 推荐(0)

基于keepalived、redis sentinel的高可用redis集群【修改版】

摘要：原方案地址原方案硬件机器名IP作用master192.168.0.2redis的master服务器slave1192.168.0.3redis的slave服务器slave2192.168.0.4redis的slave服务器route1192.168.0.5【虚拟IP：192.168.0.7】keep... 阅读全文

posted @ 2013-10-24 10:33 AI001 阅读(343) 评论(0) 推荐(0)

expect5.44安装

摘要：TCL安装yum install tclyum install tcl-devel expect安装yum install expectyum install expect-devel由于经常发现不安装devel的包报错，干脆就连devel的也安装了阅读全文

posted @ 2013-10-23 13:10 AI001 阅读(205) 评论(0) 推荐(0)

基于keepalived、redis sentinel的高可用redis集群

摘要：硬件机器名IP作用master192.168.0.2redis的master服务器slave1192.168.0.3redis的slave服务器slave2192.168.0.4redis的slave服务器route1192.168.0.5【虚拟IP：192.168.0.7】keepalived和r... 阅读全文

posted @ 2013-10-22 14:11 AI001 阅读(401) 评论(0) 推荐(0)

redis2.6高可用方案【3】

摘要：Sentinels and Slaves auto discovery对于需要相互间交换信息、检查彼此可用性的Sentinel，你无需将运行的实例地址在每个Sentinel上配置，因为当Sentinel都监控相同的master时，借助于使用Redismaster的Pub/Sub功能，就可以发现其他S... 阅读全文

posted @ 2013-10-17 16:20 AI001 阅读(393) 评论(0) 推荐(0)

redis2.6高可用方案【2】

摘要：SDOWN and ODOWN已经简要地提及本文档中的Redis Sentinel涉及两个不同的关闭概念，一个被称为Subjectively Down condition（SDOWN），由本地哨兵实例发出关闭实例的条件。另一种是Objectively Down condition (ODOWN)即有... 阅读全文

posted @ 2013-10-17 14:07 AI001 阅读(189) 评论(0) 推荐(0)

redis2.6分区

摘要：分区：如何在多个redis实例分割数据分区即是将你的数据分布在多个redis实例中，每一个实例将只会包括你数据的key的一部分的子集。【1】将介绍redis分区的基本概念【2】将介绍redis分区可替代的选择Why partitioning is usefulredis的分区服务有两个主要的目标：它... 阅读全文

posted @ 2013-10-16 15:33 AI001 阅读(227) 评论(0) 推荐(0)

redis2.6高可用方案【1】

摘要：Redis Sentinel是一个被设计用来管理redis实例的系统。它用来完成如下的三个任务：监控 Redis Sentinel会不间断检查redis的master和slave是否如你预期一样的工作。通知一旦被Redis Sentinel监控的任何一个redis服务实例发生错误，它能够通知系统管... 阅读全文

posted @ 2013-10-15 16:26 AI001 阅读(218) 评论(0) 推荐(0)

摘要：原文地址：http://www.admin10000.com/document/3047.html什么叫高性能的网站？两个网站性能架构设计方案：A方案和B方案，A方案在小于100个并发用户访问时，每个请求的响应时间是1秒，当并发请求达到200的时候，请求的响应时间将骤增到10秒。B方案不管是100个并发用户访问还是200个并发用户访问，每个请求的响应时间都差不多是1.5秒。哪个方案的性能好？如果老板说“我们要改善网站的性能”，他指的是什么？同类型的两个网站，X网站服务器平均每个请求的处理时间是500毫秒，Y网站服务器平均每个请求的处理时间是1000毫秒，为什么用户却反映Y网站的速度快呢.. 阅读全文

posted @ 2013-10-14 11:00 AI001 阅读(332) 评论(0) 推荐(0)

基于storm和hadoop的广告系统研究【3】

摘要：二、基于用户分析的计算广告基于用户分析的计算广告是直接寻找广告与用户的一致性，当前用户分析主要从IP、注册资料、服务器日志、Cookie、历史数据、浏览器行为等方面切入，其代表性的广告形式为电子商务个性化推荐广告。而基于用户分析的根本目的是确定用户的兴趣以及购买行为的特点。而进行这样的分析需要一些基础性的数据，如用户兴趣分类库、购买行为模型。需要先从理论上明确用户的大致轮廓，进行数据范围的界定，否则分析的标准无从谈起了。1.数据属性的特性和用户特征（1）IP数据主要用于界定用户所处的地域，不同的地域经济条件有差异，商品在不同的地域销售也存在广泛的差异。可以依据用户所在地域针对性的选择地域广告商阅读全文

posted @ 2013-10-12 17:45 AI001 阅读(298) 评论(0) 推荐(0)

基于storm和hadoop的广告系统研究【2】

摘要：文中所有实现方案全部基于storm、hadoop以及nosql等开源技术计算广告学概念：点击此处计算广告的运作系统主要包括广告算法、广告、语境、受众（用户）四个方面，针对这四个方面当下的广告形式可归纳为三类：基于文本分析、基于用户分析和基于用户参与。一、基于文本分析这种形式最常见的就是浏览的网页内容的与广告主题的匹配，比如看关于诺基亚1020自拍神器的测评文章，同时网页的广告投放商根据文章投放的是1020的销售商的广告。1.实现的方式是如下的流程：（1）.发送文章网址给广告投放系统（2）.投放系统进行抓取和主题分析（3）.根据分析出的主题进行广告主题匹配筛选（4）.依据其他因素进一步筛选（5）阅读全文

posted @ 2013-10-11 16:05 AI001 阅读(367) 评论(0) 推荐(0)

基于storm和hadoop的广告系统研究【1】

摘要：需要的基础概念：1.按效果付费：详细概念点击此处2.竞价排名：详细概念点击此处按照上面的两个概念的详细内容，那么系统就至少需要面对以下的问题：1.高并发，要求相应时间短2.高并发情况下广告客户金额计算正确性3.用户访问页面内容与广告的内容高匹配度解决方案简单对比：ABC属性C#.net平台（无消息队列服务）C#.net平台（有消息队列服务）基于Storm和hadoop横向扩展服务集群前置负载均衡设备，通过添加服务器扩展容量服务集群前置负载均衡设备，通过添加服务器扩展容量，单结点的负载能力胜过A服务集群不需要负载设备，通过添加服务节点扩展容量纵向扩展增加功能会降低单单结点的相应能力，影响服务过程阅读全文

posted @ 2013-10-10 17:41 AI001 阅读(216) 评论(0) 推荐(0)

mahout的数据处理--【根据文本文件创建vector】

摘要：mahout有根据目录下文本转换为Vectors的工具。在创建vector前需要将文档转换为SequenceFile格式【hadoop存储文件的格式】。SequenceFile是key--value形式的存储。DocumentVectorizer 需要以unique类型为key，UTF-8格式的文本内容为value的数据格式。您可能会发现有助于提卡（http://lucene.apache.org/tika）转换成二进制文件以文本。mahout有一个漂亮的工具，它读取目录以及它的子目录以分块的方式为我们创建SequenceFile格式的数据。生成的文档的ID是/document.txt的形式。阅读全文

posted @ 2013-10-08 15:54 AI001 阅读(427) 评论(0) 推荐(0)

10 2013 档案