代码改变世界

不均衡样本集的抽样方法

2018-05-16 02:05 by 乱月灵猫, 1537 阅读, 0 推荐, 收藏, 编辑
摘要:http://blog.csdn.net/u011414200/article/details/50664266 通常情况下,在不均衡学习应用中使用抽样方法的目的就是为了通过一些机制改善不均衡数据集,以期获得一个均衡的数据分布。 http://blog.csdn.net/u011414200/art 阅读全文

机器学习之特征选择

2018-05-16 02:05 by 乱月灵猫, 357 阅读, 0 推荐, 收藏, 编辑
摘要:特征工程包括了两个重要问题,一个是特征选择,另一个是特征提取。这次介绍特征选择: 特征选择通常有两种方案:filter,wrapper,embedded filter,衡量每个特征的重要性,然后对其进行排序,筛选的时候可以选择top N,或者可以选择前x% filter方法:卡方检测,信息增益,相关 阅读全文

一个模型建立的完整流程

2018-05-16 02:04 by 乱月灵猫, 11824 阅读, 0 推荐, 收藏, 编辑
摘要:总结在工作中建立一个模型的完整流程。 主要工作: (1)采集数据 (2)分析数据 (3)特征工程 (4)模型评估 (5)模型优化 采集数据: 这点没太多可总结的,工作中保证采集的方案正确合理,量足够。 首先要知道真实的数据量是多少,采集过少数据的分布就不是无偏估计。 采集的时间维度需要注意,好坏样本 阅读全文

Redis 事务

2018-05-16 02:03 by 乱月灵猫, 191 阅读, 0 推荐, 收藏, 编辑
摘要:相信学过Mysql等其他数据库的同学对事务这个词都不陌生,事务表示的是一组动作,这组动作要么全部执行,要么全部不执行。为什么会有这样的需求呢?看看下面的场景: 微博是一个弱关系型社交网络,用户之间有关注和被关注两种关系,比如两个用户A和B,如果A关注B,则B的粉丝中就应该有A。关注这个动作需要两个步 阅读全文

MemCache学习 - 原理篇

2018-05-16 02:03 by 乱月灵猫, 196 阅读, 0 推荐, 收藏, 编辑
摘要:转载自:http://www.cnblogs.com/xrq730/p/4948707.html 概念 MemCache是一个自由的、开源的、高性能、分布式的”分布式内存对象缓存系统“,用于动态web应用以减轻数据库的负载。 基本原理 MemCache的数据结构是一个存储键值对的HashMap,访问 阅读全文

0 - kafka0.9 集群搭建

2018-05-16 02:02 by 乱月灵猫, 218 阅读, 0 推荐, 收藏, 编辑
摘要:https://www.cnblogs.com/luotianshuai/p/5206662.html 每台服务器都需要安装,修改配置,并启动 启动命令: sudo -u hadoop ./kafka-server-start.sh -daemon ../config/server.properti 阅读全文

0 - 分布式 hadoop 环境搭建

2018-05-16 02:00 by 乱月灵猫, 380 阅读, 0 推荐, 收藏, 编辑
摘要:在上一篇介绍Hadoop环境搭建中,是在本机搭建伪分布式,按照那个操作一般不会出问题。在多台服务器搭建Hadoop,会遇到各种问题 首先,需要熟悉几个目录 Hadoop/sbin 存放了各种启动所需的shell脚本,命令 Hadoop/logs 存放hadoop的各个日志,包括namenode日志, 阅读全文

0 - hadoop 环境搭建

2018-05-16 01:58 by 乱月灵猫, 299 阅读, 0 推荐, 收藏, 编辑
摘要:一开始是要学习spark的,安装hadoop有多方面原因,一方面学习分布式知识需要对hadoop有一定的了解,毕竟hadoop如此经典,一方面spark对hadoop的hdfs、map-reduce的支持,以及spark的运行模式可以选择hadoop的yarn模式,因此觉得学习hadoop也是向分布 阅读全文

5 - 常见开源的分布式文件系统

2018-05-16 01:57 by 乱月灵猫, 3669 阅读, 0 推荐, 收藏, 编辑
摘要:http://www.charmingzhou.com/distributed.html 系统整体对比 对比说明 /文件系统 开源协议说明 GPL:不允许修改后和衍生的代码做为闭源的商业软件发布和销售,修改后该软件产品必须也采用GPL协议; GPL V2:修改文本的整体就必须按照GPL流通,不仅该修 阅读全文

3 - 分布式系统生成唯一ID

2018-05-16 01:56 by 乱月灵猫, 378 阅读, 0 推荐, 收藏, 编辑
摘要:对于分布式系统,生成 唯一ID的方法,大致分为3类: (1)UUID (2)依赖数据库的 flicker 方案 (3)twitter 的 snowflake 算法 后面要介绍一种 阿里的 TDDL 中的方案,同样依赖数据库,但是比 Flicker 性能更高 此外,很多公司实际上是采用分布式ID生成系 阅读全文