软件心理学工程师

2016年9月28日

存入HDFS的文件会按块（block）划分，默认每块128MB。默认1个block还有2个备份。备份增加了数据的可靠性和提高计算效率（数据本地化）。 HDFS部署可选择不支持HA，也可选择支持HA。 NameNode内存中有metadata，metadata里主要记录的信息包括：file locat Read More

posted @ 2016-09-28 08:43 软件心理学工程师 Views(458) Comments(0) Diggs(0)

2016年9月27日

cloudera learning1:cloudera简介及安装

cloudera分为两个部分：CDH和CM。CDH是Cloudera Distribution Hadoop的简称，顾名思义，就是cloudera公司发布的Hadoop版本，封装了Apache Hadoop，提供Hadoop所有的服务，包括HDFS,YARN,MapReduce以及各种相关的comp Read More

posted @ 2016-09-27 23:48 软件心理学工程师 Views(1215) Comments(0) Diggs(0)

2016年3月14日

机器学习中的规则化

最近重新看了《机器学习实战》第八章：预测数值型数据：回归。发现了一个以前没有重视的问题，规则化（regularization），通过网上各种查找资料，发现规则化对数据的特征选择，防止回归模型过拟合都有非常大的帮助。简单的讲，规则化就是给损失函数（cost function）多项式再加上一项，使得训 Read More

posted @ 2016-03-14 23:15 软件心理学工程师 Views(468) Comments(0) Diggs(0)

2016年3月4日

TF-IDF 文本相似度分析

前阵子做了一些IT opreation analysis的research，从产线上取了一些J2EE server运行状态的数据（CPU,Menory...），打算通过训练JVM的数据来建立分类模型，用于server状态的分类。这个过程中发现最难的地方就是构建训练数据集，训练数据必须要有明确的typ Read More

posted @ 2016-03-04 22:58 软件心理学工程师 Views(6609) Comments(0) Diggs(0)

2016年1月30日

数据分析实践：遇到的问题及感想

在使用机器学习算法进行分类预测的过程中，往往最困难的部分在于如何提高模型预测的准确率。有时候当我们辛辛苦苦准备了数据集，进行了繁琐的数据预处理，编码，提交到集群完成了模型训练之后，忽然发现预测的准确率低到让人无语，笔者曾经遇到过进行0,1分类，结果训练出来的模型准确率是51.8%，这和人工随机分类几 Read More

posted @ 2016-01-30 11:16 软件心理学工程师 Views(1107) Comments(0) Diggs(0)

2016年1月6日

记录工作中用到的linux命令

日常工作中会对centos进行操作，总是会有一些常用的命令记不住，特开一贴，记录那些命令，学而时习之。RPM操作类命令：查看RPM安装路径：1.rpm -qa|grep Memcached2.rpm -ql Memcached-1.4.13_02-6.x86_64yum显示源中可安装的mysql文件... Read More

posted @ 2016-01-06 22:05 软件心理学工程师 Views(243) Comments(0) Diggs(0)

2015年11月13日

回归：预测数值型数据

何为回归？“回归”一词是由达尔文的表兄弟Francis Galton发明的。Galton于1877年完成了第一次回归预测，目的是根据上一代豌豆种子（双亲）的尺寸来预测下一代豌豆种子（孩子）的尺寸。Galton在大量对象上应用了回归分析，甚至包括人的身高预测。他注意到，如果双亲的高高度比平均高度高，他... Read More

posted @ 2015-11-13 22:38 软件心理学工程师 Views(663) Comments(0) Diggs(0)

2015年11月4日

FP - growth 发现频繁项集

FP - growth是一种比Apriori更高效的发现频繁项集的方法。FP是frequent pattern的简称，即常在一块儿出现的元素项的集合的模型。通过将数据集存储在一个特定的FP树上，然后发现频繁项集或者频繁项对。通常，FP-growth算法的性能比Apriori好两个数量级以上。 ... Read More

posted @ 2015-11-04 22:26 软件心理学工程师 Views(790) Comments(0) Diggs(0)

2015年11月3日

为什么要 MySQL 迁移到 Maria DB

在Oracle收购了SUN公司之后， MySQL很不幸的落在了Oracle的手中，MySQL与Oracle DB存在竞争关系，很可能导致Oracle公司影响MySQL的开发与开放。MySQL之父Widenius在意识到Oracle会对MySQL做动作之前对MySQL另开了一个Branch：Mar... Read More

posted @ 2015-11-03 09:20 软件心理学工程师 Views(1126) Comments(0) Diggs(0)

2015年10月14日

降维技术---PCA

数据计算和结果展示一直是数据挖掘领域的难点，一般情况下，数据都拥有超过三维，维数越多，处理上就越吃力。所以，采用降维技术对数据进行简化一直是数据挖掘工作者感兴趣的方向。对数据进行简化的好处：使得数据集更易于使用，降低算法的计算开销，去除噪声，使得结果易懂。主成分分析法（PCA）是一种常用的降维技 Read More

posted @ 2015-10-14 22:54 软件心理学工程师 Views(525) Comments(0) Diggs(0)

软件心理学工程师

公告