摘要: yum install bzip*python2.6 import bz2 python2.7 import bz2 error 解决:sudo cp /usr/lib64/python2.6/lib-dynload/bz2.so /usr/local/lib/python2.7/ 阅读全文
posted @ 2016-10-14 11:51 wangzbob 阅读(1742) 评论(0) 推荐(0) 编辑
摘要: python 默认是ucs2编码进行编译,重新编译使用ucs4. python: ./configure --enable-unicode=ucs4 make && make install 将使用usc2编码的卸掉在重装 。 阅读全文
posted @ 2016-10-14 09:40 wangzbob 阅读(2918) 评论(0) 推荐(0) 编辑
摘要: Exception in thread "main" java.lang.NoSuchMethodError: org.slf4j.spi.LocationAwareLogger.log(Lorg/slf4j/Marker;Ljava/lang/String;ILjava/lang/String;[ 阅读全文
posted @ 2016-09-29 14:02 wangzbob 阅读(177) 评论(0) 推荐(0) 编辑
摘要: hadoop 源代码分析(一) Google 的核心竞争技术是它的计算平台。HadoopGoogle的大牛们用了下面5篇文章,介绍了它们的计算设施。 GoogleCluster:http://research.google.com/archive/googlecluster.html Chubby: 阅读全文
posted @ 2016-09-08 14:45 wangzbob 阅读(544) 评论(0) 推荐(0) 编辑
摘要: 一、Hive背景介绍 Hive最初是Facebook为了满足对海量社交网络数据的管理和机器学习的需求而产生和发展的。马云在退休的时候说互联网现在进入了大数据时代,大数据是现在互联网的趋势,而hadoop就是大数据时代里的核心技术,但是hadoop的mapreduce操作专业性太强,所以faceboo 阅读全文
posted @ 2016-09-08 14:17 wangzbob 阅读(690) 评论(0) 推荐(0) 编辑
摘要: 1.上周的任务 1.学习基本理论BP算法,梯度下降基本理论,LDA主题模型,Gibbs采样拟合参数,RNN和RBM(多层网络)等。 2.方案基本上确定,使用RNN在已有数据的基础上建立模型进行预测,RNN主要是处理一些时序数据的模型。 2.下周的任务 1.原始数据中一些参数还不明确,将对参数含义进行 阅读全文
posted @ 2016-07-03 17:38 wangzbob 阅读(127) 评论(0) 推荐(0) 编辑
摘要: 1.首先学习基本的知识,文本分析。学习基本的linux命令,使用脚本对文本进行细粒度的切分,并对模型进行调研 2.分析文本文件中的特征, 3.分析文本文件中上下文之间的关系。 4.编写脚本文件,对脚本预处理,数据清洗,并产生格式化的数据 5.建立模型 6.编写map,reduce过程文件,对数据进行 阅读全文
posted @ 2016-05-31 00:28 wangzbob 阅读(183) 评论(0) 推荐(0) 编辑
摘要: 实验简介 本次课程学习了Mahout 的 Bayes 分类算法。 一、实验环境说明 1. 环境登录 无需密码自动登录,系统用户名 shiyanlou 2. 环境介绍 本实验环境采用带桌面的Ubuntu Linux环境,实验中会用到桌面上的程序: XfceTerminal: Linux 命令行终端,打 阅读全文
posted @ 2016-05-23 16:31 wangzbob 阅读(1161) 评论(0) 推荐(0) 编辑
摘要: 转载请表明出处:http://wenku.baidu.com/view/d2288952a32d7375a4178068?fr=prin http://www.infoq.com/cn/presentations/real-time-analysis-of-large-scale-security- 阅读全文
posted @ 2016-03-27 19:12 wangzbob 阅读(576) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2016-03-27 15:26 wangzbob 阅读(174) 评论(0) 推荐(0) 编辑