摘要: hadoop上执行mapreduce streaming python程序报错, 报错详细信息为 python - PipeMapRed.waitOutputThreads(): subprocess failed with code 1 网上搜索后,得知该问题是由于 脚本程序本身问题。 解决办法, 阅读全文
posted @ 2016-07-25 17:57 Roly-Poly 阅读(1829) 评论(0) 推荐(0) 编辑
摘要: 解决办法如下, ./mongoimport -port 6066 -d xxx -c xxx --batchSize=10 /root/mong_data/test/xxx 原因转自 http://blog.csdn.net/xiaobluesky/article/details/50216927 阅读全文
posted @ 2016-02-26 16:35 Roly-Poly 阅读(1737) 评论(0) 推荐(0) 编辑
摘要: 这道题是lintcode上的一道题,当然leetcode上同样有。本题需要寻找O(N)复杂度的算法。解体思路比较有特点,所以容易想到参考 最小栈 的解题办法。但是最小栈用栈维护最小值很直观,这道题是队列,用什么数据结构好呢?也许看完暴力解会有点启发。但是思路还是一样的,最大的要在最前面(直接获取结果... 阅读全文
posted @ 2015-10-20 16:21 Roly-Poly 阅读(2124) 评论(0) 推荐(0) 编辑
摘要: 像上一篇文章 《聚类思想分析》 所述, 聚类算法无所谓好坏,重点在于合理使用各类算法达到最优效果。-----------------------------------------------------------------------------------------------------... 阅读全文
posted @ 2015-07-23 17:32 Roly-Poly 阅读(5636) 评论(0) 推荐(0) 编辑
摘要: 优点:原理简单(靠近中心点),实现容易(1、2 天),聚类效果中上(依赖K的选择)缺点:1. 无法确定K的个数 (根据什么指标确定K)2. 对离群点敏感 (容易导致中心点偏移)3. 算法复杂度不易控制 O(NKm), 迭代次数可能较多 (m可能会比较大)4. 局部最优解而不是全局优 (这个和初始点选... 阅读全文
posted @ 2015-07-23 12:41 Roly-Poly 阅读(9983) 评论(0) 推荐(0) 编辑
摘要: 聚类算法在数据挖掘中经常使用,思想简单直接。 在系统中,自己也实现过几个聚类算法,做针对性的优化也并无它难度。 由于其方式的简单,开始也未对它有过深入思考。 但是,如果你想让数据自己说话,还是离不开聚类。 因此调研了很多聚类算法,做一些总结。-----------------------... 阅读全文
posted @ 2015-07-23 12:35 Roly-Poly 阅读(2086) 评论(0) 推荐(0) 编辑
摘要: 本文针对的问题是 ICTCLAS2015 的多线程分词,为了实现多线程做了简单的JAVA封装。如果有需要可以自行进一步封装其它接口。 首先ICTCLAS2015的传送门(http://ictclas.nlpir.org/),其对中文分词做的比较透彻,而且有一定的可调式性。但是应用到实际开发中的... 阅读全文
posted @ 2015-06-16 15:43 Roly-Poly 阅读(1513) 评论(2) 推荐(0) 编辑
摘要: 题目:Reverse Linked List II题意:Reverse a linked list from position m to n. Do it in-place and in one-pass.下面这段代码,有两个地方,一个是4、5行的dummy节点设置;另一个是11-14行,局部可视化... 阅读全文
posted @ 2015-06-05 19:26 Roly-Poly 阅读(579) 评论(0) 推荐(0) 编辑
摘要: 啥不说了,两周前刚刚做过mysql导入导出的结果现在又忘了。。更可悲的是竟然同样的三篇blog,现在看起来还是如当初一样费劲,里面的内容。。所以自己写个记录一下环境:*nix权限:有相关表的写读权限。命令:mysql 和 myslqdump导出:/usr/bin/mysqldump -utest -... 阅读全文
posted @ 2015-06-02 09:40 Roly-Poly 阅读(218) 评论(0) 推荐(0) 编辑
摘要: 很久没更新了,这篇文章重点在github的入门使用,读者可以下载github for windows shell,边看边操作,加深印象。好了,30分钟的愉快之旅开始吧:一、github使用的注意事项:1.对于某一次更新提交,必须要有这次操作的commit操作,git commit -m “评论内容”... 阅读全文
posted @ 2015-03-30 16:34 Roly-Poly 阅读(522) 评论(0) 推荐(0) 编辑