fisherinbox

2017年4月8日

摘要： jobtracker存在单点故障问题 jobtracker只支持mapreduce，计算框架不具有可扩展性 jobtracker是性能瓶颈 yarn可以整合不同的计算框架，提高资源利用率 yarn的基本架构 yarn运行过程 yarn容错性 Resource Manager 存在单点故障正在基于z 阅读全文

posted @ 2017-04-08 20:54 fisherinbox 阅读(247) 评论(0) 推荐(0) 编辑

天池公交客流预测比赛

摘要：赛题与数据竞赛题目本次大赛要求选手根据广州市内及广佛同城公交线路的历史公交刷卡数据，挖掘固定人群在公共交通中的行为模式。建立公交线路乘车人次预测模型，并用模型预测未来一周（20150101-20150107）每日06时至21时每小时段各个线路的乘车人次。Part2将更换一批新数据。大赛开放20 阅读全文

posted @ 2017-04-08 12:09 fisherinbox 阅读(1780) 评论(2) 推荐(0) 编辑

2017年4月2日

hashmap，ConcurrentHashMap与hashtable的区别

摘要： 1.hashmap与hashtable的区别 1.我们从他们的定义就可以看出他们的不同，HashTable基于Dictionary类，而HashMap是基于AbstractMap。Dictionary是什么？它是任何可将键映射到相应值的类的抽象父类，而AbstractMap是基于Map接口的骨干实现阅读全文

posted @ 2017-04-02 16:28 fisherinbox 阅读(287) 评论(0) 推荐(0) 编辑

fail-fast和fail-safe

摘要： Fail-fast 和 Fail-safe会涉及到Javaz中的一些术语。首先得先了解并发修改。 1.什么是并发修改？当一个或多个线程正在遍历一个集合Collection，此时另一个线程修改了这个集合的内容（添加，删除或者修改）。这就是并发修改 2.什么是 fail-fast 机制? fail 阅读全文

posted @ 2017-04-02 16:27 fisherinbox 阅读(417) 评论(0) 推荐(0) 编辑

2017年3月31日

常见机器学习算法优缺点

摘要：转自：http://www.cnblogs.com/zhizhan/p/4432943.html 决策树一、决策树优点 1、决策树易于理解和解释，可以可视化分析，容易提取出规则。 2、可以同时处理标称型和数值型数据。 3、测试数据集时，运行速度比较快。 4、决策树可以很好的扩展到大型数据库中，同阅读全文

posted @ 2017-03-31 00:30 fisherinbox 阅读(7088) 评论(0) 推荐(2) 编辑

2017年3月29日

c++常见面试题

摘要：转自：http://blog.csdn.net/wdzxl198/article/details/9102759/ 1.new、delete、malloc、free关系 delete会调用对象的析构函数,和new对应free只会释放内存，new调用构造函数。malloc与free是C++/C语言的标阅读全文

posted @ 2017-03-29 22:48 fisherinbox 阅读(272) 评论(0) 推荐(0) 编辑

linux命令

摘要：查找文件： find / -name file1 从 '/' 开始进入根文件系统搜索文件和目录 find / -user user1 搜索属于用户 'user1' 的文件和目录 find /home/user1 -name \*.bin 在目录 '/ home/user1' 中搜索带有'.bin' 阅读全文

posted @ 2017-03-29 17:49 fisherinbox 阅读(215) 评论(0) 推荐(0) 编辑

2017年3月27日

rf调参小结

摘要：转自http://www.cnblogs.com/pinard/p/6160412.html 1. scikit-learn随机森林类库概述在scikit-learn中，RF的分类类是RandomForestClassifier，回归类是RandomForestRegressor。当然RF的变种E 阅读全文

posted @ 2017-03-27 16:06 fisherinbox 阅读(3635) 评论(0) 推荐(0) 编辑

gbdt调参的小结

摘要：关键部分转自http://www.cnblogs.com/pinard/p/6143927.html 第一次知道网格搜索这个方法，不知道在工业中是不是用这种方式 1.首先从步长和迭代次数入手，选择一个较大的步长，和较小的迭代次数。可以将步长设置为0.1，迭代次数从20-100网格搜索。 2.找到最合阅读全文

posted @ 2017-03-27 11:40 fisherinbox 阅读(4736) 评论(0) 推荐(0) 编辑

2017年3月20日

Hive

摘要： Hive 由facebook开源，最初用于解决海量数据结构化的统计问题，构建在hadoop之上的数据仓库，数据计算使用MR，数据存储使用HDFS，通常用于离线数据处理。 Hive Metastore Embedded Mode (单用户模式) Local Mode (多用户模式、元数据库在本机） R 阅读全文

posted @ 2017-03-20 11:45 fisherinbox 阅读(161) 评论(0) 推荐(0) 编辑

公告