懵懂的菜鸟

spark

摘要：转：http://www.cnblogs.com/haozhengfei/p/039dfec24294b39a2035b915dc96ef4c.html Spark_总结一 1.Spark介绍 1.1什么是Spark? Apache Spark是一个开源的集群计算框架，使数据计算更快（高效运行，快速阅读全文

posted @ 2017-10-25 19:58 懵懂的菜鸟阅读(1160) 评论(0) 推荐(0) 编辑

MapReduce

摘要：转：http://www.cnblogs.com/xia520pi/archive/2012/05/16/2504205.html 1，MapReduce编程模型 MapReduce采用"分而治之"的思想，把对大规模数据集的操作，分发给一个主节点管理下的各个分节点共同完成，然后通过整合各个节点的中间阅读全文

posted @ 2017-10-25 19:47 懵懂的菜鸟阅读(199) 评论(0) 推荐(0) 编辑

hadoop集群的三种运行模式

摘要：单机（本地）模式：这种模式在一台单机上运行，没有分布式文件系统，而是直接读写本地操作系统的文件系统。在单机模式（standalone）中不会存在守护进程，所有东西都运行在一个JVM上。这里同样没有DFS，使用的是本地文件系统。单机模式适用于开发过程中运行MapReduce程序，这也是最少使用的一个阅读全文

posted @ 2017-10-25 19:41 懵懂的菜鸟阅读(979) 评论(0) 推荐(0) 编辑

大数据研发

摘要：大数据工程师（开发）面试题(附答案) MapReduce 1. 不指定语言，写一个WordCount的MapReduce 我：最近刚学了scala，并且就有scala版本的WordCount，刚好学以致用了一下：补：至于java版本，虾皮博主的一篇文章讲解的非常细致： Hadoop集群（第6期）_ 阅读全文

posted @ 2017-10-25 19:35 懵懂的菜鸟阅读(2716) 评论(0) 推荐(0) 编辑

有20个数组，每个数组有500个元素，升序排列，现在在这20*500个数中找出排名前500的数。求时间复杂度？

摘要：有20个数组，每个数组有500个元素，升序排列，现在在这20*500个数中找出排名前500的数。求时间复杂度？注意：调堆的时间复杂度为logN，建堆的时间复杂度是O(N)。直接暴力求解，将20个数组合并，然后排序，取出500个数使用归并。对于排好序的序列，我们要注意使用归并。先将第1个阅读全文

posted @ 2017-10-25 19:28 懵懂的菜鸟阅读(596) 评论(0) 推荐(0) 编辑

欧几里得距离、曼哈顿距离、切比雪夫距离

摘要：欧几里得距离-欧氏距离，也就是我们熟知的距离，可扩展至m维 2维：d=sqrt((x1-x2)2+(y1-y2)2) 3维：d=sqrt((x1-x2)2+(y1-y2)2+(z1-z2)2) m维：d=sqrt(∑(xi,1-xi,2)2) 曼哈顿距离-出租车距离，在一个横竖分布的网格上，两点之间阅读全文

posted @ 2017-10-25 19:14 懵懂的菜鸟阅读(1063) 评论(0) 推荐(0) 编辑

Java四种排序：冒泡，选择，插入，二分（折半插入）

摘要：四种排序：冒泡，选择，插入，二分（折半插入）阅读全文

posted @ 2017-10-25 18:26 懵懂的菜鸟阅读(313) 评论(0) 推荐(0) 编辑

数据结构基础

摘要：存储结构分为： 1，随机存取，即可随意直接存取任意一个元素，通过下标直接存取出任何一个元素；通过地址直接访问任意一个空间 2，顺序存取，只能从前往后逐个访问。 3，索引存取，为某个关键字建立索引表，从表中取得地址。索引存取多用在数据管理过程中。 4，散列存取。有1千万条重复的短信，以文本形式保存，阅读全文

posted @ 2017-10-25 16:10 懵懂的菜鸟阅读(286) 评论(0) 推荐(0) 编辑

python处理中文

摘要： python 清洗中文文件需要用到的两个链接： 1，unicode编码转换器 http://www.bangnishouji.com/tools/chtounicode.html 2，Python匹配中文的正则表达式 http://www.jb51.net/article/83975.htm 测试阅读全文

posted @ 2017-10-25 00:31 懵懂的菜鸟阅读(9486) 评论(0) 推荐(0) 编辑

sql优化

摘要：其他：http://www.cnblogs.com/ShaYeBlog/archive/2013/07/31/3227176.html 执行数据库查询时，如果要查询的数据有很多，假如上千万条，用什么办法可以提高查询效率？ 1，在数据库设计方面（1）建立索引（2）建立分区（mysql,比如按时间分阅读全文

posted @ 2017-10-24 12:48 懵懂的菜鸟阅读(213) 评论(0) 推荐(0) 编辑

导航

公告