随笔档案「2017年5月」 - 大大的橙子

深入浅出聊聊企业级API网关

摘要：http://architect.dataguru.cn/article-11431-1.html API Gateway（API GW / API 网关），顾名思义，是出现在系统边界上的一个面向 API 的、串行集中式的强管控服务，这里的边界是企业 IT 系统的边界，主要起到隔离外部访问与内部系统阅读全文

posted @ 2017-05-30 17:07 大大的橙子阅读(1474) 评论(0) 推荐(0)

Message Queue

摘要：http://blog.csdn.net/shaobingj126/article/details/50585035 http://www.infoq.com/cn/articles/producers-and-consumers-mode/ http://blog.csdn.net/luohuac 阅读全文

posted @ 2017-05-27 15:49 大大的橙子阅读(212) 评论(0) 推荐(0)

pyspark

摘要：http://www.aboutyun.com/thread-18150-1-1.html 阅读全文

posted @ 2017-05-25 17:47 大大的橙子阅读(107) 评论(0) 推荐(0)

贝叶斯解读

摘要：你知道贝叶斯法则。机器学习与它有何相关？它可能很难掌握如何把拼图块放在一起——我们了解它花了一段时间。贝叶斯和频率论者在本质上，贝叶斯意味着概率。这个具体的术语存在是因为有两个概率方法。贝叶斯认为这是一个衡量的信念，因此，概率是主观的，并且指向未来。频率论者有不同看法：他们用概率描述过去发生的阅读全文

posted @ 2017-05-24 17:20 大大的橙子阅读(1748) 评论(0) 推荐(0)

Storm，Spark和Samza

摘要：http://www.csdn.net/article/2015-03-09/2824135 Apache Storm 在Storm中，先要设计一个用于实时计算的图状结构，我们称之为拓扑（topology）。这个拓扑将会被提交给集群，由集群中的主控节点（master node）分发代码，将任务分配给阅读全文

posted @ 2017-05-24 11:25 大大的橙子阅读(225) 评论(0) 推荐(0)

Stream computing

摘要：stream data 从广义上说，所有大数据的生成均可以看作是一连串发生的离散事件。这些离散的事件以时间轴为维度进行观看就形成了一条条事件流/数据流。不同于传统的离线数据，流数据是指由数千个数据源持续生成的数据，流数据通常也以数据记录的形式发送，但相较于离线数据，流数据普遍的规模较小。流数据产生源阅读全文

posted @ 2017-05-24 11:24 大大的橙子阅读(1054) 评论(0) 推荐(0)

error when start pyspark

摘要：ERROR spark.SparkContext: Error initializing SparkContext.java.lang.IllegalArgumentException: Required executor memory (1024+384 MB) is above the max 阅读全文

posted @ 2017-05-19 13:08 大大的橙子阅读(366) 评论(0) 推荐(0)

Hive 优化

摘要：一、Hadoop 计算框架的特性 1、什么是数据倾斜？ •由于数据分布不均匀，造成数据大量的集中到一点，造成数据热点。 2、Hadoop框架的特性 •不怕数据大，怕数据倾斜。 •jobs数比较多的作业运行效率相对比较低，如子查询比较多。 •sum,count,max,min等聚集函数，不会有数据倾斜阅读全文

posted @ 2017-05-18 15:55 大大的橙子阅读(312) 评论(0) 推荐(0)

OSI 与 TCP/IP

摘要：TCP/IP OSI 阅读全文

posted @ 2017-05-16 11:31 大大的橙子阅读(299) 评论(0) 推荐(0)

Proxy server

摘要：sss 阅读全文

posted @ 2017-05-16 11:24 大大的橙子阅读(258) 评论(0) 推荐(0)

Gateway

摘要：网关在传输层上以实现网络互连，是最复杂的网络互连设备，仅用于两个高层协议不同的网络互连。网关的结构也和路由器类似，不同的是互连层。网关既可以用于广域网互连，也可以用于局域网互连。网关是一种充当转换重任的计算机系统或设备。在使用不同的通信协议、数据格式或语言，甚至体系结构完全不同的两种系统之间，网关阅读全文

posted @ 2017-05-16 10:35 大大的橙子阅读(738) 评论(0) 推荐(0)

gradient descent

摘要：gradient descent 阅读全文

posted @ 2017-05-15 13:42 大大的橙子阅读(406) 评论(0) 推荐(0)

TF linear regression

摘要：本文的作者 Nishant Shukla 为加州大学洛杉矶分校的机器视觉研究者，从事研究机器人机器学习技术。Nishant Shukla 一直以来兼任 Microsoft、Facebook 和 Foursquare 的开发者，以及 SpaceX 的机器学习工程师。他还是《Haskell Data A 阅读全文

posted @ 2017-05-15 13:36 大大的橙子阅读(616) 评论(0) 推荐(0)

hadoop balance

摘要：balancer 阅读全文

posted @ 2017-05-10 10:17 大大的橙子阅读(408) 评论(0) 推荐(0)

HIVE 数据类型

摘要：数据类型 Hive基本的数据类型： Hive集合数据类型：另外还有一个复合数据类型，可以综合上面的数据类型组合到一起。 · union: UNIONTYPE<data_type, data_type, ...> 限定符 Hive默认的限定符： Structs： structs内部的数据可以通过DO 阅读全文

posted @ 2017-05-07 20:20 大大的橙子阅读(17821) 评论(0) 推荐(0)

Scala window下安装

摘要：第一步：Java 设置检测方法前文已说明，这里不再描述。如果还为安装，可以参考我们的Java 开发环境配置。接下来，我们可以从 Scala 官网地址 http://www.scala-lang.org/downloads 下载 Scala 二进制包(页面底部)，本教程我们将下载 2.11.7版阅读全文

posted @ 2017-05-03 10:13 大大的橙子阅读(334) 评论(0) 推荐(0)

HIVE 总结

摘要：http://blog.csdn.net/wisgood/article/details/17186181 常见错误 http://blog.csdn.net/sunnyyoona/article/details/51648871 HIVE roadmap http://blog.fens.me/h 阅读全文

posted @ 2017-05-02 22:03 大大的橙子阅读(177) 评论(0) 推荐(0)

mapreduce源码解析以及优化

摘要：http://blog.csdn.net/wisgood/article/details/8793483 优化 http://blog.csdn.net/wisgood/article/details/8789906 集群的优化 1、合理分配map和reduce任务的数量（单个节点上map任务、re 阅读全文

posted @ 2017-05-02 14:52 大大的橙子阅读(246) 评论(0) 推荐(0)

05 2017 档案