2018 年 3月随笔档案 - dy9776

使用mapreduce来分析网站的log日志

摘要：之前，就写过，但是忘了总结了，找了半天也没有找到，看了以后要将东西整理了。无奈，在网上收拾，看到这个人写的，索性，就搬过来，待我找到我写的，在一块补充一下！所有网站的服务器上都会保留访问的log日志。这些log日志记录的其他机器访问服务器的ip，时间，http协议，状态码等信息。比如这样： i 阅读全文

posted @ 2018-03-30 17:44 dy9776 阅读(679) 评论(0) 推荐(0) 编辑

UML - EA 序列图

摘要：序列图中的 Fragment 的类型（Loop、Opt、Par和Alt）（还有：）序列图主要用于展示对象之间交互的顺序。序列图将交互关系表示为一个二维图。纵向是时间轴，时间沿竖线向下延伸。横向轴代表了在协作中各独立对象的类元角色。类元角色用生命线表示。当对象存在时，角色用一条虚线表示，当对象阅读全文

posted @ 2018-03-27 11:28 dy9776 阅读(5303) 评论(0) 推荐(1) 编辑

Java资源大全中文版（Awesome最新版）

摘要：Awesome系列的Java资源整理。awesome-java 就是akullpp发起维护的Java资源列表，内容包括：构建工具、数据库、框架、模板、安全、代码分析、日志、第三方库、书籍、Java 站点等等。业务流程管理套件流程驱动的软件系统构建，中间件。 jBPM：非常灵活的业务流程管理框架，阅读全文

posted @ 2018-03-21 20:23 dy9776 阅读(1431) 评论(0) 推荐(0) 编辑

有关python numpy pandas scipy 等能在YARN集群上运行PySpark

摘要：有关这个问题，似乎这个在某些时候，用python写好，且spark没有响应的算法支持，能否能在YARN集群上运行PySpark方式，将python分析程序提交上去？ Spark Application可以直接运行在YARN集群上，这种运行模式，会将资源的管理与协调统一交给YARN集群去处理，这阅读全文

posted @ 2018-03-14 19:26 dy9776 阅读(7100) 评论(1) 推荐(3) 编辑

Spark Stage切分源码剖析——DAGScheduler

摘要：Spark中的任务管理是很重要的内容，可以说想要理解Spark的计算流程，就必须对它的任务的切分有一定的了解。不然你就看不懂Spark UI,看不懂Spark UI就无法去做优化...因此本篇就从源码的角度说说其中的一部分，Stage的切分——DAG图的创建先说说概念在Spark中有几个维度的概阅读全文

posted @ 2018-03-07 17:10 dy9776 阅读(424) 评论(0) 推荐(1) 编辑

Spark的运行模式详解

摘要：Spark的运行模式是多种多样的，那么在这篇博客中谈一下Spark的运行模式一：Spark On Local 此种模式下，我们只需要在安装Spark时不进行hadoop和Yarn的环境配置，只要将Spark包解压即可使用，运行时Spark目录下的bin目录执行bin/spark-shell即可具阅读全文

posted @ 2018-03-07 16:52 dy9776 阅读(1093) 评论(0) 推荐(0) 编辑

Spark核心技术原理透视一（Spark运行原理）

摘要：在大数据领域，只有深挖数据科学领域，走在学术前沿，才能在底层算法和模型方面走在前面，从而占据领先地位。 Spark的这种学术基因，使得它从一开始就在大数据领域建立了一定优势。无论是性能，还是方案的统一性，对比传统的Hadoop，优势都非常明显。Spark提供的基于RDD的一体化解决方案，将MapRe 阅读全文

posted @ 2018-03-07 16:46 dy9776 阅读(534) 评论(0) 推荐(0) 编辑

相似度度量计算

摘要：看到很多地方在用这个，就总结一下：相似度度量（Similarity），即计算个体间的相似程度，相似度度量的值越小，说明个体间相似度越小，相似度的值越大说明个体差异越大。对于多个不同的文本或者短文本对话消息要来计算他们之间的相似度如何，一个好的做法就是将这些文本中词语，映射到向量空间，形成文本阅读全文

posted @ 2018-03-07 11:18 dy9776 阅读(729) 评论(0) 推荐(0) 编辑

dy9776

03 2018 档案

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论