dy9776

2018年3月21日

摘要： Awesome系列的Java资源整理。awesome-java 就是akullpp发起维护的Java资源列表，内容包括：构建工具、数据库、框架、模板、安全、代码分析、日志、第三方库、书籍、Java 站点等等。业务流程管理套件流程驱动的软件系统构建，中间件。 jBPM：非常灵活的业务流程管理框架，阅读全文

posted @ 2018-03-21 20:23 dy9776 阅读(1565) 评论(0) 推荐(0)

2018年3月14日

有关python numpy pandas scipy 等能在YARN集群上运行PySpark

摘要：有关这个问题，似乎这个在某些时候，用python写好，且spark没有响应的算法支持，能否能在YARN集群上运行PySpark方式，将python分析程序提交上去？ Spark Application可以直接运行在YARN集群上，这种运行模式，会将资源的管理与协调统一交给YARN集群去处理，这阅读全文

posted @ 2018-03-14 19:26 dy9776 阅读(7180) 评论(1) 推荐(3)

2018年3月7日

Spark Stage切分源码剖析——DAGScheduler

摘要： Spark中的任务管理是很重要的内容，可以说想要理解Spark的计算流程，就必须对它的任务的切分有一定的了解。不然你就看不懂Spark UI,看不懂Spark UI就无法去做优化...因此本篇就从源码的角度说说其中的一部分，Stage的切分——DAG图的创建先说说概念在Spark中有几个维度的概阅读全文

posted @ 2018-03-07 17:10 dy9776 阅读(436) 评论(0) 推荐(1)

Spark的运行模式详解

摘要： Spark的运行模式是多种多样的，那么在这篇博客中谈一下Spark的运行模式一：Spark On Local 此种模式下，我们只需要在安装Spark时不进行hadoop和Yarn的环境配置，只要将Spark包解压即可使用，运行时Spark目录下的bin目录执行bin/spark-shell即可具阅读全文

posted @ 2018-03-07 16:52 dy9776 阅读(1114) 评论(0) 推荐(0)

Spark核心技术原理透视一（Spark运行原理）

摘要：在大数据领域，只有深挖数据科学领域，走在学术前沿，才能在底层算法和模型方面走在前面，从而占据领先地位。 Spark的这种学术基因，使得它从一开始就在大数据领域建立了一定优势。无论是性能，还是方案的统一性，对比传统的Hadoop，优势都非常明显。Spark提供的基于RDD的一体化解决方案，将MapRe 阅读全文

posted @ 2018-03-07 16:46 dy9776 阅读(660) 评论(0) 推荐(0)

相似度度量计算

摘要：看到很多地方在用这个，就总结一下：相似度度量（Similarity），即计算个体间的相似程度，相似度度量的值越小，说明个体间相似度越小，相似度的值越大说明个体差异越大。对于多个不同的文本或者短文本对话消息要来计算他们之间的相似度如何，一个好的做法就是将这些文本中词语，映射到向量空间，形成文本阅读全文

posted @ 2018-03-07 11:18 dy9776 阅读(771) 评论(0) 推荐(0)

2018年2月28日

理解 LDA 主题模型

摘要：前言 gamma函数 0 整体把握LDA 1 gamma函数 beta分布 1 beta分布 2 Beta-Binomial 共轭 3 共轭先验分布 4 从beta分布推广到Dirichlet 分布 Dirichlet 分布 1 Dirichlet 分布 2 Dirichlet-Multinomia 阅读全文

posted @ 2018-02-28 17:31 dy9776 阅读(872) 评论(0) 推荐(0)

贝叶斯学习及共轭先验

摘要：共轭先验是啥？网上找几篇文章，收集与此！今天的主要任务是来理解共轭先验以及贝叶斯学习。最近在研究主题模型，里面用到了一些，另外在机器学习中，贝叶斯学习是重要的一个方向，所以有必要学习和掌握。 Contents 1.共轭先验分布 2. 贝叶斯学习 3. Beta分布及共轭先验 1.共轭先验分布阅读全文

posted @ 2018-02-28 16:51 dy9776 阅读(1193) 评论(0) 推荐(0)

2018年2月27日

Spark的MLlib和ML库的区别

摘要：机器学习库（MLlib）指南 MLlib是Spark的机器学习（ML）库。其目标是使实际的机器学习可扩展和容易。在高层次上，它提供了如下工具： ML算法：通用学习算法，如分类，回归，聚类和协同过滤特征提取，特征提取，转换，降维和选择管道：用于构建，评估和调整ML管道的工具持久性：保存和加载算法阅读全文

posted @ 2018-02-27 14:54 dy9776 阅读(901) 评论(0) 推荐(0)

2018年2月5日

数据挖掘中的 10 大算法

摘要： 1.C4.5算法 2. k 均值聚类算法 3.支持向量机 4. Apriori 关联算法 5.EM 最大期望算法 Expectation Maximization 6、PageRank 算法 7、AdaBoost 迭代算法 8、kNN 算法 9、朴素贝叶斯算法 10、CART 分类算法。补充： 1 阅读全文

posted @ 2018-02-05 09:54 dy9776 阅读(752) 评论(0) 推荐(0)

公告