摘要:
Awesome系列的Java资源整理。awesome-java 就是akullpp发起维护的Java资源列表,内容包括:构建工具、数据库、框架、模板、安全、代码分析、日志、第三方库、书籍、Java 站点等等。 业务流程管理套件 流程驱动的软件系统构建,中间件。 jBPM:非常灵活的业务流程管理框架, 阅读全文
摘要:
有关这个问题,似乎这个在某些时候,用python写好,且spark没有响应的算法支持, 能否能在YARN集群上 运行PySpark方式, 将python分析程序提交上去? Spark Application可以直接运行在YARN集群上,这种运行模式,会将资源的管理与协调统一交给YARN集群去处理,这 阅读全文
摘要:
Spark中的任务管理是很重要的内容,可以说想要理解Spark的计算流程,就必须对它的任务的切分有一定的了解。不然你就看不懂Spark UI,看不懂Spark UI就无法去做优化...因此本篇就从源码的角度说说其中的一部分,Stage的切分——DAG图的创建 先说说概念 在Spark中有几个维度的概 阅读全文
摘要:
Spark的运行模式是多种多样的,那么在这篇博客中谈一下Spark的运行模式 一:Spark On Local 此种模式下,我们只需要在安装Spark时不进行hadoop和Yarn的环境配置,只要将Spark包解压即可使用,运行时Spark目录下的bin目录执行bin/spark-shell即可 具 阅读全文
摘要:
在大数据领域,只有深挖数据科学领域,走在学术前沿,才能在底层算法和模型方面走在前面,从而占据领先地位。 Spark的这种学术基因,使得它从一开始就在大数据领域建立了一定优势。无论是性能,还是方案的统一性,对比传统的Hadoop,优势都非常明显。Spark提供的基于RDD的一体化解决方案,将MapRe 阅读全文
摘要:
看到很多地方在用这个, 就 总结一下: 相似度度量(Similarity),即计算个体间的相似程度,相似度度量的值越小,说明个体间相似度越小,相似度的值越大说明个体差异越大。 对于多个不同的文本或者短文本对话消息要来计算他们之间的相似度如何,一个好的做法就是将这些文本中词语,映射到向量空间,形成文本 阅读全文
摘要:
前言 gamma函数 0 整体把握LDA 1 gamma函数 beta分布 1 beta分布 2 Beta-Binomial 共轭 3 共轭先验分布 4 从beta分布推广到Dirichlet 分布 Dirichlet 分布 1 Dirichlet 分布 2 Dirichlet-Multinomia 阅读全文
摘要:
共轭先验 是啥? 网上找几篇文章,收集与此! 今天的主要任务是来理解共轭先验以及贝叶斯学习。最近在研究主题模型,里面用到了一些,另外在机器学习中,贝叶斯学习是重要的一个方向,所以有必要学习和掌握。 Contents 1.共轭先验分布 2. 贝叶斯学习 3. Beta分布及共轭先验 1.共轭先验分布 阅读全文
摘要:
机器学习库(MLlib)指南 MLlib是Spark的机器学习(ML)库。其目标是使实际的机器学习可扩展和容易。在高层次上,它提供了如下工具: ML算法:通用学习算法,如分类,回归,聚类和协同过滤 特征提取,特征提取,转换,降维和选择 管道:用于构建,评估和调整ML管道的工具 持久性:保存和加载算法 阅读全文
摘要:
1.C4.5算法 2. k 均值聚类算法 3.支持向量机 4. Apriori 关联算法 5.EM 最大期望算法 Expectation Maximization 6、PageRank 算法 7、AdaBoost 迭代算法 8、kNN 算法 9、朴素贝叶斯算法 10、CART 分类算法。 补充: 1 阅读全文