随笔分类 - bigdata
摘要:server端安装及配置 apache2 + Mysql5.7 + php7 + redis 参见:http://docs.cobub.com/pages/viewpage.action?pageId=884864 可能需要额外安装: 安装完成后创建新的App并获取其app key。 其它注意点 安
阅读全文
摘要:神经网络模型 每个node包含两种操作:线性变换(仿射变换)和激发函数(activation function)。 其中仿射变换是通用的,而激发函数可以很多种,如下图。 MLLib中实现ANN 使用两层(Layer)来对应模型中的一层: AffineLayer 仿射变换: output = W ·
阅读全文
摘要:参考'LogisticRegression in MLLib' (http://www.cnblogs.com/luweiseu/p/7809521.html) 通过pySpark MLlib训练logistic模型,再利用Matplotlib作图画出分类边界。 最终结果:
阅读全文
摘要:SVD分解: A=UΣVT,变换:ˆA=A⋅V=UΣ 分解时先计算ATA=UΣ2UT,再进行SVD分解 SVD分解: 调用Breeze的SVD库,得到U,Σ Explained Variance Ratio exp
阅读全文
摘要:Voting classifier 多种分类器分别训练,然后分别对输入(新数据)预测/分类,各个分类器的结果视为投票,投出最终结果: 训练: 投票: 为什么三个臭皮匠顶一个诸葛亮。通过大数定律直观地解释: 一个硬币P(H)=0.51。大数定律保证抛硬币很多次之后,平均得到的正面频数接近$0.51 \
阅读全文
摘要:例子 iris数据训练Logistic模型。特征petal width和petal height,分类目标有三类。 训练结果 模型将特征空间划分结果(画图代码参见 http://www.cnblogs.com/luweiseu/p/7826679.html): ML LogisticRegress算
阅读全文
摘要:"GeneralizedLinearAlgorithm" SparkMllib涉及到的算法 Classification Linear Support Vector Machines (SVMs) Logistic regression Regression Linear least squares
阅读全文
摘要:决策树类模型 ml中的classification和regression主要基于以下几类: classification:决策树及其相关的集成算法,Logistics回归,多层感知模型; regression:决策树及其相关集成算法,线性回归。 主要的模型有两类:线性模型GLM和决策树: 其
阅读全文
摘要:并行FP Growth算法思路 上图的单线程形成的FP Tree。 分布式算法事实上是对FP Tree进行分割,分而治之 首先,假设我们只关心...|c这个conditional transaction,那么可以把每个transaction中的...|c保留,并发送到一个计算节点中,必然能在该计算节
阅读全文
摘要:算法跟传统的kmeans的区别主要在于:kmeans||的k个中心的不是随机初始化的。而是选择了k个彼此“足够”分离的中心。 This is a variant of k means++ that tries to find dissimilar cluster centers by startin
阅读全文
摘要:ref: https://jaceklaskowski.gitbooks.io/spark structured streaming/ StruncturedStream的statefule实现基于StateStore,能够记忆历史的结果,从而形成unbounded流式计算。其内部实际上是将历史的统
阅读全文
摘要:❤Limitations of DStream API Batch Time Constraint application级别的设置。 不支持EventTime event time 比process time更重要 Weak support for Dataset/Dataframe No cus
阅读全文
摘要:netcat (windows) nc L p 9999 Result: 窗口移动5秒,窗口宽度10秒。 聚合维度: window, {world} http://asyncified.io/2017/07/30/exploring stateful streaming with spark str
阅读全文
摘要:引言 本文基于Spark (1.5.0) ml库提供的pipeline完整地实践一次文本分类。pipeline将串联单词分割(tokenize)、单词频数统计(TF),特征向量计算(TF IDF),朴素贝叶斯(Naive Bayes)模型训练等。 本文将基于 "“20 NewsGroups”" 数据
阅读全文
摘要:In this article, we discuss the necessity of segregate data model for read and write and use event sourcing for capture detailed data changing. These
阅读全文
摘要:在一些特定场景,例如streamingRDD需要和历史数据进行join从而获得一些profile信息,此时形成较小的新数据RDD和很大的历史RDD的join。 Spark中直接join实际上效率不高: RDD没有索引,join操作实际上是相互join的RDD进行hash然后shuffle到一起; 实
阅读全文