片刻 - 博客园

2017年10月17日

摘要：第5章 Logistic回归 Logistic 回归概述 Logistic 回归虽然名字叫回归，但是它是用来做分类的。其主要思想是: 根据现有数据对分类边界线建立回归公式，以此进行分类。须知概念 Sigmoid 函数回归概念假设现在有一些数据点，我们用一条直线对这些点进行拟合（这条直线称为阅读全文

posted @ 2017-10-17 11:15 片刻阅读(1704) 评论(1) 推荐(1) 编辑

2017年10月13日

【机器学习实战】第4章基于概率论的分类方法：朴素贝叶斯

摘要：第4章基于概率论的分类方法：朴素贝叶斯朴素贝叶斯概述贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。本章首先介绍贝叶斯分类算法的基础——贝叶斯定理。最后，我们通过实例来讨论贝叶斯分类的中最简单的一种: 朴素贝叶斯分类。贝叶斯理论 & 条件概率贝叶斯理论阅读全文

posted @ 2017-10-13 13:37 片刻阅读(818) 评论(3) 推荐(1) 编辑

2017年10月9日

【机器学习实战】第3章决策树

摘要：第3章决策树决策树概述决策树（Decision Tree）算法主要用来处理分类问题，是最经常使用的数据挖掘算法之一。决策树场景一个叫做 "二十个问题" 的游戏，游戏的规则很简单：参与游戏的一方在脑海中想某个事物，其他参与者向他提问，只允许提 20 个问题，问题的答案也只能用对或错回答。阅读全文

posted @ 2017-10-09 11:23 片刻阅读(732) 评论(1) 推荐(1) 编辑

2017年9月27日

Apache Spark 2.2.0 中文文档 - Submitting Applications | ApacheCN

摘要：在 script in Spark的 bin 目录中的spark-submit 脚本用与在集群上启动应用程序。它可以通过一个统一的接口使用所有 Spark 支持的 cluster managers，所以您不需要专门的为每个cluster managers配置您的应用程序。阅读全文

posted @ 2017-09-27 17:37 片刻阅读(623) 评论(0) 推荐(0) 编辑

Apache Spark 2.2.0 中文文档 - 集群模式概述 | ApacheCN

摘要：集群模式概述该文档给出了 Spark 如何在集群上运行、使之更容易来理解所涉及到的组件的简短概述。通过阅读应用提交指南来学习关于在集群上启动应用。组件 Spark 应用在集群上作为独立的进程组来运行，在您的 main 程序中通过 SparkContext 来协调（称之为 driver 程序）阅读全文

posted @ 2017-09-27 17:35 片刻阅读(189) 评论(0) 推荐(0) 编辑

2017年9月26日

Apache Spark 2.2.0 中文文档 - SparkR (R on Spark) | ApacheCN

摘要： SparkR 是一个 R package, 它提供了一个轻量级的前端以从 R 中使用 Apache Spark. 在 Spark 2.2.0 中, SparkR 提供了一个分布式的 data frame, 它实现了像 selection, filtering, aggregation etc 一系列所支持的操作.（dplyr 与 R data frames 相似) ）, 除了可用于海量数据上之外. SparkR 还支持使用 MLlib 来进行分布式的 machine learning（机器学习）. 阅读全文

posted @ 2017-09-26 12:43 片刻阅读(394) 评论(0) 推荐(0) 编辑

Apache Spark 2.2.0 中文文档 - GraphX Programming Guide | ApacheCN

摘要： GraphX 是 Spark 中用于图形和图形并行计算的新组件。在高层次上， GraphX 通过引入一个新的图形抽象来扩展 Spark RDD ：一种具有附加到每个顶点和边缘的属性的定向多重图形。为了支持图形计算，GraphX 公开了一组基本运算符（例如： subgraph ，joinVertices 和 aggregateMessages）以及 Pregel API 的优化变体。此外，GraphX 还包括越来越多的图形算法和构建器，以简化图形分析任务。阅读全文

posted @ 2017-09-26 12:38 片刻阅读(553) 评论(0) 推荐(0) 编辑

Git 团队常用命令操作指南

摘要：命令如下：git clone -b [remote repository address]主要就是在clone的时候，后面添加branch的信息。报错：> git clone -b jiangzhonglian https://github.com/p1cn/putong-recommendation-offline.gitInitialized empty Git repository in ... 阅读全文

posted @ 2017-09-26 10:34 片刻阅读(276) 评论(0) 推荐(0) 编辑

2017年9月25日

Apache Spark 2.2.0 中文文档 - Structured Streaming 编程指南 | ApacheCN

摘要： Structured Streaming （结构化流）是一种基于 Spark SQL 引擎构建的可扩展且容错的 stream processing engine （流处理引擎）。您可以以静态数据表示批量计算的方式来表达 streaming computation （流式计算）。 Spark SQL 引擎将随着 streaming data 持续到达而增量地持续地运行，并更新最终结果。您可以使用 Scala ， Java ， Python 或 R 中的 Dataset/DataFrame API 来表示 streaming aggregations （流聚合）， event-time windows （事件时间窗口）， stream-to-batch joins （流到批处理连接）等。在同一个 optimized Spark SQL engine （优化的 Spark SQL 引擎）上执行计算。最后，系统通过 checkpointing （检查点）和 Write Ahead Logs （预写日志）来确保 end-to-end exactly-once （端到端的完全一次性）容错保证阅读全文

posted @ 2017-09-25 11:11 片刻阅读(328) 评论(0) 推荐(0) 编辑

Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames and Datasets Guide | ApacheCN

摘要： Spark SQL 是 Spark 处理结构化数据的一个模块.与基础的 Spark RDD API 不同, Spark SQL 提供了查询结构化数据及计算结果等信息的接口.在内部, Spark SQL 使用这个额外的信息去执行额外的优化.有几种方式可以跟 Spark SQL 进行交互, 包括 SQL 和 Dataset API.当使用相同执行引擎进行计算时, 无论使用哪种 API / 语言都可以快速的计算.这种统一意味着开发人员能够在基于提供最自然的方式来表达一个给定的 transformation API 之间实现轻松的来回切换不同的 . 该页面所有例子使用的示例数据都包含在 Spark 的发布中, 并且可以使用 spark-shell, pyspark shell, 或者 sparkR shell来运行. 阅读全文

posted @ 2017-09-25 11:08 片刻阅读(637) 评论(0) 推荐(0) 编辑

片刻 - ApacheCN

公告