摘要:
复习与优化,测试集群性能,调整 Spark 配置参数(executorMemory, parallelism) 写了大作业信息化领域热词分类分析及解释 阅读全文
摘要:
整合 Spark SQL + Spark Streaming + MLlib 进行简单的实时数据处理 阅读全文
摘要:
使用 MLPipeline 进行数据处理和模型训练,测试 RandomForestClassifier 阅读全文
摘要:
了解 MLlib,学习基本的 LabeledPoint,测试 LogisticRegression 阅读全文
摘要:
练习窗口操作 (window, reduceByWindow),Kafka 集成初步测试 阅读全文
摘要:
了解 Spark Streaming 架构,创建 StreamingContext,测试 socketTextStream 阅读全文
摘要:
学习 SQL 风格查询 (select, groupBy, join),练习 JSON/CSV 解析 阅读全文
摘要:
安装 Hive,配置 Spark SQL 访问 Hive 表,学习 DataFrame 的基本操作 阅读全文
摘要:
练习 WordCount 任务,理解 groupByKey 和 reduceByKey 的区别 阅读全文
摘要:
学习 RDD 行动操作(collect, reduce, count, take) 阅读全文