11 2016 档案
摘要:摘要:
1.示例
2.模型主要参数
3.模型主要属性变量
阅读全文
摘要:摘要:
1.pipeline 模式
1.1相关概念
1.2代码示例
2.特征提取,转换以及特征选择
2.1特征提取
2.2特征转换
2.3特征选择
3.模型选择与参数选择
3.1 交叉验证
3.2 训练集-测试集 切分
阅读全文
摘要:传送门:http://www.runoob.com/python/python-object.html
阅读全文
摘要:摘要:
1.外围架构
2.推荐系统架构
阅读全文
摘要:摘要:
1.用户满意度
在线测评方法
2.预测准确率
2.1评分预测
2.2TopN推荐
3.覆盖率(coverage)
4.多样性
5.新颖性
阅读全文
摘要:摘要:
1 shuffle原理
1.1 mapreduce的shuffle原理
1.1.1 map task端操作
1.1.2 reduce task端操作
1.2 spark现在的SortShuffleManager
2 Shuffle操作问题解决
2.1 数据倾斜原理
2.2 数据倾斜问题发现与解决
2.3 数据倾斜解决方案
3 spark RDD中的shuffle算子
3.1 去重
3.2 聚合
3.3 排序
3.4 重分区
4 spark shuffle参数调优
阅读全文
摘要:摘要
一、创建对象
二、查看数据
三、选择和设置
四、缺失值处理
五、相关操作
六、聚合
七、重排(Reshaping)
八、时间序列
九、Categorical类型
十、画图
十一、导入和保存数据
阅读全文
摘要:摘要
1.num-executors
2.executor-memory
3.executor-cores
4.driver-memory
5.spark.default.parallelism
6.spark.storage.memoryFraction
7.spark.shuffle.memoryFraction
8.资源参数参考示例
阅读全文
摘要:摘要:
1.spark 提供的持久化方法
2.Spark的持久化级别
3.如何选择一种最合适的持久化策略
阅读全文

浙公网安备 33010602011771号