摘要:
一、使用命令行登录指定的Linux环境 ssh 终端输入命令:ssh username@hostname enter键,输入密码。 二、在目录下创建文件夹、删除文件夹 rm、mkdir 任务要点:创建文件夹、创建文件、删除文件、删除文件夹 1、linux的目录结构 文件系统的最顶层是由根目录开始的, 阅读全文
摘要:
1、键值对RDD的创建 2、常用的键值对RDD转换操作 3、一个综合实例 1、创建的两种方式 a、从文件加载 b、通过并行集合来创建 2、键值对转换操作 a、reduceByKey b、groupByKey() 3、keys 4、values 5、sortByKey 默认是升序排序,false是降序 阅读全文
摘要:
一、RDD编程相关的就是Spark Core内容,spark的数据抽象就是RDD 二、创建RDD(两种方法) 1、从文件系统中加载数据 SparkContext通过textfile()读取数据生成,数据源可以是本地,hdfs,云端 a、从本地数据集 b、从hdfs生成 2、通过并行集合(数组) 调用 阅读全文
摘要:
一名推荐工程师的“自我修养” 在我刚进入推荐系统这个行业的时候,我心中对这个行业的初步印象是,认为这个行业就是一群搞机器学习的研究者在不断地改进模型、训练模型和提高效果,所以,我卯足了劲要成为那个能提出新的模型架构,让全公司都采用我模型的“年轻人”。 当我工作了三年之后,我终于明白,模型的工作固然重 阅读全文
摘要:
一、sprak简介 Spark最初由美国加州伯克利大学(UCBerkeley)的AMP(Algorithms, Machines and People)实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。Spark作为大数据计算平台的后起之秀,在2 阅读全文
摘要:
哈工大研究生机器学习考试,个人感觉这些东西没什么用。所以最短时间内会做题了就行。。。 目测几套试卷(19,17,16,14,10,08)知识点如下: 一共八道题,第一题必考候选消除算法,有一题出aq,gs,id3中的某一个,一题出神经网络相关(反向传播算法),一题出遗传算法,有一题出强化学习,剩下三 阅读全文
摘要:
网格搜索和随机搜索则对ml模型超参数的优化能取得不错的效果,但是需要大量运行时间去评估搜索空间中并不太可能找到最优点的区域。因此越来越多的的超参数调优过程都是通过自动化的方法完成的,它们旨在使用带有策略的启发式搜索(informed search)在更短的时间内找到最优超参数。 贝叶斯优化是一种基于 阅读全文
摘要:
超参数调优方法:网格搜索,随机搜索,贝叶斯优化等算法。 1、分别对几种调有方法进行了实验,实验初始数据如下: import numpy as np import pandas as pd from lightgbm.sklearn import LGBMRegressor from sklearn. 阅读全文
摘要:
1、GridSearchCV简介 GridSearchCV的名字其实可以拆分为两部分,GridSearch和CV,即网格搜索和交叉验证。网格搜索,搜索的是参数,即在指定的参数范围内,按步长依次调整参数,利用调整的参数训练学习器,从所有的参数中找到在验证集上精度最高的参数,这其实是一个训练和比较的过程 阅读全文