吴恩达机器学习
一、线性回归
基本的概念:训练集(积累知识)、学习策略(预测函数)、代价函数(均方差,logist loss)(评估)、优化,训练最优的模型参数
欠你和和过拟合:
正则化:惩罚参数,变相减少特征
二、逻辑回归
批量梯度下降:求一次参数,遍历所有的样本
随机梯度下降:每一个样本,求一次参数
多分类:one VS all:构建Theta矩阵,大小 :(类别数,theta),预测,根据每一输入向量,属于某个类别的概率最大,sigmod计算概率
三、神经网络
多层的线性回归,是一个多个逻辑回归问题
1、不需要扩大输入特征,解决非线性分类问题,非线性是变量x含有次幂
2、多层的隐含层,也就意味着特征的扩展,每一层,都是模型参数的一次优化
四、SVM
代价函数:逻辑回归的代价函数拉直,当y = 1 ,希望theta*x >>1 ,才能使代价函数最小,当y=0 希望theta*x << -1 ,才能使代价函数最小
最大距间隔
核函数:将原来的特征向量转化为,样本点和标记点的相似度,作为特征,高斯函数,线性函数;
模型重要参数:C 、 deta
C 和lamda是相反的作用,高方差,增大C
五、K-means聚类
初始化:循环100次,随机初始化初始簇的中心值,选择失真函数最小的一组初始化值
K值的选取:肘部原则,更多的是根据后续具体的问题的目的,
优化:失真函数
二分K-means:进行多次2-means聚类,根据每一次的失真函数的值的大小,选择小的一边,继续分割,
六、特征降维
七、异常检测
找到一个概率模型,
高斯概率模型,样本集,最大似然估计,得到均值和方差,
新的样本的高斯概率如果小于theta,很小的值,则异常
八、推荐系统
基于内容的推荐,商品的内容,就是特征变量 x
协同过滤:用户的特征 theta,商品的特征x, y是用户对商品的打分,成本函数是均方差,入nn一样,theta、x初始化,后迭代训练
低质矩阵分解:把打分矩阵,分解为两个矩阵的乘