摘要:
在上一篇博客中,我们总结了集成学习的原理,并展开介绍了集成学习中Bagging和随机森林这一分枝算法,在本篇博客中,我们继续介绍另一个分枝——Boosting,并对Boosting系列中的经典算法Adaboost展开分析。 阅读全文
摘要:
集成学习算法是当下炙手可热的一类算法,在诸多机器学习大赛中都频繁出现它的身影。准确来说,集成学习算法并不是一个单独的机器学习算法,而是通过构建多个学习器,博采众家之长,共同求解问题的一种思想。 阅读全文
摘要:
模型训练好之后,我们就要想办法将其持久化保存下来,不然关机或者程序退出后模型就不复存在了。本文介绍两种持久化保存模型的方法。 阅读全文
摘要:
预处理操作是机器学习整个周期中必不可少的一个过程,也是最能快速改善模型性能的一个过程,往往稍微转换一下特征属性的形态,就能得到性能的极大提升。当然,数据预处理绝对也是耗时最长的一个过程,这一过程不仅要求洞悉整个数据集结构分布,还要探查每一个特征属性细节情况,并作出应对处理,使数据以最适合的状态传输给模型。
针对预处理操作,sklearn中提供了许多模块工具,灵活使用工具可以让数据预处理轻松很多。
本文简要介绍数据预处理中的一些主要方法,并结合sklearn中提供的模块进行实践。 阅读全文
摘要:
Keras是一个基于Python编写的高层神经网络API,凭借用户友好性、模块化以及易扩展等有点大受好评,考虑到Keras的优良特性以及它的受欢迎程度,TensorFlow2.0中将Keras的代码吸收了进来,化身为tf.keras模块供用户使用。使用tf.keras提供的高层API,可以轻松得完成建模三部曲——模型构建、训练、评估等工作。下面我们分别来说说如何使用tf.keras完成这三部曲。 阅读全文
摘要:
SVM,Support Vector Machine,也就是我们中文名的支持向量机,我相信,只要是与机器学习有过照面的童鞋或多或少都听说过这个名字。作为机器学习家族中的老牌成员,其经典自不必说。从原理和特性上讲,SVM属于有监督学习中线性二分类中的一员,基本思想就是采用最大化间隔策略寻找一个最优决策超平面将所有样本点划分到平面两侧,实现对数据的分类。 阅读全文
摘要:
感知机是一种简单且易于实现的二分类判别模型,主要思想是通过误分类驱动的损失函数结合梯度下降发求解一个超平面将线性可分的数据集划分为两个不同的类别(+1类和-1类)。
在神经网络、支持向量机等算法盛行的当下,感知机模型应用得并不多,但必须承认,感知机却是神经网络和支持向量机的基础,所以还是很有必要学习一下的,本文接下来的内容将从感知机数学描述、损失函数、两种不同学习形式等方面详细介绍感知机,最后使用Python实现感知机两种学习形式。 阅读全文
摘要:
前面的博客中我们说过,在加载数据和预处理数据时使用tf.data.Dataset对象将极大将我们从建模前的数据清理工作中释放出来,那么,怎么将自定义的数据集加载为DataSet对象呢?这对很多新手来说都是一个难题,因为绝大多数案例教学都是以mnist数据集作为例子讲述如何将数据加载到Dataset中,而英文资料对这方面的介绍隐藏得有点深。本文就来捋一捋如何加载自定义的图片数据集实现图片分类,后续将继续介绍如何加载自定义的text、mongodb等数据。 阅读全文
摘要:
K-means算法是一种基于距离的聚类算法,这类聚类算法以距离来度量对象间的相似性,两样本对象间距离越大,相似性越小。 阅读全文
摘要:
现如今的互联网世界里,代理服务已经十分常见,它通常作为一个第三方或者说中转站角色替代用户取得信息或者服务。
根据代理对象的不同,代理服务可以分为正向代理和反向代理。 阅读全文