摘要:
推荐系统测评 实验方法 离线实验:准备训练数据测试数据并评估; 用户调查:问卷方式、和用户满意度调查 在线实验:AB测试:AB测试是一种很常用的在线评测算法的实验方法。它通过一定的规则将用户随机分成几组, 并对不同组的用户采用不同的算法,然后通过统计不同组用户的各种不同的评测指标比较不同算 法,比如 阅读全文
摘要:
上一讲中主要描述了机器学习特征工程的基本流程,其内容在这里:机器学习(一)特征工程的基本流程 本次主要说明如下: 1)数据处理:此部分已经在上一节中详细讨论 2)特征工程:此部分已经在上一节中详细讨论 3)模型选择 4)交叉验证 5)寻找最佳超参数 首先看下总图: (一)模型选择: 1)交叉验证 交 阅读全文
摘要:
1.要求 本次项目提供一系列的英文句子对,每个句子对的两个句子,在语义上具有一定的相似性;每个句子对,获得一个在0-5之间的分值来衡量两个句子的语义相似性,打分越高说明两者的语义越相近。 如: 2.基本实现过程 2.1 数据处理: (1) 分词: (2)去停用词:停用词是一些完全没有用或者没有意义的 阅读全文
摘要:
前言 特征是数据中抽取出来的对结果预测有用的信息,可以是文本或者数据。特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。过程包含了特征提取、特征构建、特征选择等模块。 特征工程的目的是筛选出更好的特征,获取更好的训练数据。因为好的特征具有更强的灵活性,可以用简 阅读全文
摘要:
卷积神经网络(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。 其中 文章 详解卷积神经网络(CNN)已经对卷积神经网络进行了详细的描述,这里为了学习MXNet的库,所以对经典的神经 阅读全文
摘要:
今天突然看到一篇推文,里面讲解了如何薅资本主义羊毛,即如何免费使用Google免费提供的GPU使用权。 可以免费使用的方式就是通过Google Colab,全名Colaboratory。我们可以用它来提高Python技能,也可以用Keras、TensorFlow、PyTorch、OpenCV等等流行 阅读全文
摘要:
sklearn集成方法 集成方法的目的是结合一些基于某些算法训练得到的基学习器来改进其泛化能力和鲁棒性(相对单个的基学习器而言)主流的两种做法分别是: bagging 基本思想 独立的训练一些基学习器(一般倾向于强大而复杂的模型比如完全生长的决策树),然后综合他们的预测结果,通常集成模型的效果会优于 阅读全文
摘要:
前言: 最近发现了一篇很有意思的论文,有关集成学习中的可持续性的研究,这里翻译了一下,供了解和学习使用 刘兵:美国芝加哥大学的计算机科学教授。他的研究包括情绪分析和意见挖掘、终身机器学习、数据挖掘、机器学习和自然语言处理。他目前担任ACM SIGKDD的主席,ACM Fellow, AAAI Fel 阅读全文
摘要:
近几年,机器学习异常火爆,可以用来解决各种各样的问题,但却很少有人意识到机器学习本身也容易受到攻击,终于Ian Goodfellow和Papernot首次将机器学习的攻击提出,并且做了很多非常重要的研究,这里给出这二位大牛的博客的翻译,有兴趣的朋友可以关注一下,觉得还是很有意思的研究。本文也是安全方 阅读全文
摘要:
最近上数据挖掘的课程,其中学习到了频繁模式挖掘这一章,这章介绍了三种算法,Apriori、FP-Growth和Eclat算法;由于对于不同的数据来说,这三种算法的表现不同,所以我们本次就对这三种算法在不同情况下的效率进行对比。从而得出适合相应算法的情况。 GitHub:https://github. 阅读全文