博客:https://www.cnblogs.com/enhaofrank/,公众号:生信AI区块链科技前沿,github:https://github.com/enhaofrank

功不唐捐 玉汝于成

2022年3月11日

推荐系统学习

摘要: 基于内容的推荐:通过分析内容数据,推荐与用户的浏览历史相似的内容。 基于协同过滤的推荐:item-based、user-based。 item-based:计算物品和物品被同一用户评分的相似度,将相似度最高的几个物品推荐给用户。算法假设一个人会喜欢和他之前喜欢的物品相似的物品。 user-based 阅读全文

posted @ 2022-03-11 14:39 enhaofrank 阅读(746) 评论(0) 推荐(0) 编辑

2022年2月14日

bert、ernie、ernie-tiny、roberta的区别

摘要: BERT、RoBerta、ERNIE模型对比和改进点总结 1、BERT总结 首先BERT是transformers的encoder部分,BERT有两大训练任务分别是: mask lm:给定一句话,随机抹去这句话中的一个或几个词,要求根据剩余词汇预测被抹去的几个词分别是什么。 next sentenc 阅读全文

posted @ 2022-02-14 12:32 enhaofrank 阅读(1526) 评论(0) 推荐(0) 编辑

数据增强技术

摘要: 数据增强技术已经是图像领域的标配,通过对图像的翻转、旋转、镜像、高斯白噪声等技巧实现数据增强。 一个是加噪,另一个是回译,均为有监督方法。加噪即为在原数据的基础上通过替换词、删除词等方式创造和原数据相类似的新数据。回译则是将原有数据翻译为其他语言再翻译回原语言,由于语言逻辑顺序等的不同,回译的方法也 阅读全文

posted @ 2022-02-14 10:59 enhaofrank 阅读(743) 评论(0) 推荐(0) 编辑

2022年1月23日

推荐系统

摘要: 最近在学习推荐系统的相关内容,所以在这里做一些笔记。 推荐系统算法的概述 1、协同过滤 基于用户和基于物品的协同过滤算法的区别在于:基于用户的协同过滤回答的是“将物品A推荐给哪个用户?”(假设答案是用户B),基于物品的协同过滤回答的是“将哪个物品推荐给用户B?”(在之前的假设中,答案是用户B)。也就 阅读全文

posted @ 2022-01-23 15:21 enhaofrank 阅读(256) 评论(0) 推荐(0) 编辑

2021年12月28日

小样本学习

摘要: 小样本学习(FSL)的定义:机器学习的一种,它学习用到的经验中只有少量样本有关于任务的监督信号。 为什么要进行小样本学习:由于高质量的标注数据其实在现实工作中还是比较少的,所以利用小样本就能做好深度学习任务对于样本不够的任务是非常重要的,它可以降低数据的收集以及标注,可以让人工智能更像人类,能够举一 阅读全文

posted @ 2021-12-28 09:08 enhaofrank 阅读(762) 评论(0) 推荐(0) 编辑

2021年12月26日

机器学习之分类模型

摘要: 这次博客准备写一系列有关机器学习的分类模型,大家都知道分类模型有很多,有KNN,SVM,逻辑回归,决策树,随机森林,朴素贝叶斯等。 下面一一介绍这些算法的思想以及优缺点: KNN(K近邻法) K-近邻是一种分类算法,其思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数 阅读全文

posted @ 2021-12-26 19:43 enhaofrank 阅读(3721) 评论(0) 推荐(0) 编辑

分类模型之K-近邻算法

摘要: 首先,K-近邻算法(KNN)主要用于分类问题,是采用测量不同特征值之间的距离方法进行分类。 原理:存在一个样本数据集合,也称为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算 阅读全文

posted @ 2021-12-26 16:13 enhaofrank 阅读(197) 评论(0) 推荐(0) 编辑

2021年12月25日

SQL学习

摘要: hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本 阅读全文

posted @ 2021-12-25 15:31 enhaofrank 阅读(123) 评论(0) 推荐(0) 编辑

大数据与MapReduce

摘要: 实际生活中的数据量是非常庞大的,采用单机运行的方式可能需要若干天才能出结果,这显然不符合我们的预期,为了尽快的获得结果,我们将采用分布式的方式,将计算分布到不同的机器上。Mapreduce就是一个典型的分布式框架,Hadoop则是用java编写的一个Mapreduce实现。 分布式和并行的区别在于分 阅读全文

posted @ 2021-12-25 08:56 enhaofrank 阅读(145) 评论(0) 推荐(0) 编辑

2021年12月24日

交叉验证

摘要: from sklearn.model_selection import cross_val_score clf = svm.SVC(kernel='linear',C=1) scores = cross_val_score(clf,X,y,cv=5) #confusion matrix from s 阅读全文

posted @ 2021-12-24 17:33 enhaofrank 阅读(42) 评论(0) 推荐(0) 编辑

导航