会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
teanon
博客园
首页
新随笔
联系
订阅
管理
2022年10月20日
Transformers Pipelines
摘要: pipelines 是使用模型进行推理的一种很好且简单的方法。这些pipelines 是从库中抽象出大部分复杂代码的对象,提供了一个简单的API,专门用于多个任务,包括命名实体识别、屏蔽语言建模、情感分析、特征提取和问答等。 参数说明 初始化pipeline时可能的参数: task (str) —
阅读全文
posted @ 2022-10-20 14:33 teanon
阅读(2042)
评论(0)
推荐(0)
2022年10月18日
多标签文本分类
摘要: 多标签文本分类是指一个输入文本样本对应有多种标签。本文是一个训练多标签文本分类任务的实例: 训练过程 main.py 导入相关的库: # coding=utf-8 import os # os.environ["CUDA_VISIBLE_DEVICES"] = "2" os.environ["WAN
阅读全文
posted @ 2022-10-18 17:23 teanon
阅读(1491)
评论(1)
推荐(0)
2022年9月23日
KMP 算法实现
摘要: # coding=utf-8 def get_next_list(findding_str): # O(m) # 求一个字符串序列每个位置的最长相等前、后缀 j = 0 # 最长相等前缀的末位 next = [0] # next 数组用于保存字符串每个位置的最长相等前、后缀的长度值 # i 是最长相
阅读全文
posted @ 2022-09-23 16:30 teanon
阅读(102)
评论(0)
推荐(0)
2022年8月19日
Loading Methods
摘要: Datasets datasets.list_datasets **return:**List all the datasets scripts available on the Hugging Face Hub. from datasets import list_datasets # 展示HFh
阅读全文
posted @ 2022-08-19 15:52 teanon
阅读(2025)
评论(0)
推荐(0)
2022年8月13日
transformers 之Trainer对应的数据加载
摘要: 基础信息说明 本文以Seq2SeqTrainer作为实例,来讨论其模型训练时的数据加载方式 预训练模型:opus-mt-en-zh 数据集:本地数据集 任务:en-zh 机器翻译 数据加载 Trainer的数据加载方式主要分为两种:基于torch.utils.data.Dataset的方式加载 和
阅读全文
posted @ 2022-08-13 15:12 teanon
阅读(6494)
评论(0)
推荐(0)
2022年7月8日
GBDT初识
摘要: GBDT的决策树: 无论是处理回归任务还是二分类以及多分类任务,GBDT使用的决策树是CART回归树。因为GBDT每次迭代要拟合的是梯度值,是连续值所以要用回归树。 对于回归树算法来说最重要的是寻找最佳的划分点,那么回归树中的可划分点包含了所有特征的所有可取的值。在分类树中最佳划分点的判别标
阅读全文
posted @ 2022-07-08 17:43 teanon
阅读(119)
评论(0)
推荐(0)
2022年6月22日
docker容器SSH服务自启动
摘要: 使用ubuntu容器,会在容器内安装ssh服务,但是会发现当容器重启后,如何实现ssh服务自动重启呢?可以使用Dockerfile参看此处 ,本文介绍一种在docker容器中进行配置的方法 安装ssh服务 检查容器中是否有ssh服务 $ /etc/init.d/ssh status 若没有相关ssh
阅读全文
posted @ 2022-06-22 16:13 teanon
阅读(9164)
评论(0)
推荐(2)
2022年2月26日
ALBERT论文简读
摘要: 问题描述 预训练自然语言表征时,增加模型的参数量通常可以是模型在下有任务中性能提升。但是这种做法对硬件设备的要求较高(当下的各种SOTA模型动辄数亿甚至数十亿个参数,倘若要扩大模型规模,这个内存问题是无法回避的),也会显著地降低训练效率(由于通信开销与模型中参数的数量成正比,在分布式训练中训练速度将
阅读全文
posted @ 2022-02-26 18:01 teanon
阅读(180)
评论(0)
推荐(0)
2022年2月25日
ERNIE1-2
摘要: ERNIE1.0 ERNIE: Enhanced Representation through Knowledge Integration提出了三种级别的masking:(1)word piece级别的mask,与bert相同;(2)phrase level masking ,对句子中的短语进行ma
阅读全文
posted @ 2022-02-25 18:08 teanon
阅读(61)
评论(0)
推荐(0)
公告