jasonzhangxianrong

2021年8月5日

摘要： https://github.com/ymcui/Chinese-BERT-wwm 在自然语言处理领域中，预训练语言模型（Pre-trained Language Models）已成为非常重要的基础技术。为了进一步促进中文信息处理的研究发展，我们发布了基于全词遮罩（Whole Word Maskin 阅读全文

posted @ 2021-08-05 10:48 jasonzhangxianrong 阅读(1215) 评论(0) 推荐(0) 编辑

NLP（三十四）：huggingface transformers预训练模型如何下载至本地，并使用？

摘要： huggingface的transformers框架，囊括了BERT、GPT、GPT2、ToBERTa、T5等众多模型，同时支持pytorch和tensorflow 2，代码非常规范，使用也非常简单，但是模型使用的时候，要从他们的服务器上去下载模型，那么有没有办法，把这些预训练模型下载好，在使用时指阅读全文

posted @ 2021-08-05 10:39 jasonzhangxianrong 阅读(6780) 评论(0) 推荐(2) 编辑

NLP（三十三）：sentence-transformers句子相似度官方示例

摘要：一、出处 https://www.sbert.net/examples/training/sts/README.html https://github.com/UKPLab/sentence-transformers/blob/master/examples/training/sts/trainin 阅读全文

posted @ 2021-08-05 09:05 jasonzhangxianrong 阅读(4103) 评论(0) 推荐(1) 编辑

2021年8月4日

2、Sentence-BERT：使用 Siamese BERT-Networks 的句子嵌入

摘要： 1、摘要 BERT (Devlin et al., 2018) and RoBERTa (Liu et al., 2019) has set a new state-of-the-art performance on sentence-pair regression tasks like seman 阅读全文

posted @ 2021-08-04 17:03 jasonzhangxianrong 阅读(1115) 评论(0) 推荐(0) 编辑

NLP（三十二）：大规模向量相似度检索方案

摘要：一、引入 1有很多指标可以用来衡量向量的相似度，比如余弦距离、汉明距离、欧氏距离等。在图像、视频、文本、音频领域，做向量的相似性搜索，有很多应用点，比如：图像识别，语音识别、垃圾邮件过滤。这种基于相似度检索的方案，不同于机器学习模型的方案。比如用有监督学习模型来做人脸识别，模型的可解释性较低，而阅读全文

posted @ 2021-08-04 13:20 jasonzhangxianrong 阅读(1466) 评论(0) 推荐(0) 编辑

2021年8月1日

VIM编辑器设置

摘要： 1 set nocompatible 2 set ic 3 set hlsearch 4 set encoding=utf-8 5 set fileencodings=utf-8,ucs-bom,GB2312,big5 6 set cursorline 7 set autoindent 8 set 阅读全文

posted @ 2021-08-01 17:01 jasonzhangxianrong 阅读(46) 评论(0) 推荐(0) 编辑

(十一)pytorch加速训练的17种方法

摘要：在这篇文章中，我将概述一些在PyTorch中加速深度学习模型训练时改动最小，影响最大的方法。对于每种方法，我会简要总结其思想，并估算预期的加速度，并讨论一些限制。我将着重于传达最重要的部分，并为每个部分给出额外的一些资源。大多数情况下，我会专注于可以直接在PyTorch中进行的更改，而不需要引入额外阅读全文

posted @ 2021-08-01 13:40 jasonzhangxianrong 阅读(2182) 评论(0) 推荐(1) 编辑

2021年7月30日

(十)pytorch多线程训练，DataLoader的num_works参数设置

摘要：一、概述数据集较小时（小于2W）建议num_works不用管默认就行，因为用了反而比没用慢。当数据集较大时建议采用，num_works一般设置为（CPU线程数+-1）为最佳，可以用以下代码找出最佳num_works（注意windows用户如果要使用多核多线程必须把训练放在if __name__ = 阅读全文

posted @ 2021-07-30 13:31 jasonzhangxianrong 阅读(4695) 评论(0) 推荐(0) 编辑

2021年7月28日

NLP（三十一）：用transformers库的BertForSequenceClassification实现文本分类

摘要：一、类别编码必须是0开始 import argparse import torch import tqdm from root_path import root import os import pandas as pd import json from sklearn.model_selectio 阅读全文

posted @ 2021-07-28 13:48 jasonzhangxianrong 阅读(956) 评论(0) 推荐(0) 编辑

2021年7月27日

NLP（三十）：BertForSequenceClassification：Kaggle的bert文本分类，基于transformers的BERT分类

摘要： Bert是非常强化的NLP模型，在文本分类的精度非常高。本文将介绍Bert中文文本分类的基础步骤，文末有代码获取方法。步骤1：读取数据本文选取了头条新闻分类数据集来完成分类任务，此数据集是根据头条新闻的标题来完成分类。 101 京城最值得你来场文化之旅的博物馆_!_保利集团,马未都,中国科学技术阅读全文

posted @ 2021-07-27 17:29 jasonzhangxianrong 阅读(5106) 评论(0) 推荐(0) 编辑

公告