Fork me on GitHub

随笔分类 -  自然语言处理

摘要:前面已经讲过: 怎么让英文大语言模型支持中文?(一)构建中文tokenization 怎么让英文大语言模型支持中文?(二)继续预训练 这里是最后一部分了:怎么让英文大语言模型支持中文?(三)对预训练模型进行指令微调。 代码已上传到github: chinese_llm_sft Part1前言 在之前 阅读全文
posted @ 2023-06-28 10:58 西西嘛呦 阅读(1774) 评论(0) 推荐(1)
摘要:代码已上传到github: https://github.com/taishan1994/chinese_llm_pretrained Part1前言 前面我们已经讲过怎么构建中文领域的tokenization: https://zhuanlan.zhihu.com/p/639144223 接下来我 阅读全文
posted @ 2023-06-25 16:16 西西嘛呦 阅读(745) 评论(4) 推荐(0)
摘要:代码地址:https://github.com/taishan1994/sentencepiece_chinese_bpe Part1前言 目前,大语言模型呈爆发式的增长,其中,基于llama家族的模型占据了半壁江山。而原始的llama模型对中文的支持不太友好,接下来本文将讲解如何去扩充vocab里 阅读全文
posted @ 2023-06-24 10:44 西西嘛呦 阅读(2404) 评论(0) 推荐(0)
摘要:Part1基本介绍 大语言模型目前一发不可收拾,在使用的时候经常会看到transformers库的踪影,其中xxxCausalLM和xxxForConditionalGeneration会经常出现在我们的视野中,接下来我们就来聊聊transformers库中的一些基本任务。 这里以三类模型为例:be 阅读全文
posted @ 2023-04-26 16:36 西西嘛呦 阅读(894) 评论(0) 推荐(0)
摘要:Part1配置及参数 transformers==4.28.1 源码地址:transformers/configuration_utils.py at v4.28.1 · huggingface/transformers (github.com) 文档地址:Generation (huggingfa 阅读全文
posted @ 2023-04-25 17:34 西西嘛呦 阅读(5772) 评论(0) 推荐(1)
摘要:pytorch在有限的资源下部署大语言模型(以ChatGLM-6B为例) Part1知识准备 在PyTorch中加载预训练的模型时,通常的工作流程是这样的: my_model = ModelClass(...)state_dict =torch.load(checkpoint_file) 用简单的话 阅读全文
posted @ 2023-04-23 09:38 西西嘛呦 阅读(4646) 评论(0) 推荐(2)
摘要:怎么裁剪LLM(大语言模型)的vocab(词表)? Part1前言 对于一些多语言的大语言模型而言,它的词表往往很大。在下游使用这些模型的时候,可能我们不需要其它的一些语言,例如只需要中文和英文,此时,我们可以对其vocab进行裁剪,既可以大大减少参数量,也能够保留模型的性能,接下来以Bloom模型 阅读全文
posted @ 2023-04-21 14:02 西西嘛呦 阅读(1388) 评论(0) 推荐(0)
摘要:Part1前言 随着大语言模型的流行,如何让大模型在消费级GPU上进行微调训练成为了热点。掌握参数有效微调成为每个自然语言处理工程师必不可少的技能,正好hugging face开源了一个PEFT库,让我们也能够自己动手去了解参数有效微调。接下来以中文情感分析(二分类)去了解下参数有效微调。 使用的方 阅读全文
posted @ 2023-04-20 19:10 西西嘛呦 阅读(1145) 评论(0) 推荐(0)
摘要:ChatSA 代码地址:https://github.com/taishan1994/ChatSA 基于ChatGPT的情感分析, 简单的情感分析:给定一个句子,判断该句子所属的情感。 复杂点的情感分析,总共有7个子任务。 如何使用 1、首先你得有一个openai的账号,并且在Account API 阅读全文
posted @ 2023-03-28 14:15 西西嘛呦 阅读(1295) 评论(0) 推荐(0)
摘要:利用指针网络进行信息抽取,包含命名实体识别、关系抽取、事件抽取。 阅读全文
posted @ 2022-12-06 16:03 西西嘛呦 阅读(1142) 评论(0) 推荐(2)
摘要:前言 本文将介绍基于pytorch的bert_bilstm_crf进行命名实体识别,涵盖多个数据集。命名实体识别指的是从文本中提取出想要的实体,本文使用的标注方式是BIOES,例如,对于文本虞兔良先生:1963年12月出生,汉族,中国国籍,无境外永久居留权,浙江绍兴人,中共党员,MBA,经济师。,我 阅读全文
posted @ 2022-08-18 15:56 西西嘛呦 阅读(2462) 评论(3) 推荐(1)
摘要:前言 在中文分词领域,已经有着很多优秀的工具,例如: jieba分词 SnowNLP 北京大学PKUse 清华大学THULAC HanLP FoolNLTK 哈工大LTP 斯坦福分词器CoreNLP BaiduLac 这里,我们不使用上述的工具,而是利用bert训练一个自己的分词器。 数据预处理 首 阅读全文
posted @ 2022-08-17 10:13 西西嘛呦 阅读(858) 评论(0) 推荐(0)
摘要:对于一个特定的领域而言,我们可能需要其相关的一些词语,这些词语可以用来进行分词、关键词提取、主题分析等。那么,如何去获得这些词语呢?本文接下来将通过斗破苍穹小说来介绍新词发现。 阅读全文
posted @ 2022-08-10 11:02 西西嘛呦 阅读(1344) 评论(8) 推荐(4)
摘要:介绍 代码地址:https://github.com/taishan1994/chinese_chengyujielong 读完该文,你可以收获: python爬虫的简单使用。 构建前缀树以进行搜索提示。 构建一个简单的成语接龙小程序。 爬虫模块 首先展示下我们最终获得的成语的数据: ,成语,拼音, 阅读全文
posted @ 2022-08-04 16:47 西西嘛呦 阅读(863) 评论(0) 推荐(1)
摘要:代码地址:https://github.com/davidfan1224/CAIL2021_Multi-span_MRC 解读: # /* # * @Author: Yue.Fan # * @Date: 2022-03-23 11:35:37 # * @Last Modified by: Yue.F 阅读全文
posted @ 2022-06-09 17:56 西西嘛呦 阅读(166) 评论(1) 推荐(0)
摘要:代码地址:https://github.com/davidfan1224/CAIL2021_Multi-span_MRC class SquadExample(object): """ A single training/test example for the Squad dataset. For 阅读全文
posted @ 2022-06-09 15:39 西西嘛呦 阅读(309) 评论(0) 推荐(0)
摘要:代码地址:https://github.com/china-ai-law-challenge/CAIL2021/blob/main/ydlj/baseline/model.py import torch from torch.nn import CrossEntropyLoss, BCELoss f 阅读全文
posted @ 2022-06-09 14:30 西西嘛呦 阅读(119) 评论(0) 推荐(0)
摘要:代码地址:https://github.com/china-ai-law-challenge/CAIL2021/ # /* # * @Author: Yue.Fan # * @Date: 2022-03-23 11:35:28 # * @Last Modified by: Yue.Fan # * @ 阅读全文
posted @ 2022-06-09 14:10 西西嘛呦 阅读(126) 评论(0) 推荐(0)
摘要:1、任务介绍 该赛道由科大讯飞研究院与哈尔滨工业大学社会计算与信息检索研究中心承办。在法律问答任务中,很多问题需要通过文章中多个片段组合出最终的答案。因此,本次中文法律阅读理解比赛引入多片段回答的问题类型,即部分问题需要抽取文章中的多个片段组合成最终答案。希望多片段问题类型的引入,能够扩大中文机器阅 阅读全文
posted @ 2022-06-09 09:19 西西嘛呦 阅读(318) 评论(0) 推荐(0)
摘要:transformers目前已被广泛地应用到各个领域中,hugging face的transformers是一个非常常用的包,在使用预训练的模型时背后是怎么运行的,我们意义来看。 以transformers=4.5.0为例 基本使用: from transformers import BertMod 阅读全文
posted @ 2022-05-31 14:18 西西嘛呦 阅读(10904) 评论(0) 推荐(0)