自然语言处理 - 随笔分类 - 西西嘛呦

怎么让英文大语言模型支持中文？（三）进行指令微调

摘要：前面已经讲过：怎么让英文大语言模型支持中文？（一）构建中文tokenization 怎么让英文大语言模型支持中文？（二）继续预训练这里是最后一部分了：怎么让英文大语言模型支持中文？（三）对预训练模型进行指令微调。代码已上传到github： chinese_llm_sft Part1前言在之前阅读全文

posted @ 2023-06-28 10:58 西西嘛呦阅读(1774) 评论(0) 推荐(1)

怎么让英文大预言模型支持中文？（二）继续预训练

摘要：代码已上传到github： https://github.com/taishan1994/chinese_llm_pretrained Part1前言前面我们已经讲过怎么构建中文领域的tokenization： https://zhuanlan.zhihu.com/p/639144223 接下来我阅读全文

posted @ 2023-06-25 16:16 西西嘛呦阅读(745) 评论(4) 推荐(0)

怎么让英文大预言模型支持中文？（一）构建自己的tokenization

摘要：代码地址：https://github.com/taishan1994/sentencepiece_chinese_bpe Part1前言目前，大语言模型呈爆发式的增长，其中，基于llama家族的模型占据了半壁江山。而原始的llama模型对中文的支持不太友好，接下来本文将讲解如何去扩充vocab里阅读全文

posted @ 2023-06-24 10:44 西西嘛呦阅读(2404) 评论(0) 推荐(0)

你还弄不清xxxForCausalLM和xxxForConditionalGeneration吗？

摘要：Part1基本介绍大语言模型目前一发不可收拾，在使用的时候经常会看到transformers库的踪影，其中xxxCausalLM和xxxForConditionalGeneration会经常出现在我们的视野中，接下来我们就来聊聊transformers库中的一些基本任务。这里以三类模型为例：be 阅读全文

posted @ 2023-04-26 16:36 西西嘛呦阅读(894) 评论(0) 推荐(0)

LLM（大语言模型）解码时是怎么生成文本的？

摘要：Part1配置及参数 transformers==4.28.1 源码地址：transformers/configuration_utils.py at v4.28.1 · huggingface/transformers (github.com) 文档地址：Generation (huggingfa 阅读全文

posted @ 2023-04-25 17:34 西西嘛呦阅读(5772) 评论(0) 推荐(1)

pytorch在有限的资源下部署大语言模型（以ChatGLM-6B为例）

摘要：pytorch在有限的资源下部署大语言模型（以ChatGLM-6B为例） Part1知识准备在PyTorch中加载预训练的模型时，通常的工作流程是这样的： my_model = ModelClass(...)state_dict =torch.load(checkpoint_file) 用简单的话阅读全文

posted @ 2023-04-23 09:38 西西嘛呦阅读(4646) 评论(0) 推荐(2)

怎么裁剪LLM（大语言模型）的vocab（词表）？

摘要：怎么裁剪LLM（大语言模型）的vocab（词表）？ Part1前言对于一些多语言的大语言模型而言，它的词表往往很大。在下游使用这些模型的时候，可能我们不需要其它的一些语言，例如只需要中文和英文，此时，我们可以对其vocab进行裁剪，既可以大大减少参数量，也能够保留模型的性能，接下来以Bloom模型阅读全文

posted @ 2023-04-21 14:02 西西嘛呦阅读(1388) 评论(0) 推荐(0)

你也可以动手参数有效微调：LoRA、Prefix Tuning、P-Tuning、Prompt Tuning

摘要：Part1前言随着大语言模型的流行，如何让大模型在消费级GPU上进行微调训练成为了热点。掌握参数有效微调成为每个自然语言处理工程师必不可少的技能，正好hugging face开源了一个PEFT库，让我们也能够自己动手去了解参数有效微调。接下来以中文情感分析（二分类）去了解下参数有效微调。使用的方阅读全文

posted @ 2023-04-20 19:10 西西嘛呦阅读(1145) 评论(0) 推荐(0)

利用ChatGPT进行情感分析

摘要：ChatSA 代码地址：https://github.com/taishan1994/ChatSA 基于ChatGPT的情感分析，简单的情感分析：给定一个句子，判断该句子所属的情感。复杂点的情感分析，总共有7个子任务。如何使用 1、首先你得有一个openai的账号，并且在Account API 阅读全文

posted @ 2023-03-28 14:15 西西嘛呦阅读(1295) 评论(0) 推荐(0)

搞定实体识别、关系抽取、事件抽取，我用指针网络

摘要：利用指针网络进行信息抽取，包含命名实体识别、关系抽取、事件抽取。阅读全文

posted @ 2022-12-06 16:03 西西嘛呦阅读(1142) 评论(0) 推荐(2)

基于bert_bilstm_crf的命名实体识别

摘要：前言本文将介绍基于pytorch的bert_bilstm_crf进行命名实体识别，涵盖多个数据集。命名实体识别指的是从文本中提取出想要的实体，本文使用的标注方式是BIOES，例如，对于文本虞兔良先生：1963年12月出生，汉族，中国国籍，无境外永久居留权，浙江绍兴人，中共党员，MBA，经济师。，我阅读全文

posted @ 2022-08-18 15:56 西西嘛呦阅读(2462) 评论(3) 推荐(1)

基于bert训练自己的分词系统

摘要：前言在中文分词领域，已经有着很多优秀的工具，例如： jieba分词 SnowNLP 北京大学PKUse 清华大学THULAC HanLP FoolNLTK 哈工大LTP 斯坦福分词器CoreNLP BaiduLac 这里，我们不使用上述的工具，而是利用bert训练一个自己的分词器。数据预处理首阅读全文

posted @ 2022-08-17 10:13 西西嘛呦阅读(858) 评论(0) 推荐(0)

你有一份斗破苍穹词库，请查收

摘要：对于一个特定的领域而言，我们可能需要其相关的一些词语，这些词语可以用来进行分词、关键词提取、主题分析等。那么，如何去获得这些词语呢？本文接下来将通过斗破苍穹小说来介绍新词发现。阅读全文

posted @ 2022-08-10 11:02 西西嘛呦阅读(1344) 评论(8) 推荐(4)

西西成语接龙小助手

摘要：介绍代码地址：https://github.com/taishan1994/chinese_chengyujielong 读完该文，你可以收获： python爬虫的简单使用。构建前缀树以进行搜索提示。构建一个简单的成语接龙小程序。爬虫模块首先展示下我们最终获得的成语的数据： ,成语,拼音, 阅读全文

posted @ 2022-08-04 16:47 西西嘛呦阅读(863) 评论(0) 推荐(1)

CAIL2021-阅读理解任务-top3-模型模块

摘要：代码地址：https://github.com/davidfan1224/CAIL2021_Multi-span_MRC 解读： # /* # * @Author: Yue.Fan # * @Date: 2022-03-23 11:35:37 # * @Last Modified by: Yue.F 阅读全文

posted @ 2022-06-09 17:56 西西嘛呦阅读(166) 评论(1) 推荐(0)

CAIL2021-阅读理解任务-top3-数据预处理模块

摘要：代码地址：https://github.com/davidfan1224/CAIL2021_Multi-span_MRC class SquadExample(object): """ A single training/test example for the Squad dataset. For 阅读全文

posted @ 2022-06-09 15:39 西西嘛呦阅读(309) 评论(0) 推荐(0)

CAIL2021-阅读理解任务-模型模块

摘要：代码地址：https://github.com/china-ai-law-challenge/CAIL2021/blob/main/ydlj/baseline/model.py import torch from torch.nn import CrossEntropyLoss, BCELoss f 阅读全文

posted @ 2022-06-09 14:30 西西嘛呦阅读(119) 评论(0) 推荐(0)

CAIL2021-阅读理解任务-数据预处理模块（二）

摘要：代码地址：https://github.com/china-ai-law-challenge/CAIL2021/ # /* # * @Author: Yue.Fan # * @Date: 2022-03-23 11:35:28 # * @Last Modified by: Yue.Fan # * @ 阅读全文

posted @ 2022-06-09 14:10 西西嘛呦阅读(126) 评论(0) 推荐(0)

CAIL2021-阅读理解任务-数据预处理模块（一）

摘要：1、任务介绍该赛道由科大讯飞研究院与哈尔滨工业大学社会计算与信息检索研究中心承办。在法律问答任务中，很多问题需要通过文章中多个片段组合出最终的答案。因此，本次中文法律阅读理解比赛引入多片段回答的问题类型，即部分问题需要抽取文章中的多个片段组合成最终答案。希望多片段问题类型的引入，能够扩大中文机器阅阅读全文

posted @ 2022-06-09 09:19 西西嘛呦阅读(318) 评论(0) 推荐(0)

hugging face使用BertModel.from_pretrained()都发生了什么？

摘要：transformers目前已被广泛地应用到各个领域中，hugging face的transformers是一个非常常用的包，在使用预训练的模型时背后是怎么运行的，我们意义来看。以transformers=4.5.0为例基本使用： from transformers import BertMod 阅读全文

posted @ 2022-05-31 14:18 西西嘛呦阅读(10904) 评论(0) 推荐(0)

西西嘛呦

从自己能做到的开始，一件件来，缓慢而坚定地前进，尽力而为

随笔分类 - 自然语言处理

公告