NLP - 随笔分类 - 石头木

cleaning of llm corpus 大模型语料清洗

摘要：cleaning of llm corpus 大模型语料清洗数据是人工智能领域发展的基础要素之一。随着大规模预训练模型及相关技术不断取得突破，在相应研究中使用高效数据处理工具提升数据质量变得越来越重要。llm_corpus_quality集成了包含清洗、敏感词过滤、广告词过滤、语料质量自动评估等功阅读全文

posted @ 2024-01-13 20:22 石头木阅读(1398) 评论(0) 推荐(0) 编辑

提示工程最佳实践

摘要：提示工程最佳实践翻译自：https://mphr.notion.site/Prompt-Engineering-Best-Practices-0839585d4bce4c6abb0b551b2107a92a 改善LLM输出的提示技巧。目录： Tip#1:清晰且具体的指令 Tip#2:给模型思考的阅读全文

posted @ 2024-01-11 18:43 石头木阅读(83) 评论(0) 推荐(0) 编辑

智能文本自动处理（Intelligent text automatic processing）(一)

摘要：AutoText 智能文本自动处理工具（Intelligent text automatic processing tool）。项目地址：https://github.com/jiangnanboy/AutoText AutoText的功能主要有文本纠错，图片ocr以及表格结构识别等。 Guide 阅读全文

posted @ 2023-01-19 19:06 石头木阅读(546) 评论(0) 推荐(0) 编辑

中文句子标点符号预测

摘要：中文句子标点符号预测 https://github.com/jiangnanboy/punctuation_prediction 对一个没有标点符号的句子预测标点，主要预测逗号、句号以及问号（，。？）给句子添加标点符号请下载模型 [pun_model.onnx]，将模型放入model/ernie 阅读全文

posted @ 2022-10-20 19:25 石头木阅读(539) 评论(0) 推荐(0) 编辑

t5-onnx模型用于中文拼写纠错

摘要：项目地址：https://github.com/jiangnanboy/t5-onnx-corrector t5纠错模型及配置可自行下载 -> https://huggingface.co/shibing624/mengzi-t5-base-chinese-correction。原始模型文件组成：阅读全文

posted @ 2022-09-08 19:54 石头木阅读(1181) 评论(0) 推荐(0) 编辑

智慧医疗项目

摘要：intelligent medical 尝试构建一个以疾病为中心的智慧医疗项目，整合搜索、推荐、图谱、问答以及语音等功能，形成一个较为完整的解决方案。完整项目见：https://github.com/jiangnanboy/intelligent_medical 项目介绍本项目中的医疗数据来自Q 阅读全文

posted @ 2022-08-01 18:29 石头木阅读(903) 评论(0) 推荐(0) 编辑

使用纠错模板对中文句子进行语法纠正

摘要：使用纠错模板对中文句子进行语法纠正项目地址：https://github.com/jiangnanboy/gec_check_template introduction 模板见resources/zh_template/error_templates_500.txt A,B;1/2/3 requi 阅读全文

posted @ 2022-07-29 22:30 石头木阅读(394) 评论(0) 推荐(0) 编辑

复合事件抽取，依存关系三元组抽取

摘要：EventExtraction & TriplesExtraction 项目地址：https://github.com/jiangnanboy/triple_event_extract 一.中文复合事件抽取，包括条件事件、因果事件、顺承事件、反转事件等事件抽取 examples/ExtractEve 阅读全文

posted @ 2022-07-19 22:06 石头木阅读(354) 评论(0) 推荐(0) 编辑

利用java实现自动求导引擎，动态构建DAG，并实现反向传播

摘要：利用java开发一个标量自动求导引擎，动态构建DAG图，并实现反向传播。项目中把每个神经元切成一个个小的加法和乘法，然后以此构建一个完整的深度神经网络来进行二分类。项目地址：https://github.com/jiangnanboy/micrograd4j 示例以下是在标量数据上的一些示例：阅读全文

posted @ 2022-05-31 20:01 石头木阅读(670) 评论(0) 推荐(0) 编辑

利用java加载macbert进行中文拼写纠错

摘要：这里利用java加载macbert模型，并进行中文拼写纠错。项目地址：https://github.com/jiangnanboy/macbert-java-onnx 步骤 1.利用java加载macbert模型，并进行纠错推理。 2.模型从这里下载。 3.模型转换见这里。使用 1.sy/M 阅读全文

posted @ 2022-05-26 20:31 石头木阅读(645) 评论(0) 推荐(0) 编辑

利用roberta和macbert的onnx格式进行推理

摘要：项目地址：https://github.com/jiangnanboy/model2onnx 一.将roberta模型转为onnx，并对[MASK]进行推理预测。二.将macbert模型转为onnx，并对中文进行拼写纠错。一.roberta-onnx（对中文句子[MASK]预测）将模型转为on 阅读全文

posted @ 2022-05-24 22:18 石头木阅读(639) 评论(0) 推荐(0) 编辑

利用java加载bert模型进行加速推理

摘要：这里利用java加载onnx模型，并进行推理。项目地址：https://github.com/jiangnanboy/onnx-java 步骤 1.利用java加载onnx模型，并进行推理预测。这里采用roberta模型的onnx版。 2.pytorch模型从这里下载。 3.pytorch模型转阅读全文

posted @ 2022-05-19 19:29 石头木阅读(1407) 评论(0) 推荐(0) 编辑

albert-fc for LP(Link Prediction)，链接预测

摘要：albert-fc for LP(Link Prediction)，链接预测项目地址：https://github.com/jiangnanboy/albert_link_prediction 概述链接预测是一种根据KG中已存在的实体去预测缺失事实的任务，是一种有前途的、广泛研究的、旨在解决KG 阅读全文

posted @ 2022-05-08 22:11 石头木阅读(291) 评论(0) 推荐(0) 编辑

jcorrector 中文文本纠错工具

摘要：jcorrector 项目地址：https://github.com/jiangnanboy/jcorrector 中文文本纠错工具。音似、形似错字（或变体字）纠正，可用于中文拼音、笔画输入法的错误纠正。项目为java开发，此项目参考了pycorrector，在此对作者表示感谢。 jcorrecto 阅读全文

posted @ 2022-03-08 22:08 石头木阅读(2754) 评论(0) 推荐(1) 编辑

结合语言知识的句子改写生成

摘要：一.概述我之前做的一个小demo怎么利用gpt2进行句子改写生成，是一种使用自监督的方式进行学习和生成，这种方式生成的句子对原句的改动比较大，另外还有改变原句意思的可能性，所以是不太适用较严谨的句子改写。最近正好看过一篇AAAI-20的文章《Integrating Linguistic Knowl 阅读全文

posted @ 2022-01-17 21:55 石头木阅读(883) 评论(0) 推荐(1) 编辑

怎么利用gpt2进行句子改写生成

摘要：参考我之前的一个项目给定title和keywords利用gpt2生成文本，从中可以看出只是利用了gpt2模型，没有其它模型上的改动或组合，变化的只是input部分，在input中，加入了title和keywords两部分。那么训练时候的model输入，就会有三部分：[BOS] + title + [ 阅读全文

posted @ 2022-01-12 21:39 石头木阅读(1096) 评论(0) 推荐(0) 编辑

中文句子关系抽取

摘要：albert-fc for RE(Relation Extraction)，中文关系抽取项目地址：https://github.com/jiangnanboy/albert_re 概述关系抽取是指从非结构化文本中抽取语义关系的一项基本任务。提取出来的关系通常发生在两个或多个特定类型的实体之间(例阅读全文

posted @ 2022-01-02 15:47 石头木阅读(716) 评论(0) 推荐(1) 编辑

中文语义角色标注

摘要：albert-crf for SRL(Semantic Role Labeling)，中文语义角色标注项目地址：https://github.com/jiangnanboy/albert_srl 概述自然语言的语义理解往往包括分析构成一个事件的行为、施事、受事等主要元素，以及其他附属元素（adj 阅读全文

posted @ 2021-12-31 21:37 石头木阅读(824) 评论(0) 推荐(0) 编辑

albert+crf中文实体识别

摘要：albert-crf 项目地址：https://github.com/jiangnanboy/albert_ner 概述利用huggingface/transformers中的albert+crf进行中文实体识别利用albert加载中文预训练模型，后接一个前馈分类网络，最后接一层crf。利用al 阅读全文

posted @ 2021-12-28 20:48 石头木阅读(531) 评论(0) 推荐(0) 编辑

文本校对中，利用最大熵(maxent)对量名搭配进行校对

摘要：一.在文本校对中，利用最大熵对量名搭配进行校对测试，本文参考了张仰森教授的论文《最大熵方法中特征选择算法的改进与纠错排歧》 1.量名纠错步骤： (1).挖掘量名搭配库 (2).根据量名搭配库，找出句子中可能出现的量名搭配错误 (3).将有量名搭配错误的句子输入最大熵纠错模型中，输出预测的最大概率对应阅读全文

posted @ 2021-11-24 20:47 石头木阅读(295) 评论(0) 推荐(0) 编辑

石头木

https://jiangnanboy.github.io

随笔分类 - NLP

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论