随笔分类 - NLP
摘要:cleaning of llm corpus 大模型语料清洗 数据是人工智能领域发展的基础要素之一。随着大规模预训练模型及相关技术不断取得突破,在相应研究中使用高效数据处理工具提升数据质量变得越来越重要。llm_corpus_quality集成了包含清洗、敏感词过滤、广告词过滤、语料质量自动评估等功
阅读全文
摘要:提示工程最佳实践 翻译自:https://mphr.notion.site/Prompt-Engineering-Best-Practices-0839585d4bce4c6abb0b551b2107a92a 改善LLM输出的提示技巧。 目录: Tip#1:清晰且具体的指令 Tip#2:给模型思考的
阅读全文
摘要:AutoText 智能文本自动处理工具(Intelligent text automatic processing tool)。 项目地址:https://github.com/jiangnanboy/AutoText AutoText的功能主要有文本纠错,图片ocr以及表格结构识别等。 Guide
阅读全文
摘要:中文句子标点符号预测 https://github.com/jiangnanboy/punctuation_prediction 对一个没有标点符号的句子预测标点,主要预测逗号、句号以及问号(,。?) 给句子添加标点符号 请下载模型 [pun_model.onnx],将模型放入model/ernie
阅读全文
摘要:项目地址:https://github.com/jiangnanboy/t5-onnx-corrector t5纠错模型及配置可自行下载 -> https://huggingface.co/shibing624/mengzi-t5-base-chinese-correction。 原始模型文件组成:
阅读全文
摘要:intelligent medical 尝试构建一个以疾病为中心的智慧医疗项目,整合搜索、推荐、图谱、问答以及语音等功能,形成一个较为完整的解决方案。 完整项目见:https://github.com/jiangnanboy/intelligent_medical 项目介绍 本项目中的医疗数据来自Q
阅读全文
摘要:使用纠错模板对中文句子进行语法纠正 项目地址:https://github.com/jiangnanboy/gec_check_template introduction 模板见resources/zh_template/error_templates_500.txt A,B;1/2/3 requi
阅读全文
摘要:EventExtraction & TriplesExtraction 项目地址:https://github.com/jiangnanboy/triple_event_extract 一.中文复合事件抽取,包括条件事件、因果事件、顺承事件、反转事件等事件抽取 examples/ExtractEve
阅读全文
摘要:利用java开发一个标量自动求导引擎,动态构建DAG图,并实现反向传播 。项目中把每个神经元切成一个个小的加法和乘法,然后以此构建一个完整的深度神经网络来进行二分类。 项目地址:https://github.com/jiangnanboy/micrograd4j 示例 以下是在标量数据上的一些示例:
阅读全文
摘要:这里利用java加载macbert模型,并进行中文拼写纠错。 项目地址:https://github.com/jiangnanboy/macbert-java-onnx 步骤 1.利用java加载macbert模型,并进行纠错推理。 2.模型从这里 下载。 3.模型转换见这里 。 使用 1.sy/M
阅读全文
摘要:项目地址:https://github.com/jiangnanboy/model2onnx 一.将roberta模型转为onnx,并对[MASK]进行推理预测。 二.将macbert模型转为onnx,并对中文进行拼写纠错。 一.roberta-onnx(对中文句子[MASK]预测) 将模型转为on
阅读全文
摘要:这里利用java加载onnx模型,并进行推理。 项目地址:https://github.com/jiangnanboy/onnx-java 步骤 1.利用java加载onnx模型,并进行推理预测。这里采用roberta模型的onnx版。 2.pytorch模型从这里 下载。 3.pytorch模型转
阅读全文
摘要:albert-fc for LP(Link Prediction),链接预测 项目地址:https://github.com/jiangnanboy/albert_link_prediction 概述 链接预测是一种根据KG中已存在的实体去预测缺失事实的任务,是一种有前途的、广泛研究的、旨在解决KG
阅读全文
摘要:jcorrector 项目地址:https://github.com/jiangnanboy/jcorrector 中文文本纠错工具。音似、形似错字(或变体字)纠正,可用于中文拼音、笔画输入法的错误纠正。项目为java开发,此项目参考了pycorrector,在此对作者表示感谢。 jcorrecto
阅读全文
摘要:一.概述 我之前做的一个小demo怎么利用gpt2进行句子改写生成,是一种使用自监督的方式进行学习和生成,这种方式生成的句子对原句的改动比较大,另外还有改变原句意思的可能性,所以是不太适用较严谨的句子改写。最近正好看过一篇AAAI-20的文章《Integrating Linguistic Knowl
阅读全文
摘要:参考我之前的一个项目给定title和keywords利用gpt2生成文本,从中可以看出只是利用了gpt2模型,没有其它模型上的改动或组合,变化的只是input部分,在input中,加入了title和keywords两部分。那么训练时候的model输入,就会有三部分:[BOS] + title + [
阅读全文
摘要:albert-fc for RE(Relation Extraction),中文关系抽取 项目地址:https://github.com/jiangnanboy/albert_re 概述 关系抽取是指从非结构化文本中抽取语义关系的一项基本任务。提取出来的关系通常发生在两个或多个特定类型的实体之间(例
阅读全文
摘要:albert-crf for SRL(Semantic Role Labeling),中文语义角色标注 项目地址:https://github.com/jiangnanboy/albert_srl 概述 自然语言的语义理解往往包括分析构成一个事件的行为、施事、受事等主要元素,以及其他附属元素(adj
阅读全文
摘要:albert-crf 项目地址:https://github.com/jiangnanboy/albert_ner 概述 利用huggingface/transformers中的albert+crf进行中文实体识别 利用albert加载中文预训练模型,后接一个前馈分类网络,最后接一层crf。利用al
阅读全文
摘要:一.在文本校对中,利用最大熵对量名搭配进行校对测试,本文参考了张仰森教授的论文《最大熵方法中特征选择算法的改进与纠错排歧》 1.量名纠错步骤: (1).挖掘量名搭配库 (2).根据量名搭配库,找出句子中可能出现的量名搭配错误 (3).将有量名搭配错误的句子输入最大熵纠错模型中,输出预测的最大概率对应
阅读全文