Python - 随笔分类 - 石头木

利用ocr将pdf转为docx

摘要：利用ocr将pdf转为docx 项目地址：https://github.com/jiangnanboy/pdf_to_docx 背景该项目首先将pdf文件转为图片形式，再使用百度的paddleocr对这些图片文件分别进行识别，利用PPStructure对识别的内容进行结构化，最终将结构化的内容保存阅读全文

posted @ 2022-11-04 21:23 石头木阅读(669) 评论(0) 推荐(0) 编辑

中文句子标点符号预测

摘要：中文句子标点符号预测 https://github.com/jiangnanboy/punctuation_prediction 对一个没有标点符号的句子预测标点，主要预测逗号、句号以及问号（，。？）给句子添加标点符号请下载模型 [pun_model.onnx]，将模型放入model/ernie 阅读全文

posted @ 2022-10-20 19:25 石头木阅读(539) 评论(0) 推荐(0) 编辑

t5-onnx模型用于中文拼写纠错

摘要：项目地址：https://github.com/jiangnanboy/t5-onnx-corrector t5纠错模型及配置可自行下载 -> https://huggingface.co/shibing624/mengzi-t5-base-chinese-correction。原始模型文件组成：阅读全文

posted @ 2022-09-08 19:54 石头木阅读(1181) 评论(0) 推荐(0) 编辑

时间序列预测(商品销量预测)

摘要：项目地址见：https://github.com/jiangnanboy/spark_data_mining/tree/master/src/main/java/com/sy/dataalgorithms/advanced/time_series 一.概要此项目将围绕一个时间序列预测任务展开。该任阅读全文

posted @ 2022-08-22 21:07 石头木阅读(1226) 评论(0) 推荐(0) 编辑

利用roberta和macbert的onnx格式进行推理

摘要：项目地址：https://github.com/jiangnanboy/model2onnx 一.将roberta模型转为onnx，并对[MASK]进行推理预测。二.将macbert模型转为onnx，并对中文进行拼写纠错。一.roberta-onnx（对中文句子[MASK]预测）将模型转为on 阅读全文

posted @ 2022-05-24 22:18 石头木阅读(639) 评论(0) 推荐(0) 编辑

albert-fc for LP(Link Prediction)，链接预测

摘要：albert-fc for LP(Link Prediction)，链接预测项目地址：https://github.com/jiangnanboy/albert_link_prediction 概述链接预测是一种根据KG中已存在的实体去预测缺失事实的任务，是一种有前途的、广泛研究的、旨在解决KG 阅读全文

posted @ 2022-05-08 22:11 石头木阅读(291) 评论(0) 推荐(0) 编辑

怎么利用gpt2进行句子改写生成

摘要：参考我之前的一个项目给定title和keywords利用gpt2生成文本，从中可以看出只是利用了gpt2模型，没有其它模型上的改动或组合，变化的只是input部分，在input中，加入了title和keywords两部分。那么训练时候的model输入，就会有三部分：[BOS] + title + [ 阅读全文

posted @ 2022-01-12 21:39 石头木阅读(1096) 评论(0) 推荐(0) 编辑

中文句子关系抽取

摘要：albert-fc for RE(Relation Extraction)，中文关系抽取项目地址：https://github.com/jiangnanboy/albert_re 概述关系抽取是指从非结构化文本中抽取语义关系的一项基本任务。提取出来的关系通常发生在两个或多个特定类型的实体之间(例阅读全文

posted @ 2022-01-02 15:47 石头木阅读(716) 评论(0) 推荐(1) 编辑

中文语义角色标注

摘要：albert-crf for SRL(Semantic Role Labeling)，中文语义角色标注项目地址：https://github.com/jiangnanboy/albert_srl 概述自然语言的语义理解往往包括分析构成一个事件的行为、施事、受事等主要元素，以及其他附属元素（adj 阅读全文

posted @ 2021-12-31 21:37 石头木阅读(824) 评论(0) 推荐(0) 编辑

albert+crf中文实体识别

摘要：albert-crf 项目地址：https://github.com/jiangnanboy/albert_ner 概述利用huggingface/transformers中的albert+crf进行中文实体识别利用albert加载中文预训练模型，后接一个前馈分类网络，最后接一层crf。利用al 阅读全文

posted @ 2021-12-28 20:48 石头木阅读(531) 评论(0) 推荐(0) 编辑

文本校对中，利用最大熵(maxent)对量名搭配进行校对

摘要：一.在文本校对中，利用最大熵对量名搭配进行校对测试，本文参考了张仰森教授的论文《最大熵方法中特征选择算法的改进与纠错排歧》 1.量名纠错步骤： (1).挖掘量名搭配库 (2).根据量名搭配库，找出句子中可能出现的量名搭配错误 (3).将有量名搭配错误的句子输入最大熵纠错模型中，输出预测的最大概率对应阅读全文

posted @ 2021-11-24 20:47 石头木阅读(295) 评论(0) 推荐(0) 编辑

图网络进行链接预测(gnn for link prediction)

摘要：gnn for link prediction（gnn4lp）项目地址：https://github.com/jiangnanboy/gnn4lp 利用图神经网络进行链接预测（link prediction）。 Guide Intro Model Dataset Install Cite Refe 阅读全文

posted @ 2021-11-16 21:42 石头木阅读(3814) 评论(0) 推荐(0) 编辑

利用图神经网络进行link prediction of protein interactions

摘要：gcn for prediction of protein interactions 项目地址：https://github.com/jiangnanboy/gcn_for_prediction_of_protein_interactions 利用各种图神经网络进行link prediction o 阅读全文

posted @ 2021-11-11 21:02 石头木阅读(359) 评论(0) 推荐(0) 编辑

一个利用CNN抽取实体的工具

摘要：CNN4IE 项目地址：https://github.com/jiangnanboy/CNN4IE 中文信息抽取工具。使用CNN的不同变体进行信息抽取，以后会持续加入不同模型。该项目使用pytorch，python开发。 CNN4IE将各种改进版本的conv进行改动用于中文信息抽取。 Guide I 阅读全文

posted @ 2021-10-23 12:36 石头木阅读(82) 评论(0) 推荐(0) 编辑

文本校对中量词名词搭配库的挖掘

摘要：在文本校对中，现在的深度神经网络模型，如神经翻译模型seq2seq框架在文本纠错中也有一些应用，但这需要大规模语料去做训练，有时候效果还不一定好，或者效率不一定达到要求，另外这种end2end方法也不好解释。所以基于统计和规则的文本校对方法还是有一定应用价值的。文本校对中有一项是词的搭配校对，而词的阅读全文

posted @ 2021-09-14 22:48 石头木阅读(573) 评论(1) 推荐(0) 编辑

一个基于RNN的实体抽取工具

摘要：RNN4IE 项目地址：https://github.com/jiangnanboy/RNN4IE 本项目是本人在rnn基础上做的一些改动，用于信息抽取。中文信息抽取工具。使用RNN的不同结构进行信息抽取，该项目使用pytorch，python开发。 Guide Intro Model Evalu 阅读全文

posted @ 2021-08-01 14:06 石头木阅读(382) 评论(0) 推荐(0) 编辑

开源一个中文信息抽取工具(持续完善中...)

摘要：CNN4IE 项目地址：https://github.com/jiangnanboy/CNN4IE 本项目是本人打算使用CNN的不同变体进行信息抽取，未来会持续加入不同模型。 CNN4IE根据CNN的各种改进版本，对不同模型块进行融合，并将其用于中文信息抽取中。 Intro 目前主要实现中文实体抽取阅读全文

posted @ 2021-06-19 15:41 石头木阅读(552) 评论(0) 推荐(0) 编辑

给定title和keywords利用gpt2生成文本

摘要：一.关于gpt2的理论网上有很多资料(推荐https://jalammar.github.io/illustrated-gpt2/)，它源自transformer-decoder部分，话不多説。下图是transformer、gpt以及gpt2的简要结构图，可以从中简单看出其中不同的部分：和tra 阅读全文

posted @ 2021-06-02 21:39 石头木阅读(1064) 评论(0) 推荐(0) 编辑

bert的训练数据的简单构建

摘要：一.简介大家都知道原始bert预训练模型有两大任务： 1.masked lm：带mask的语言模型 2.next sentence prediction：是否为下一句话 bert模型的训练数据有三部分，如下图： 1.字的token embeddings 2.句子的embeddings 3.句子位置阅读全文

posted @ 2021-04-06 15:19 石头木阅读(1064) 评论(0) 推荐(0) 编辑

语义匹配，cnn + self-attention孪生网络

摘要：一.模型结构实现一个简单的孪生网络（结构如上图），做语义相似度： 1.从上图可看出整体的结构相对较简单，左右两边基本一致。A句和B句分别进入左右两个结构。输入到网络中是token embedding + position_embedding 2.再经过cnn-encoder进行编码 3.多头注意力阅读全文

posted @ 2021-04-02 20:34 石头木阅读(1301) 评论(0) 推荐(1) 编辑

石头木

https://jiangnanboy.github.io

随笔分类 - Python

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论