随笔分类 -  AI

AI
摘要:详细描述了 语料库、标注、训练、评估、预测,完整流程。对于细分场景推荐使用轻定制功能(标注少量数据进行模型微调)以进一步提升效果 阅读全文
posted @ 2024-07-03 14:57 VipSoft 阅读(756) 评论(0) 推荐(6) 编辑
摘要:目录环境依赖配置SSH克隆代码训练定制代码结构数据标注准备语料库数据标注导出数据数据转换doccanoLabel Studio模型微调问题处理找不到 'paddlenlp.trainer'找不到GPUprotobuf==3.20.2CUDA/cuDNN/paddle 环境问题,此文档废弃,移步 ht 阅读全文
posted @ 2024-07-02 17:09 VipSoft 阅读(169) 评论(0) 推荐(0) 编辑
摘要:目录安装数据准备创建项目创建抽取式任务上传定义标签构建抽取式任务标签任务标注命名实体识别导出数据查看数据应用实例 命名实体识别(Named Entity Recognition,简称NER),是指识别文本中具有特定意义的实体。在开放域信息抽取中,抽取的类别没有限制,用户可以自己定义。 安装 详见:数 阅读全文
posted @ 2024-06-24 15:30 VipSoft 阅读(581) 评论(0) 推荐(0) 编辑
摘要:目录安装运行 doccano重运行 doccano打开 doccanno创建项目创建分类式任务上传数据定义标签添加成员开始标注导出数据查看数据统计 数据标注工具 Label-Studio 数据标注工具 doccano | 命名实体识别(Named Entity Recognition,简称NER) 阅读全文
posted @ 2024-06-20 11:16 VipSoft 阅读(675) 评论(0) 推荐(3) 编辑
摘要:目录8. 命名实体识别8.1 概述8.2 基于规则的命名实体识别8.2.1 基于规则的音译人名识别8.2.2 基于规则的日本人名识别8.2.3 基于规则的数词英文识别8.3 命名实体识别语料库1998年《人民日报》语料库微软命名实体识别语料库8.4 基于层叠隐马尔可夫模型的角色标注框架8.4.1 基 阅读全文
posted @ 2024-02-02 09:36 VipSoft 阅读(429) 评论(0) 推荐(0) 编辑
摘要:目录词性的用处词性标注词性标注模型联合模型流水线式词性标注语料库与标注集序列标注模型应用于词性标注自定义词性朴素实现标注语料总结 词性(Part-Of-Speech,POS)指的是单词的语法分类,也称为词类。同一个类别的词语具有相似的语法性质 所有词性的集合称为词性标注集。 词性的用处 当下游应用遇 阅读全文
posted @ 2024-02-02 09:14 VipSoft 阅读(334) 评论(0) 推荐(1) 编辑
摘要:HanLP — 感知机(Perceptron) 感知机 感知机是根据输入实例的特征向量 x 对其进行二类分类的线性模型: f(x)=sign(wx+b)感知机模型对应于输入空间(特征空间)中的分离超平面 wx+b=0.其中w是超平面的法向量,b是超平面的截距 阅读全文
posted @ 2024-01-25 08:36 VipSoft 阅读(187) 评论(0) 推荐(0) 编辑
摘要:scikit-learn是一个用于Python的机器学习库,提供了大量用于数据挖掘和数据分析的工具。以下是对这些函数和方法的简要描述: clear_data_home: 清除数据集目录的内容。 dump_svmlight_file: 将数据集保存为SVMLight格式的文件。 fetch_20new 阅读全文
posted @ 2024-01-24 11:54 VipSoft 阅读(311) 评论(0) 推荐(1) 编辑
摘要:HanLP — 感知机(Perceptron) -- Python 感知机(Perceptron)是一个二类分类的线性分类模型,属于监督式学习算法。最终目的: 将不同的样本分类 感知机饮食了多个权重参数,输入的特征向量先是和对应的权重相乘,再加得到的积相加,然后将加权后的特征值送入激活函数,最后得到 阅读全文
posted @ 2024-01-23 11:21 VipSoft 阅读(188) 评论(0) 推荐(1) 编辑
摘要:目录语料库训练模型加载语料库训练模型保存模型预测加载模型计算调用 HanLP 在汉字转拼音时,可以解决多音字问题,显示输出声调,声母、韵母,通过训练语料库, 本文代码为《自然语言处理入门》配套版本 HanLP-1.7.5 HanLP 里,汉字转简单,简体繁体转换,都用到了 双数组字典树 (Doubl 阅读全文
posted @ 2024-01-19 10:40 VipSoft 阅读(319) 评论(0) 推荐(1) 编辑
摘要:Viterbi 维特比算法解决的是篱笆型的图的最短路径问题,图的节点按列组织,每列的节点数量可以不一样,每一列的节点只能和相邻列的节点相连,不能跨列相连,节点之间有着不同的距离,距离的值就不在 题目背景 从前有个村儿,村里的人的身体情况只有两种可能:健康、发烧。 假设这个村儿的人没有体温计或者百度这 阅读全文
posted @ 2024-01-18 09:47 VipSoft 阅读(155) 评论(0) 推荐(2) 编辑
摘要:语料库 => 标注 => 训练得到三数组 => 归一化算概率 => 生成模型文件 加载模型文件 => 标注 => 预测 => 维特比 可以对着这篇贴子看代码 import pickle from tqdm import tqdm import numpy as np import os def ma 阅读全文
posted @ 2024-01-17 15:40 VipSoft 阅读(60) 评论(2) 推荐(1) 编辑
摘要:维特比算法:从众多路径中,挑出最优的那条,他和隐马尔可夫没有强关联 语料库 => 标注 => 训练得到三数组 => 归一化算概率 预测 => 标注 => 维特比 中文分词任务 语料库 => 训练集 初始、转移、发射矩阵 => 训练过程 维特比算法,得到真正结果 训练的时候,是用不到维特比算法的,只有 阅读全文
posted @ 2023-12-18 16:10 VipSoft 阅读(117) 评论(0) 推荐(1) 编辑
摘要:前篇得出初始矩阵、转移矩阵、发射矩阵 通过归一化得出每个状态的概率。 然后通过 pickle 将三个数组序列化到文件中,用的时候反序列化 # 训练数据 [ '今天 天气 真 不错 。', '麻辣肥牛 好吃 !', '我 喜欢 吃 好吃 的 !' ] # 标注 [ 'BE BE S BE S', 'B 阅读全文
posted @ 2023-12-15 17:44 VipSoft 阅读(65) 评论(0) 推荐(0) 编辑
摘要:BMES => B-begin:词语开始、M-middle:词语中间、E-end:词语结束、S-single:单独成词 训练的过程,就是求三个矩阵的过程 初始概率矩阵 转移概率矩阵 发射概率矩阵 每个字有4种可能性,上图中有7个字,就是 4^7 种可能性 维特比算法,从众多路径中,挑出最优的那条,他 阅读全文
posted @ 2023-12-14 20:03 VipSoft 阅读(125) 评论(0) 推荐(1) 编辑
摘要:隐马尔可可夫模型(Hidden Markov Model,HMM)是统计模型,用于描述一个含有隐含未知参数的马尔可夫过程。 HMM由初始概率分布、状态转移概率分布和观测概率分布确定。 BMES => B:词语开始、M:词语中间、E:词语结束、S:单独成词 并非所有中文任务都需要分词 语料库 每行是一 阅读全文
posted @ 2023-12-13 16:51 VipSoft 阅读(74) 评论(0) 推荐(0) 编辑
摘要:Dijkstra(迪杰斯特拉)算法 A*(A-Star)算法是一种静态路网中求解最短路径最有效的直接搜索方法,也是解决许多搜索问题的有效算法。算法中的距离估算值与实际值越接近,最终搜索速度越快。 A* 算法是一个“搜索算法”,实质上是广度优先搜索算法(BFS)的优化 A* 算法的作用是“求解最短路径 阅读全文
posted @ 2023-12-08 12:34 VipSoft 阅读(908) 评论(0) 推荐(1) 编辑
摘要:A*(A-Star)算法 Dijkstra(迪杰斯特拉)算法的思想是广度优先搜索(BFS) 贪心策略。 是从一个顶点到其余各顶点的最短路径算法,节点边是不各自不同的权重,但都必须是正数 如果是负数,则需要 Bellman-Ford 算法 如果想求任意两点之间的距离,就需要用 Floyd 算法 求节点 阅读全文
posted @ 2023-12-07 09:02 VipSoft 阅读(1973) 评论(4) 推荐(2) 编辑
摘要:学习 HanLP 需要了解, 双数组Trie树 (Double-array Trie) Aho-Corasick DoubleArrayTire 算法 ACDAT - 基于双数组字典树的AC自动机 TreeMap pip install hanlp[full] -i https://pypi.tun 阅读全文
posted @ 2023-11-27 13:47 VipSoft 阅读(35) 评论(0) 推荐(0) 编辑
摘要:双数组字典树能在O(1)(1是模式串长度)时间内高速完成单串匹配,并且内存消耗可控,然而软肋在于多模式匹配。如果要匹配多个模式串,必须先实现前缀查询,然后频繁截取文本后缀才可多匹配。比如 ushers、shers、hers…这样一份文本要回退扫描多遍,性能较低。既然 AC 自动机的goto表本身就是 阅读全文
posted @ 2023-11-06 12:32 VipSoft 阅读(506) 评论(0) 推荐(1) 编辑

点击右上角即可分享
微信分享提示