摘要: 算法入门第一题 二分查找 思路:在一个升序的list中,用中间数(mid)来进行匹配,如果target比中间数大,说明target在list右边,left=mid+1,如果target比中间数小,说明target在list左边,right=mid-1 from typing import List 阅读全文
posted @ 2023-11-21 17:46 TW-NLP 阅读(8) 评论(0) 推荐(0) 编辑
摘要: 对于NLP来说,正则表达式在模版比较固定的场景发挥着至关重要的作用,下面来介绍一下正则表达式的一些基本的使用,我们用python的re模块来实现我们的功能。 1、匹配单个字符 字符 功能 . 匹配任意的一个字符(除了“\n”) [] 匹配[]中列举的字符 \d 匹配数字(0-9) \D 匹配非数字 阅读全文
posted @ 2023-11-13 13:47 TW-NLP 阅读(9) 评论(0) 推荐(0) 编辑
摘要: 对偏差和方差的理解 偏差是模型的预测值与你真实的点之间区别的位移,方差是指每次学习的东西差别多大。 假设训练了五个模型,然后我让这五个模型去预测,如下图所示,蓝色点是我预测的,黄色的框里面是可以接受的范围,如果蓝色的点在圈里面,并且预测的点比较集中,那么就是低方差和低偏差;若蓝色的点都在圈外,但是预 阅读全文
posted @ 2023-11-11 11:13 TW-NLP 阅读(61) 评论(0) 推荐(0) 编辑
摘要: 基于BERT的文本分类任务 1、问题分析 文本分类作为NLP的入门任务,因为其应用广泛被大家熟知,文本以今年的竞赛为例,详细的说明一下文本分类任务的实现步骤,竞赛如下: 因为该赛题是一个文本分类的任务,我们需要知道该任务的输入和输出,数据介绍如下,根据数据我们可以看出文本的输入分别是专利的title 阅读全文
posted @ 2023-11-08 17:22 TW-NLP 阅读(46) 评论(0) 推荐(1) 编辑
摘要: 注意力机制的原理和实现 在Attention出来之前,以前人们使用RNN和CNN来获得语义信息,但是RNN需要逐步递归才可以获得全局的信息,而通过滑动窗口进行编码的CNN,更侧重于捕获局部信息,难以建模长距离的语义依赖。Attention可以使得每个词具有上下文的语义信息。 1、原理 Attenti 阅读全文
posted @ 2023-11-07 14:37 TW-NLP 阅读(59) 评论(0) 推荐(0) 编辑
摘要: 自然语言处理概述 以前的自然语言大多数停留在去根据业务来编写相应的规则来解决实际的问题,但是仅仅靠手工编写的规则是无法覆盖全部的内容,而且不同的规则之间也具有一定的矛盾,随着统计学的发展,人们逐渐的用统计的思想去解决一些实际的问题,例如马尔可夫假设,即一个词语出现的概率取决于它前面出现的所有词,但是 阅读全文
posted @ 2023-11-06 16:53 TW-NLP 阅读(62) 评论(0) 推荐(0) 编辑