随笔分类 -  NLP学习

摘要:一、概念 逻辑回归一般用于解决二分类的问题。即结果为(0或1)的预测。也可以用于多分类。 二、举例 我们将X(年龄,工资,学历) 作为输入,通过上边数据的学习,来判断最后一个人逾期的概率。 这时,可以定义一个条件概率公式P(Y | X) 根据这个公式我们可以尝试将第一条数据表示出来P(Y=1|(20 阅读全文
posted @ 2020-09-20 19:43 星际毁灭 阅读(691) 评论(0) 推荐(0) 编辑
摘要:任务目标:通过已有的训练数据,将每个单词的词性标记出来。 知识储备: 1.计算语言模型 思路:假设每句话经过分词表示为 (w1,w2,w3,... wi ) 对应的每个单词的词性记为(z1,z2,z3,... zi) 求 则语言模型 z = P(w1,w2,w3,... wi | z1,z2,z3, 阅读全文
posted @ 2020-08-27 11:40 星际毁灭 阅读(409) 评论(0) 推荐(0) 编辑
摘要:1.在线安装 但是在安装过程中经常会报错可能是资源问题,下载不下来。推荐使用离线安装 2.离线安装 下载nltk的数据文件。 链接:https://pan.baidu.com/s/1DPCIRe9N80hgw9OKFPIOvA 提取码:e52y 下载之后,需要将其解压,放到执行第一步代码的路径下。 阅读全文
posted @ 2020-08-08 10:46 星际毁灭 阅读(2912) 评论(0) 推荐(0) 编辑
摘要:一、知识储备 1.单词的编辑距离 这个概念表示的就是一个单词经过几次编辑形成新的单词。这个编辑包含了增加,删除,替换三种。例如 apple 的编辑距离为 1 的单词可以有 aapple bapple pple aple bpple 等,这就是所谓的编辑距离。如果需要得到编辑距离为2的单词。只需要在编 阅读全文
posted @ 2020-08-08 10:40 星际毁灭 阅读(398) 评论(0) 推荐(0) 编辑
摘要:1.使用枚举算法实现分词 根据已有的词典进行分词,将所有分词的可能性列举出来,并且根据各个词出现概率进行path求和,得到的最大或者-log的最小,即为最好的分词结果。并将结果返回 算法实现如下: # TODO: 第一步 import xlrd import numpy as np # : 从dic 阅读全文
posted @ 2020-07-28 20:08 星际毁灭 阅读(421) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示