随笔分类 -  NLP

上一页 1 ··· 3 4 5 6 7 8 9 10 11 12 下一页
摘要:def count_factors(): n = int(input('input the num:')) num = n res = [] while n > 1: for i in range(2, n+1): if n % i == 0: n = int(n/i) res.append(i) 阅读全文
posted @ 2020-06-28 19:43 今夜无风 阅读(2074) 评论(0) 推荐(0) 编辑
摘要:资料来源:https://www.cnblogs.com/Luv-GEM/p/10884493.html TextRank算法源自于PageRank算法。PageRank算法最初是作为互联网网页排序的方法,经过轻微地改动,可以被应用于文本摘要领域。 本文分为两部分,第一部分介绍TextRank做文本 阅读全文
posted @ 2020-06-28 11:13 今夜无风 阅读(973) 评论(0) 推荐(0) 编辑
摘要:(1)为什么残差学习的效果会如此的好?与其他论文相比,深度残差学习具有更深的网络结构,此外,残差学习也是网络变深的原因?为什么网络深度如此的重要? 解:一般认为神经网络的每一层分别对应于提取不同层次的特征信息,有低层,中层和高层,而网络越深的时候,提取到的不同层次的信息会越多,而不同层次间的层次信息 阅读全文
posted @ 2020-06-22 20:38 今夜无风 阅读(208) 评论(0) 推荐(0) 编辑
摘要:(1)Gaussian 满足mean=0,std=1的高斯分布x∼N(mean,std2) (2)Xavier 满足x∼U(−a,+a)x∼U(−a,+a)的均匀分布, 其中 a = sqrt(3/n) (3)MSRA 满足x∼N(0,σ2)x∼N(0,σ2)的高斯分布,其中σ = sqrt(2/n 阅读全文
posted @ 2020-06-22 20:35 今夜无风 阅读(773) 评论(0) 推荐(0) 编辑
摘要:#!/usr/bin/env python # -*- coding: utf-8 -*- # author:ShidongDu time:2020/6/3 import time import pandas as pd import re # 结点类 class node: def __init_ 阅读全文
posted @ 2020-06-11 14:46 今夜无风 阅读(284) 评论(0) 推荐(0) 编辑
摘要:ner(命名实体识别)一般是词典和模型方式结合,词典负责已有词识别,模型负责未知词识别。 在不需发现未知词的情况下基于词典的实体识别已足够 基于字典的ner也有两种做法:字符串多模匹配 和 切词(词典加入自定义词库) 字符串多模匹配多模匹配有两种基本算法:trie树 和 记录长度集合的最长匹配 tr 阅读全文
posted @ 2020-06-11 14:37 今夜无风 阅读(3001) 评论(0) 推荐(1) 编辑
摘要:python 实现 def edit_distance(word1, word2): len1 = len(word1) len2 = len(word2) dp = np.zeros((len1 + 1,len2 + 1)) for i in range(len1 + 1): dp[i][0] = 阅读全文
posted @ 2020-06-10 15:22 今夜无风 阅读(245) 评论(0) 推荐(0) 编辑
摘要:点互信息算法(PMI) 基本思想:是统计两个词语在文本中同时出现的概率,如果概率越大,其相关性就越紧密,关联度越高。 PMI > 0;两个词语是相关的;值越大,相关性越强。 PMI = 0;两个词语是统计独立的,不相关也不互斥。 PMI < 0;两个词语是不相关的,互斥的。 从概率思想理解: 如果两 阅读全文
posted @ 2020-06-10 14:58 今夜无风 阅读(1979) 评论(0) 推荐(0) 编辑
摘要:有时候经常容易忘一些快速的数据实现结构,从此做一些记录。 1. 根据二维数组首元素排序,如下: data = [[2,3],[5,4],[9,6],[4,7],[8,1]] data.sort(key=lambda x:x[0]) print(data) [[2, 3], [4, 7], [5, 4 阅读全文
posted @ 2020-05-20 09:12 今夜无风 阅读(318) 评论(0) 推荐(0) 编辑
摘要:自动识别语料库中词汇的频率分布 方法描述 fdist=FreqDist(samples) 创建包含给定样本的频率分布(samples可以是nltk.text.Text、空格分割的字符串、列表或者其他) fdist.inc(sample) 增加样本 fdist[word] word在样本中出现的次数 阅读全文
posted @ 2020-05-18 14:18 今夜无风 阅读(475) 评论(0) 推荐(0) 编辑
摘要:地址:https://github.com/Tencent/wwsearch/blob/master/doc/wwsearch-implement.md 背景 企业微信作为典型企业服务系统,其众多企业级应用都需要全文检索能力,包括员工通讯录、企业邮箱、审批、汇报、企 业CRM、企业素材、互联圈子等。 阅读全文
posted @ 2020-05-07 16:19 今夜无风 阅读(768) 评论(0) 推荐(0) 编辑
摘要:功能实现: input: 查询词 output:存现的对应的文档中的所有行号id 实现: 阅读全文
posted @ 2020-05-07 15:29 今夜无风 阅读(245) 评论(0) 推荐(0) 编辑
摘要:对一段文本中的人、事、地、物、组织、时间等关键要素进行抽取,以为下游提供数据支撑。针对时间抽取,发现一个小工具,分享给大家: 开源地址: https://github.com/zhanzecheng/Time_NLP 功能: 用于句子中时间词的抽取和转换 使用示例: res = tn.parse(t 阅读全文
posted @ 2020-05-07 09:27 今夜无风 阅读(1516) 评论(0) 推荐(0) 编辑
摘要:一个比较规整的特征映射及相似数据查询模块,留着备用: import gc import tqdm import numpy as np from gensim import corpora, models, similarities from sentence import Sentence fro 阅读全文
posted @ 2020-04-29 20:02 今夜无风 阅读(720) 评论(0) 推荐(0) 编辑
摘要:信息来源:智能推荐算法在直播场景中的应用,王洋 作者通过工程实践的角度介绍了直播过程中的用户推荐,几个重点总结一下。 1.数据的隐式反馈和显式反馈 2.显式反馈常用方法 3.隐式反馈常用方法 线上使用: 4.优缺点分析 召回模型是一种粗排思想,特点就是速度快 5. 特征分析 6.模型训练及更新 阅读全文
posted @ 2020-04-29 19:42 今夜无风 阅读(174) 评论(0) 推荐(0) 编辑
摘要:""" test """ import os import gensim import pickle import time import numpy as np DIR_PATH = os.path.dirname(os.path.abspath(__file__)) HASHTABLES = o 阅读全文
posted @ 2020-04-28 17:54 今夜无风 阅读(427) 评论(0) 推荐(0) 编辑
摘要:检索:解决的最大问题就是如何做到低延迟、快速匹配 采用局部敏感哈希:lsh FaceBook的开源数据包:pysparnn 解决问题:稀疏数据的近邻搜索! 源代码网址:http://www.github.com/facebookresearch/pysparnn 测试源码: """ test """ 阅读全文
posted @ 2020-04-27 15:52 今夜无风 阅读(357) 评论(0) 推荐(0) 编辑
摘要:jieba的用户自定义分词字典能够有效提升任务性能,必不可少。 在此之前,一直使用"user_dict.txt"为“txt”后缀的加载方式: jieba.load_userdict("./user_dict.txt") 但是当前为了保存加密需求,必须要对txt数据做序列化操作,起到一定的加密作用。通 阅读全文
posted @ 2020-04-26 15:11 今夜无风 阅读(3052) 评论(0) 推荐(0) 编辑
摘要:构件好保存对象时,对json数据格式化存储有助于数据观察和规整 json.dump()的时候设置一下indent参数的值就ok 比如json.dump(json_dict, f, indent=4),indent控制缩进 ensure_ascii=False,写入读取中文形式 阅读全文
posted @ 2020-04-26 14:40 今夜无风 阅读(2516) 评论(0) 推荐(0) 编辑
摘要:答案选择技术最实质的应用就是用于检索式问答系统,本专栏本来是以介绍论文为主的,但是经过这段时间的沉淀,个人真心觉得论文看得再多,如果不将论文中的技术用于实际应用中也只是知其一不知其二,因此我尝试着将自己的实践分享出来,个人水平一般,但是希望与大家交流,一起进步! 检索式问答系统最典型的一个例子就是F 阅读全文
posted @ 2020-04-24 15:19 今夜无风 阅读(1281) 评论(1) 推荐(0) 编辑

上一页 1 ··· 3 4 5 6 7 8 9 10 11 12 下一页
点击右上角即可分享
微信分享提示