2020 年 4月随笔档案 - 今夜无风

根据传统的TFIDF快速进行相似性匹配

摘要：一个比较规整的特征映射及相似数据查询模块，留着备用： import gc import tqdm import numpy as np from gensim import corpora, models, similarities from sentence import Sentence fro 阅读全文

posted @ 2020-04-29 20:02 今夜无风阅读(718) 评论(0) 推荐(0) 编辑

用户推荐类知识点重塑

摘要：信息来源：智能推荐算法在直播场景中的应用，王洋作者通过工程实践的角度介绍了直播过程中的用户推荐，几个重点总结一下。 1.数据的隐式反馈和显式反馈 2.显式反馈常用方法 3.隐式反馈常用方法线上使用： 4.优缺点分析召回模型是一种粗排思想，特点就是速度快 5. 特征分析 6.模型训练及更新阅读全文

posted @ 2020-04-29 19:42 今夜无风阅读(173) 评论(0) 推荐(0) 编辑

使用lsh快速检索语义-词向量结合

摘要：""" test """ import os import gensim import pickle import time import numpy as np DIR_PATH = os.path.dirname(os.path.abspath(__file__)) HASHTABLES = o 阅读全文

posted @ 2020-04-28 17:54 今夜无风阅读(426) 评论(0) 推荐(0) 编辑

海量数据检索的利器

摘要：检索：解决的最大问题就是如何做到低延迟、快速匹配采用局部敏感哈希：lsh FaceBook的开源数据包：pysparnn 解决问题：稀疏数据的近邻搜索！源代码网址:http://www.github.com/facebookresearch/pysparnn 测试源码： """ test """ 阅读全文

posted @ 2020-04-27 15:52 今夜无风阅读(356) 评论(0) 推荐(0) 编辑

关于jieba用户自定义字典的一点使用说明

摘要：jieba的用户自定义分词字典能够有效提升任务性能，必不可少。在此之前，一直使用"user_dict.txt"为“txt”后缀的加载方式： jieba.load_userdict("./user_dict.txt") 但是当前为了保存加密需求，必须要对txt数据做序列化操作，起到一定的加密作用。通阅读全文

posted @ 2020-04-26 15:11 今夜无风阅读(3049) 评论(0) 推荐(0) 编辑

Python保存json文件并格式化

摘要：构件好保存对象时，对json数据格式化存储有助于数据观察和规整 json.dump()的时候设置一下indent参数的值就ok 比如json.dump(json_dict, f, indent=4)，indent控制缩进 ensure_ascii=False，写入读取中文形式阅读全文

posted @ 2020-04-26 14:40 今夜无风阅读(2515) 评论(0) 推荐(0) 编辑

问答系统实践（一）：中文检索式问答机器人初探

摘要：答案选择技术最实质的应用就是用于检索式问答系统，本专栏本来是以介绍论文为主的，但是经过这段时间的沉淀，个人真心觉得论文看得再多，如果不将论文中的技术用于实际应用中也只是知其一不知其二，因此我尝试着将自己的实践分享出来，个人水平一般，但是希望与大家交流，一起进步！检索式问答系统最典型的一个例子就是F 阅读全文

posted @ 2020-04-24 15:19 今夜无风阅读(1277) 评论(1) 推荐(0) 编辑

albert实际应用中初步评估

摘要：bert的在推理性能是无可置疑的，将之应用到实际任务中，其实，重点就是要解决如何提高推理速度。albert是对bert的精简和优化，可以将之应用到项目。最近，做了一个测试： 1.数据源：tnews数据集，均是短文本，15个类别，形式如下 2.原始albert模型，~16M，如下 3.微调出ckpt模阅读全文

posted @ 2020-04-21 11:44 今夜无风阅读(461) 评论(0) 推荐(0) 编辑

NVIDIA's Triton/TensorRT的Transformer语言模型性能评测与优化指南

摘要：工程实际上线部署，综合考虑并发和延迟，这块做了一个调研，希望能有所帮助。地址：https://blog.einstein.ai/benchmarking-tensorrt-inference-server/ 阅读全文

posted @ 2020-04-21 11:22 今夜无风阅读(1476) 评论(0) 推荐(0) 编辑

NLP Best Practices - 在工业领域的最佳应用模型

摘要：地址：https://github.com/microsoft/nlp-recipes 结合实践列举一些能够工业化应用的成熟工程阅读全文

posted @ 2020-04-21 11:17 今夜无风阅读(299) 评论(0) 推荐(0) 编辑

Bert模型精简方法

摘要：BERT六大瘦身大法网络剪枝：包括从模型中删除一部分不太重要的权重从而产生稀疏的权重矩阵，或者直接去掉与注意力头相对应的整个矩阵等方法来实现模型的剪枝，还有一些模型通过正则化方法实现剪枝。低秩分解：即将原来大的权重矩阵分解多个低秩的小矩阵从而减少了运算量。这种方法既可以用于标记嵌入以节省磁盘内存阅读全文

posted @ 2020-04-16 17:12 今夜无风阅读(662) 评论(0) 推荐(0) 编辑

bat脚本乱码问题

摘要：当在执行时，由于中文或者“@”符号产生的乱码，影响了bat脚本执行。通过如下方法解决： bat文件右键用“ 编辑” 打开，另存为时，UTF-8保存为ANSI 格式。再执行你的bat批处理，结果ok 阅读全文

posted @ 2020-04-14 10:25 今夜无风阅读(491) 评论(0) 推荐(0) 编辑

关于模型预测结果的保存问题

摘要：从近几次做的工具来看，最终模型命中的数据总是要保存到本地，便于溯源。从便捷性来考虑，python自带的sqlite3是不错的选择。数据库的使用并不存在难度，常用的sql语句即可实现增删改查。同时，为了业务需要，还要对数据库结果加密。简单的使用： import sqlite3 def create 阅读全文

posted @ 2020-04-13 09:17 今夜无风阅读(584) 评论(0) 推荐(0) 编辑

04 2020 档案

公告