随笔分类 -  python

摘要:最近将之前所做项目查阅的资料进行汇总,比较琐碎,希望有些知识点或者想法能帮助到你。 参考文献地址:https://blog.csdn.net/u011412768/article/details/93404921https://blog.csdn.net/a2639491403/article/de 阅读全文
posted @ 2022-01-20 10:09 今夜无风 阅读(391) 评论(0) 推荐(0) 编辑
摘要:直接上代码 def n_grams(s, n): # 计算分词后的n-gram s:list tokens n: gram num result = [] for i in range(len(s)-n+1): res = "".join(s[i:i+n]) result.append(res) r 阅读全文
posted @ 2021-12-07 22:23 今夜无风 阅读(396) 评论(0) 推荐(0) 编辑
摘要:[ ]+的意思是大于0取原值,小于0则取0。这叫做合页损失函数,训练方法叫做margin-based ranking criterion。此loss函数来自SVM,目的是将正和负尽可能分开。一般margin=1。 其中d是L1或L2的距离,表示h+r向量与t向量之间的距离。 资料:https://w 阅读全文
posted @ 2021-08-27 11:39 今夜无风 阅读(1265) 评论(0) 推荐(0) 编辑
摘要:torch.nn.Module.apply(fn) # 递归的调用weights_init函数,遍历nn.Module的submodule作为参数 # 常用来对模型的参数进行初始化 # fn是对参数进行初始化的函数的句柄,fn以nn.Module或者自己定义的nn.Module的子类作为参数 # f 阅读全文
posted @ 2021-08-20 16:45 今夜无风 阅读(775) 评论(0) 推荐(0) 编辑
摘要:在早先,单向语言模型广泛应用于文本处理;随之bert双向语言模型诞生后,对语义的捕捉能力更强大。应用之一就是对句子打分,通过生成每个字符的先验概率构建评估体系。 参考源码:https://github.com/xu-song/bert-as-language-model 阅读全文
posted @ 2021-05-10 10:22 今夜无风 阅读(359) 评论(0) 推荐(0) 编辑
摘要:话不多说,直接上重点: 本质:Python函数功能:可以让其他函数在不需要做任何代码变动的前提下增加额外功能,装饰器的返回值也是一个函数对象主要需求场景:性能测试、插入日志、事务处理、缓存、权限校验等优势:可以抽离出大量与函数功能本身无关的雷同代码并继续重用,即:为已经存在的对象添加额外的功能 实验 阅读全文
posted @ 2021-04-16 16:01 今夜无风 阅读(53) 评论(0) 推荐(0) 编辑
摘要:tfrecord数据文件是一种将图像数据和标签统一存储的二进制文件,能更好的利用内存,在tensorflow中快速的复制,移动,读取,存储等。尤其在面对海量数据时,使用常用的内存读取方式变得不切实际,tfrecored方式为我们带来了更大的便捷,同时还可以配合shuffe大大提高model的trai 阅读全文
posted @ 2020-10-09 21:56 今夜无风 阅读(374) 评论(0) 推荐(0) 编辑
摘要:在过去的一年里,我和我的团队一直致力于为 Taboola feed 提供个性化用户体验。我们运用多任务学习(Multi-Task Learning,MTL),在相同的输入特征集上预测多个关键性能指标(Key Performance Indicator,KPI),然后使用 TensorFlow 实现深 阅读全文
posted @ 2020-07-10 15:47 今夜无风 阅读(1294) 评论(0) 推荐(0) 编辑
摘要:有时候经常容易忘一些快速的数据实现结构,从此做一些记录。 1. 根据二维数组首元素排序,如下: data = [[2,3],[5,4],[9,6],[4,7],[8,1]] data.sort(key=lambda x:x[0]) print(data) [[2, 3], [4, 7], [5, 4 阅读全文
posted @ 2020-05-20 09:12 今夜无风 阅读(317) 评论(0) 推荐(0) 编辑
摘要:对一段文本中的人、事、地、物、组织、时间等关键要素进行抽取,以为下游提供数据支撑。针对时间抽取,发现一个小工具,分享给大家: 开源地址: https://github.com/zhanzecheng/Time_NLP 功能: 用于句子中时间词的抽取和转换 使用示例: res = tn.parse(t 阅读全文
posted @ 2020-05-07 09:27 今夜无风 阅读(1508) 评论(0) 推荐(0) 编辑
摘要:一个比较规整的特征映射及相似数据查询模块,留着备用: import gc import tqdm import numpy as np from gensim import corpora, models, similarities from sentence import Sentence fro 阅读全文
posted @ 2020-04-29 20:02 今夜无风 阅读(718) 评论(0) 推荐(0) 编辑
摘要:信息来源:智能推荐算法在直播场景中的应用,王洋 作者通过工程实践的角度介绍了直播过程中的用户推荐,几个重点总结一下。 1.数据的隐式反馈和显式反馈 2.显式反馈常用方法 3.隐式反馈常用方法 线上使用: 4.优缺点分析 召回模型是一种粗排思想,特点就是速度快 5. 特征分析 6.模型训练及更新 阅读全文
posted @ 2020-04-29 19:42 今夜无风 阅读(173) 评论(0) 推荐(0) 编辑
摘要:""" test """ import os import gensim import pickle import time import numpy as np DIR_PATH = os.path.dirname(os.path.abspath(__file__)) HASHTABLES = o 阅读全文
posted @ 2020-04-28 17:54 今夜无风 阅读(426) 评论(0) 推荐(0) 编辑
摘要:jieba的用户自定义分词字典能够有效提升任务性能,必不可少。 在此之前,一直使用"user_dict.txt"为“txt”后缀的加载方式: jieba.load_userdict("./user_dict.txt") 但是当前为了保存加密需求,必须要对txt数据做序列化操作,起到一定的加密作用。通 阅读全文
posted @ 2020-04-26 15:11 今夜无风 阅读(3049) 评论(0) 推荐(0) 编辑
摘要:构件好保存对象时,对json数据格式化存储有助于数据观察和规整 json.dump()的时候设置一下indent参数的值就ok 比如json.dump(json_dict, f, indent=4),indent控制缩进 ensure_ascii=False,写入读取中文形式 阅读全文
posted @ 2020-04-26 14:40 今夜无风 阅读(2515) 评论(0) 推荐(0) 编辑
摘要:答案选择技术最实质的应用就是用于检索式问答系统,本专栏本来是以介绍论文为主的,但是经过这段时间的沉淀,个人真心觉得论文看得再多,如果不将论文中的技术用于实际应用中也只是知其一不知其二,因此我尝试着将自己的实践分享出来,个人水平一般,但是希望与大家交流,一起进步! 检索式问答系统最典型的一个例子就是F 阅读全文
posted @ 2020-04-24 15:19 今夜无风 阅读(1277) 评论(1) 推荐(0) 编辑
摘要:当在执行时,由于中文或者“@”符号产生的乱码,影响了bat脚本执行。通过如下方法解决: bat文件右键用“ 编辑” 打开, 另存为时,UTF-8保存为ANSI 格式。 再执行你的bat批处理,结果ok 阅读全文
posted @ 2020-04-14 10:25 今夜无风 阅读(491) 评论(0) 推荐(0) 编辑
摘要:从近几次做的工具来看,最终模型命中的数据总是要保存到本地,便于溯源。从便捷性来考虑,python自带的sqlite3是不错的选择。 数据库的使用并不存在难度,常用的sql语句即可实现增删改查。同时,为了业务需要,还要对数据库结果加密。 简单的使用: import sqlite3 def create 阅读全文
posted @ 2020-04-13 09:17 今夜无风 阅读(584) 评论(0) 推荐(0) 编辑
摘要:在去年11月份,NLP大神Manning联合谷歌做的ELECTRA一经发布,迅速火爆整个NLP圈,其中ELECTRA-small模型参数量仅为 BERT-base模型的1/10,性能却依然能与BERT、RoBERTa等模型相媲美。 在前不久,谷歌终于开源了ELECTRA,并发布了预训练模型,这对于缺 阅读全文
posted @ 2020-03-26 11:15 今夜无风 阅读(970) 评论(0) 推荐(0) 编辑
摘要:之前在研究lsh算法,糊里糊涂的,但是该算法的高速性能让我还是得把他搞懂。 借鉴之前阅读的各个大佬博客,从相思能推荐的角度完善了一版代码,花了两天时间才调试出来,看看以后能不能用得上。大家有需求的可以直接使用了,福利满满。嘎嘎嘎 功能:已知一个样本的二进制特征向量,从特征中心中找出特征相似的样本 源 阅读全文
posted @ 2020-03-25 19:21 今夜无风 阅读(1413) 评论(0) 推荐(1) 编辑

点击右上角即可分享
微信分享提示