随笔分类 -  NLP

上一页 1 2 3 4 5 6 7 8 9 ··· 12 下一页
摘要:卷友们好,我是rumor。 NLP最赚钱的落地莫属搜索、广告、推荐三大场景了,今天我们就向钱看,来了解下作为NLP算法工程师,怎样在互联网最主要的三个场景里发光发热,同时蹭得一份业绩。 搜广推这三个场景的架构都差不多,主要就是通过对内容/商品的召回和排序,来优化Query-Doc的匹配结果。可以将这 阅读全文
posted @ 2021-05-14 18:08 今夜无风 阅读(1249) 评论(0) 推荐(0) 编辑
摘要:在早先,单向语言模型广泛应用于文本处理;随之bert双向语言模型诞生后,对语义的捕捉能力更强大。应用之一就是对句子打分,通过生成每个字符的先验概率构建评估体系。 参考源码:https://github.com/xu-song/bert-as-language-model 阅读全文
posted @ 2021-05-10 10:22 今夜无风 阅读(359) 评论(0) 推荐(0) 编辑
摘要:转换成pb模型,设定多输出 def fun(): """ 保留bert第一层和第二层信息""" OUTPUT_GRAPH = 'pb_model/query_encoder.pb' output_node = ["loss/Softmax", "bert/pooler/dense/Tanh", "M 阅读全文
posted @ 2021-05-08 20:14 今夜无风 阅读(147) 评论(0) 推荐(0) 编辑
摘要:需求:顺序加载多个计算图时,会导致第二个计算图后变量 不可用,在程序初始化中解决该问题(一下代码没有做优化,请读者自行修正) class BertEncoder(object): """ model """ def __init__(self, OUTPUT_GRAPH, OUT_TENSOR): 阅读全文
posted @ 2021-04-23 18:29 今夜无风 阅读(187) 评论(0) 推荐(0) 编辑
摘要:首先我们看操作手册: 在想要快速计算特定维度上的求和使用该方法,如: 阅读全文
posted @ 2021-04-21 11:13 今夜无风 阅读(159) 评论(0) 推荐(0) 编辑
摘要:通常,我们使用bert做文本分类,泛化性好、表现优秀。在进行文本相似性计算任务时,往往是对语料训练词向量,再聚合文本向量embedding数据,计算相似度;但是,word2vec是静态词向量,表征能力有限,此时,可以用已进行特定环境下训练的bert模型,抽取出cls向量作为整个句子的表征向量以供下游 阅读全文
posted @ 2021-04-14 18:25 今夜无风 阅读(2396) 评论(0) 推荐(0) 编辑
摘要:侧重点一:点击率(Click Through Rate, 缩写为CTR):为点击条目的个数除以总条目个数。 侧重点二:K位准确率(Precision@K):为在最好的K个推荐的条目中获得的点击数除以K。 侧重点三:归一化折扣累计收益(Normalized Discounted Cumulative 阅读全文
posted @ 2021-04-10 17:34 今夜无风 阅读(341) 评论(0) 推荐(0) 编辑
摘要:重要组件:1.query解析;2.目标召回;3.目标排序 解决问题:1.语义检索问题;2.个性化检索问题 如何召回语义上相似但没有明确和query项匹配的物品 针对不同的人相同的搜索词,希望召回一些个性化的物品,较为发散 应用依据:电商领域最常用的召回当属item-based CF,此类方法根据it 阅读全文
posted @ 2021-04-06 18:27 今夜无风 阅读(305) 评论(0) 推荐(0) 编辑
摘要:最好的trick就是保证数据精准前提下,如无必要,不要采样。既然数据是模型的上限,就不应该破坏这个上限。 聊聊什么是精准。 很多号称数据清洗的工作,都是工程体系太弱的后果,其实不是算法的问题。比如,没有曝光日志,用了服务端日志,伪曝光做了负样本;没有准确的曝光日志,比如卡片漏出了一个头用户根本没看到 阅读全文
posted @ 2021-03-30 21:16 今夜无风 阅读(2102) 评论(0) 推荐(0) 编辑
摘要:目标:二分类 网络:DNN 损失:二元交叉熵 代码: import numpy as np import tensorflow as tf from sklearn.datasets import make_blobs from matplotlib import pyplot as plt fro 阅读全文
posted @ 2021-03-30 18:25 今夜无风 阅读(150) 评论(0) 推荐(0) 编辑
摘要:借助sklearn工具,生成类别数据供使用,快速、便捷。 官方说明: make_blobs函数是为聚类产生数据集 产生一个数据集和相应的标签 n_samples:表示数据样本点个数,默认值100 n_features:表示数据的维度,默认值是2 centers:产生数据的中心点,默认值3 clust 阅读全文
posted @ 2021-03-30 18:21 今夜无风 阅读(698) 评论(0) 推荐(0) 编辑
摘要:CTR预估是当今推荐策略中的重要任务,结合NLP可以发挥更大的作用,接下来我们一起来学习整个流程,以2019年的paper为例开始吧。 大家可以先刷一遍paper,胸中有大概;随后,github上DeepCTR模块,有大佬写的fgcnn.py可以沿其主线走。Let's go! 1. 数据:crite 阅读全文
posted @ 2021-03-29 22:07 今夜无风 阅读(239) 评论(2) 推荐(0) 编辑
摘要:1.深度模型增加参数空间,提高拟合能力; 2.Attention机制捕捉各基础特征间的关联信息,组合性更加强悍; 3.文本多标签预测难度较大,采用0,1进行label表示。 以下给出模型类供参考,分类效果很不错: class BaseClassier(object): def __init__(se 阅读全文
posted @ 2021-03-29 17:14 今夜无风 阅读(1045) 评论(0) 推荐(0) 编辑
摘要:多模态数字内容生成,泛指利用AI生成技术生成图像、视频、语音、文本、音乐等内容的合成技术。自然语言处理领域的GPT-3和计算机视觉领域的Deepfake让多模态数字内容生成,成为AI领域最受关注的技术方向之一。生成式AI也是2020首次进入Gartner技术成熟度曲线,跟踪其成熟度和未来潜力。在京东 阅读全文
posted @ 2021-03-09 10:06 今夜无风 阅读(1163) 评论(0) 推荐(0) 编辑
摘要:作为人工智能领域中热度最高、挑战最大的子领域之一,自然语言处理(NLP)在最近几年得到了飞速的发展。2020 年我们又迎来了 GPT-3,1750 亿参数让其自诞生就引起了开发者们的激烈讨论。短短一年时间,知识图谱的成熟度由萌芽期一跃达到预期膨胀高峰且非常接近最高点… 近日,京东科技算法科学家、高级 阅读全文
posted @ 2021-03-08 22:26 今夜无风 阅读(480) 评论(0) 推荐(0) 编辑
摘要:在工程应用中,有时会用到一些辅助模块提高性能指标,如在营业执照识别中,有识别name这一功能,但针对分类来说效果是比较差的,需要ner专门识别,但独立训练就比较鸡肋,此时可以借助相应工具。如deepner组件: 1) 安装 pip install deep-text pip install deep 阅读全文
posted @ 2021-03-04 20:37 今夜无风 阅读(186) 评论(0) 推荐(0) 编辑
摘要:例如,查找包含有“hello"关键词的行: cat file.txt | grep hello #实现查看关键字的所有行 cat file.txt | grep hello head -n 100 #实现查看关键字的前100行 cat file.txt | grep hello | tail -n 阅读全文
posted @ 2020-12-02 10:26 今夜无风 阅读(2317) 评论(0) 推荐(0) 编辑
摘要:使用pandas在做“与”操作时,居然要将各自的条件使用括号🔗起来,不知是何原因 x = new_df[(new_df['query_position'].isin(job_list)) & (new_df['job_position'].isin(job_list)) & (new_df['pa 阅读全文
posted @ 2020-12-01 10:52 今夜无风 阅读(74) 评论(0) 推荐(0) 编辑
摘要:今天恶补一下遗留的知识点,在sh文件中,注意以下几点: 1)首行最好加上:#!/bin/bash 2)$0 就是你写的shell脚本本身的名字,$1 是你给你写的shell脚本传的第一个参数,$2 是你给你写的shell脚本传的第二个参数 例子, 新建test.sh: #!/bin/sh expor 阅读全文
posted @ 2020-11-26 11:16 今夜无风 阅读(477) 评论(0) 推荐(0) 编辑
摘要:最近在做文本分类任务,由于在实际工程中需要用服务对外提供功能,故采用java调用pb模型完成推理,特将过程记录如下: 1. transform文本分类 package com.techwolf.transformer; import com.alibaba.fastjson.*; import co 阅读全文
posted @ 2020-10-30 17:30 今夜无风 阅读(2117) 评论(2) 推荐(0) 编辑

上一页 1 2 3 4 5 6 7 8 9 ··· 12 下一页
点击右上角即可分享
微信分享提示