03 2021 档案
摘要:最好的trick就是保证数据精准前提下,如无必要,不要采样。既然数据是模型的上限,就不应该破坏这个上限。 聊聊什么是精准。 很多号称数据清洗的工作,都是工程体系太弱的后果,其实不是算法的问题。比如,没有曝光日志,用了服务端日志,伪曝光做了负样本;没有准确的曝光日志,比如卡片漏出了一个头用户根本没看到
阅读全文
摘要:目标:二分类 网络:DNN 损失:二元交叉熵 代码: import numpy as np import tensorflow as tf from sklearn.datasets import make_blobs from matplotlib import pyplot as plt fro
阅读全文
摘要:借助sklearn工具,生成类别数据供使用,快速、便捷。 官方说明: make_blobs函数是为聚类产生数据集 产生一个数据集和相应的标签 n_samples:表示数据样本点个数,默认值100 n_features:表示数据的维度,默认值是2 centers:产生数据的中心点,默认值3 clust
阅读全文
摘要:CTR预估是当今推荐策略中的重要任务,结合NLP可以发挥更大的作用,接下来我们一起来学习整个流程,以2019年的paper为例开始吧。 大家可以先刷一遍paper,胸中有大概;随后,github上DeepCTR模块,有大佬写的fgcnn.py可以沿其主线走。Let's go! 1. 数据:crite
阅读全文
摘要:1.深度模型增加参数空间,提高拟合能力; 2.Attention机制捕捉各基础特征间的关联信息,组合性更加强悍; 3.文本多标签预测难度较大,采用0,1进行label表示。 以下给出模型类供参考,分类效果很不错: class BaseClassier(object): def __init__(se
阅读全文
摘要:多模态数字内容生成,泛指利用AI生成技术生成图像、视频、语音、文本、音乐等内容的合成技术。自然语言处理领域的GPT-3和计算机视觉领域的Deepfake让多模态数字内容生成,成为AI领域最受关注的技术方向之一。生成式AI也是2020首次进入Gartner技术成熟度曲线,跟踪其成熟度和未来潜力。在京东
阅读全文
摘要:作为人工智能领域中热度最高、挑战最大的子领域之一,自然语言处理(NLP)在最近几年得到了飞速的发展。2020 年我们又迎来了 GPT-3,1750 亿参数让其自诞生就引起了开发者们的激烈讨论。短短一年时间,知识图谱的成熟度由萌芽期一跃达到预期膨胀高峰且非常接近最高点… 近日,京东科技算法科学家、高级
阅读全文
摘要:sql这块用的比较少,记录一下: SELECT user_id, concat_ws(',',collect_set(string(pc))) ALL FROM table.work GROUP BY user_id LIMIT 10;
阅读全文
摘要:在工程应用中,有时会用到一些辅助模块提高性能指标,如在营业执照识别中,有识别name这一功能,但针对分类来说效果是比较差的,需要ner专门识别,但独立训练就比较鸡肋,此时可以借助相应工具。如deepner组件: 1) 安装 pip install deep-text pip install deep
阅读全文