2019 年 7月随笔档案 - 吱吱了了

少量数据文本分类避免过拟合的方法

摘要：转载：https://www.cnblogs.com/jiangxinyang/p/10219709.html 1 概述虽说现在深度学习在文本分类上取得了很大的进步，但是很多时候在工业界没有与之匹配的数据量，在少量数据的情况下，使用深度学习很容易出现过拟合，而此时使用传统的TF-IDF加机器学习又阅读全文

posted @ 2019-07-31 11:47 吱吱了了阅读(616) 评论(0) 推荐(0) 编辑

Bert-util安装

摘要：转载：https://blog.csdn.net/u013109501/article/details/91987180 https://blog.csdn.net/Vancl_Wang/article/details/90349047 bert_utils: https://github.com/ 阅读全文

posted @ 2019-07-31 10:55 吱吱了了阅读(1766) 评论(2) 推荐(0) 编辑

NLP学习（3）---Bert模型

摘要：一、BERT模型：前提：Seq2Seq模型前提：transformer模型 bert实战教程1 使用BERT生成句向量，BERT做文本分类、文本相似度计算 bert中文分类实践用bert做中文命名实体识别 BERT相关资源 BERT相关论文、文章和代码资源汇总 1、WordEmbedding到阅读全文

posted @ 2019-07-25 17:38 吱吱了了阅读(1553) 评论(0) 推荐(0) 编辑

tensorflow实战笔记（20）----textRNN

摘要：https://www.cnblogs.com/jiangxinyang/p/10208227.html https://www.cnblogs.com/jiangxinyang/p/10241243.html 一、textRNN模型 https://www.jianshu.com/p/e2f807 阅读全文

posted @ 2019-07-24 18:02 吱吱了了阅读(794) 评论(0) 推荐(0) 编辑

tensorflow几个常见错误

摘要：错误一：二分类，标签y ValueError: Cannot feed value of shape (128,1) for Tensor u'input_y_2:0', which has shape '(?, 2)' 我的输入y_train维度为（128,1），即是一个向量，batch_size 阅读全文

posted @ 2019-07-23 19:43 吱吱了了阅读(1681) 评论(0) 推荐(0) 编辑

15、TDM模型

摘要：论文：https://arxiv.org/pdf/1801.02294.pdf 解析：学习基于树的推荐系统深度模型 Learning Tree-based DeepModel for Recommender Systems 阿里妈妈新突破：深度树匹配如何扛住千万级推荐系统压力推荐系统遇上深度学习阅读全文

posted @ 2019-07-22 14:32 吱吱了了阅读(1112) 评论(0) 推荐(0) 编辑

算法97：成绩排名---动态规划

摘要：思路：动态规划代码：思路：链接：https://www.nowcoder.com/questionTerminal/3e483fe3c0bb447bb17ffb3eeeca78ba来源：牛客网 dp[i[[j] 代表 index 从 i 到 j （包含 i 和 j）中的最大值所以： dp[i 阅读全文

posted @ 2019-07-20 21:12 吱吱了了阅读(380) 评论(0) 推荐(0) 编辑

Reservoir Sampling 蓄水池采样算法

摘要：https://blog.csdn.net/huagong_adu/article/details/7619665 https://www.jianshu.com/p/63f6cf19923d https://www.cnblogs.com/snowInPluto/p/5996269.html ht 阅读全文

posted @ 2019-07-18 19:55 吱吱了了阅读(987) 评论(0) 推荐(0) 编辑

14、RALM: 实时 look-alike 算法在推荐系统中的应用

摘要：转载：https://zhuanlan.zhihu.com/p/71951411 RALM: 实时 look-alike 算法在推荐系统中的应用 0. 导语本论文题为《Real-time Attention based Look-alike Model for Recommender System 阅读全文

posted @ 2019-07-18 18:12 吱吱了了阅读(2290) 评论(0) 推荐(0) 编辑

NLP传统基础（3）---潜在语义分析LSA主题模型---SVD得到降维矩阵

摘要：https://www.jianshu.com/p/9fe0a7004560 一、简单介绍 LSA和传统向量空间模型(vector space model)一样使用向量来表示词(terms)和文档(documents)，并通过向量间的关系(如夹角)来判断词及文档间的关系；不同的是，LSA 将词和文档阅读全文

posted @ 2019-07-17 18:46 吱吱了了阅读(1482) 评论(0) 推荐(0) 编辑

NLP学习（1）---Glove模型---词向量模型

摘要：一、简介： 1、概念：glove是一种无监督的Word representation方法。 Count-based模型，如GloVe，本质上是对共现矩阵进行降维。首先，构建一个词汇的共现矩阵，每一行是一个word，每一列是context。共现矩阵就是计算每个word在每个context出现的频率。由阅读全文

posted @ 2019-07-17 18:30 吱吱了了阅读(10980) 评论(0) 推荐(1) 编辑

推荐排序---Learning to Rank：从 pointwise 和 pairwise 到 listwise，经典模型与优缺点

摘要：转载：https://blog.csdn.net/lipengcn/article/details/80373744 Ranking 是信息检索领域的基本问题，也是搜索引擎背后的重要组成模块。本文将对结合机器学习的 ranking 技术——learning2rank——做个系统整理，包括 poin 阅读全文

posted @ 2019-07-17 13:43 吱吱了了阅读(8843) 评论(0) 推荐(0) 编辑

spark几个错误

摘要：一、java.lang.NoSuchMethodError: net.jpountz.lz4.LZ4BlockInputStream.<init>(Ljava/io/InputStream;Z)V 当要将dataframe进行序列化（df.show()或者df.collect())时，报这个错误。阅读全文

posted @ 2019-07-15 20:43 吱吱了了阅读(2289) 评论(1) 推荐(0) 编辑

池化层的几种实现方式

摘要：参考：https://blog.csdn.net/malefactor/article/details/51078135 一、CNN网络模型 NLP中CNN模型网络：二、Pooling操作 1、CNN中的Max Pooling Over Time操作（1）概念： MaxPooling Over 阅读全文

posted @ 2019-07-12 13:45 吱吱了了阅读(3597) 评论(0) 推荐(0) 编辑

计算广告（4）----搜索广告召回（也叫match、触发）

摘要：一、搜索广告形态 1、特征工程特征主要有用户画像（user profile）、用户行为（user behavior）、广告（ad）和上下文（context）四部分组成，如下所示： 2、平台算法主要分三部分：召回匹配 + 推荐排序 + 广告展示 https://zhuanlan.zhihu.com/ 阅读全文

posted @ 2019-07-12 11:49 吱吱了了阅读(7113) 评论(2) 推荐(0) 编辑

NLP学习（2）----文本分类模型

摘要：实战:https://github.com/jiangxinyang227/NLP-Project 一、简介： 1、传统的文本分类方法：【人工特征工程+浅层分类模型】（1）文本预处理： ①（中文）文本分词正向/逆向/双向最大匹配; 基于理解的句法和语义分析消歧；基于统计的互信息/CRF方法；阅读全文

posted @ 2019-07-11 13:38 吱吱了了阅读(9275) 评论(0) 推荐(1) 编辑

计算广告（5）----query意图识别

摘要：目录：一、简介： 1、用户意图识别概念 2、用户意图识别难点 3、用户意图识别分类 4、意图识别方法：（1）基于规则（2）基于穷举（3）基于分类模型二、意图识别具体做法： 1、数据集 2、数据处理 3、query分析 query纠错、【query rewrite】 query 词自动提示、阅读全文

posted @ 2019-07-10 12:54 吱吱了了阅读(8098) 评论(0) 推荐(1) 编辑

NLP传统基础（2）---LDA主题模型---学习文档主题的概率分布（文本分类/聚类）

摘要：一、简介 https://cloud.tencent.com/developer/article/1058777 1、LDA是一种主题模型作用：可以将每篇文档的主题以概率分布的形式给出【给定一篇文档，推测其主题分布】。我们的目标是找到每一篇文档的主题分布和每一个主题中词的分布。从而通过分析一些文阅读全文

posted @ 2019-07-08 11:47 吱吱了了阅读(3235) 评论(0) 推荐(0) 编辑

NLP传统基础（1）---BM25算法---计算文档和query相关性

摘要：一、简介：TF-IDF 的改进算法 https://blog.csdn.net/weixin_41090915/article/details/79053584 bm25 是一种用来评价搜索词和文档之间相关性的算法。通俗地说：主要就是计算一个query里面所有词q和文档的相关度，然后再把分数做累加操阅读全文

posted @ 2019-07-08 11:00 吱吱了了阅读(3236) 评论(0) 推荐(0) 编辑

tensorflow实战笔记（19）----使用freeze_graph.py将ckpt转为pb文件

摘要：一、作用： https://blog.csdn.net/yjl9122/article/details/78341689 这节是关于tensorflow的Freezing，字面意思是冷冻，可理解为整合合并；整合什么呢，就是将模型文件和权重文件整合合并为一个文件，主要用途是便于发布。官方解释可参考：h 阅读全文

posted @ 2019-07-05 11:58 吱吱了了阅读(8698) 评论(2) 推荐(1) 编辑

tensorflow实战笔记（18）----textCNN

摘要：一、import 包 import os import pandas as pd import csv import time import datetime import numpy as np import tensorflow as tf import re import sys from _ 阅读全文

posted @ 2019-07-04 17:15 吱吱了了阅读(1336) 评论(0) 推荐(0) 编辑

train loss相关问题

摘要：一、train loss 收敛慢，把learning_rate调高二、train loss不下降： 1、观察数据中是否有异常样本或异常label导致数据读取异常2、调小初始化权重，以便使softmax输入的feature尽可能变小3、降低学习率，这样就能减小权重参数的波动范围，从而减小权重变大的可阅读全文

posted @ 2019-07-02 13:42 吱吱了了阅读(17653) 评论(0) 推荐(0) 编辑

07 2019 档案

少量数据文本分类避免过拟合的方法

Bert-util安装

推荐系统（4）----推荐指标

推荐系统（3)---推荐可能遇到的问题

推荐系统（2）---推荐召回

推荐系统（1）---推荐发展阶段