摘要: 目录: MAB的定义及意义 MAB算法 ε-Greedy 算法 UCB算法 汤普森抽样 一、MAB(Multi-Armed Bandit)的定义及意义 1、在推荐系统中,为了解决准确率和多样性的平衡问题就是经典的Exploit-Explore【利用与探索问题】。其中,Exploit表示的是利用当前用 阅读全文
posted @ 2022-11-07 20:52 ljy2013 阅读(387) 评论(0) 推荐(0) 编辑
 

摘要: 最近一段时间由于业务需要,对因果推断进行研究,针对精准营销、用户增长、广告、模型可解释性等领域都有比较广泛的应用。本文主要从原理+实践角度去讲解一下相关的因果推断的工具或方法。以下是主要内容: 一、双重差分法 二、Uplift Model 三、Causal ML 四、EconML 五、Dowhy 六 阅读全文
posted @ 2021-12-14 17:39 ljy2013 阅读(2190) 评论(0) 推荐(0) 编辑
 

摘要: 在做客户经营、精准营销、推荐等业务场景中往往会遇到数据稀疏,样本选择偏差的问题 一、《Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion Rate》 简称:ESMM,pap 阅读全文
posted @ 2021-10-26 19:26 ljy2013 阅读(836) 评论(0) 推荐(0) 编辑
 

摘要: 随着BERT大火之后,很多BERT的变种,这里借用Huggingface工具来简单实现一个文本分类,从而进一步通过Huggingface来认识BERT的工程上的实现方法。 1、load data train_df = pd.read_csv('../data/train.tsv',delimiter 阅读全文
posted @ 2020-10-07 09:36 ljy2013 阅读(3701) 评论(1) 推荐(1) 编辑
 

摘要: 其实Embedding技术发展相对比较早,随着深度学习框架的发展,如tensorflow,pytorch,Embedding技术显得越来越重要,特别在NLP和推荐系统领域应用最为广泛。下面主要讲讲我认识的Embedding技术。本文目录: 一、Embedding技术发展时间轴关键点 二、word2v 阅读全文
posted @ 2020-09-11 22:08 ljy2013 阅读(2364) 评论(0) 推荐(0) 编辑
 

摘要: LightGBM是Boosting算法的一种,与GBDT、XGBOOST是属于同一类算法,很多情况下可能会需要lightGBM与GBDT、xgb进行比较。这里花点时间简单比较一下: 一、GBDT GBDT是通过使用回归树来构建每一个弱分类器,(具体为啥使用回归树的原因是因为GBDT是由于每次迭代都是 阅读全文
posted @ 2020-07-22 16:39 ljy2013 阅读(863) 评论(0) 推荐(1) 编辑
 

摘要: 如今,推荐系统已经在电商平台、信息流分发平台、广告平台等等,在处理大量用户信息的时,解决信息过载问题的重要手段。推荐系统是一个较大的系统,而我立身算法角度,谈一谈我对推荐系统中推荐算法的理解与看法。 推荐系统一般来讲主要分为两个部分:召回部分和排序部分。做了三年的算法后,给我的感觉,大部分的场景其实 阅读全文
posted @ 2018-07-24 15:38 ljy2013 阅读(410) 评论(0) 推荐(0) 编辑
 
摘要: 前段时间,跟部门同事分享了深度学习相关的一些理论基础,在此记录一下。仅供后续学习和复习。 目录 1、背景及现状 2、Embeding 3、DNN 4、CNN 5、RNN(LSTM) 6、应用(结合自身的应用案例) (1)情感分析/类目预测(文本分类) (2)NER/POS TAGGING (标注、命 阅读全文
posted @ 2018-07-24 11:05 ljy2013 阅读(3961) 评论(0) 推荐(0) 编辑
 

摘要: sed命令下批量替换文件内容 格式: sed -i "s/查找字段/替换字段/g" `grep 查找字段 -rl 路径` 文件名 -i 表示inplace edit,就地修改文件 -r 表示搜索子目录 -l 表示输出匹配的文件名s表示替换,d表示删除 示例:sed -i "s/shan/hua/g" 阅读全文
posted @ 2017-01-12 14:07 ljy2013 阅读(6173) 评论(0) 推荐(0) 编辑
 

摘要: 1,sudo apt-get install fcitx-googlepinyin 2,在settings->Language Support里将keyboard input method system设置为fcitx 3,注销系统,再登录 在settings->Text Entry里,添加输入源, 阅读全文
posted @ 2016-08-29 11:38 ljy2013 阅读(313) 评论(0) 推荐(0) 编辑
 

摘要: 最近将公司的台式机安装了ubuntu16.04,安装之后,使用apt-get install openssh-server 发现出现:Package 'openssh-server' has no installation candidate 的问题。下面主要讲解一下解决问题的办法: 1、出现上面的 阅读全文
posted @ 2016-08-18 14:09 ljy2013 阅读(3540) 评论(0) 推荐(0) 编辑
 

摘要: 1、Install [Anaconda](https://docs.continuum.io/anaconda/install#anaconda-install) 实际上安装了anaconda就已经安装好了jupyter,但是为了便于一些分析,我们配置一些环境。 2、配置环境 conda env c 阅读全文
posted @ 2016-07-23 16:10 ljy2013 阅读(4694) 评论(0) 推荐(0) 编辑
 

摘要: 官网推荐的是直接使用Anoconda,它集成了pandas,可以直接使用。安装挺简单的,有windows下的安装包。如果不想安装庞大的Anoconda,那就一步一步用pip来安装pandas。下面我主要讲一下如何在window上利用pip安装pandas: 1、pandas包是依赖另外四个包:num 阅读全文
posted @ 2016-06-21 14:28 ljy2013 阅读(7602) 评论(0) 推荐(1) 编辑
 

摘要: 最近复习了一下机器学习的知识,在这里想总结一下,网上也有很多,大多都是不全或者是错误的。下面主要看我来简单总结一下回归分析的知识点。 1、内容概要 (1)线性回归 (2)逻辑回归(Logistic ) (3)最大似然估计 (4)梯度下降 2、线性回归 (1)我们以前初中学过线性函数y=a*x+b,都 阅读全文
posted @ 2016-06-07 11:39 ljy2013 阅读(538) 评论(0) 推荐(0) 编辑
 

摘要: 这篇文章写得是windows下的使用方法。 第一步:创建Github新账户 第二步:新建仓库 第三步:填写名称,简介(可选),勾选Initialize this repository with a README选项,这是自动创建REAMDE.md文件,省的你再创建。 第四步:安装Github she 阅读全文
posted @ 2016-05-31 23:11 ljy2013 阅读(2728) 评论(0) 推荐(0) 编辑
 

摘要: 由于篇幅的问题,不得不将一篇文章分三个随笔来写。而本文承接前面两篇文章《跨行业数据挖掘标准流程(上)》、《跨行业数据挖掘标准流程(中)》。欲了解前两篇文章,请参考下面的链接: 《跨行业数据挖掘标准流程(上)》:http://www.cnblogs.com/ljy2013/p/5542961.html 阅读全文
posted @ 2016-05-30 16:56 ljy2013 阅读(295) 评论(0) 推荐(0) 编辑
 
摘要: 四、数据准备 在对数据进行充分理解的基础上,我们就要生成能够满足数据挖掘需要的数据宽表。在此阶段,我们需要集中精力在数据准备上,往往一个项目超过60%的时间都放在数据理解和数据准备上面。你以为剩下的40%是建模分析?其实10%才是建模分析,剩下的30%都是用来吐槽数据质量问题的。因为在上面已经简单讨 阅读全文
posted @ 2016-05-30 16:45 ljy2013 阅读(423) 评论(0) 推荐(0) 编辑
 
摘要: 一、说明 在实践当中,一个数据挖掘项目(或者说在咱们企业内部中一个分析研究主题),不但周期长,常常还会跨数据源,甚至跨部门协助进行,稍不留神就会陷入复杂的数据迷宫当中。为了能够在整个项目阶段能够保持研究重点,能够持续跟踪,一个有效的数据挖掘方法论(明确的流程模型)是非常有必要的。 商业应用的数据挖掘 阅读全文
posted @ 2016-05-30 16:40 ljy2013 阅读(1266) 评论(0) 推荐(0) 编辑
 

摘要: 1、在安装pip前,请确认你window系统中已经安装好了python,和easy_install工具,如果系统安装成功,easy_install在目录C:\Python27\Scripts 下面,如下所示: 2、进入命令行,然后把目录切换到python的安装目录下的Script文件夹下,运行 ea 阅读全文
posted @ 2016-05-20 11:34 ljy2013 阅读(660) 评论(0) 推荐(0) 编辑
 

摘要: 最近在学习google新开源的深度学习框架tensorflow。发现安装它的时候,需要依赖python2.7.X;我之前一直使用的linux是centos。而centos不更新了,里面的自带的python一般都是python2.6以下的。不仅如此,系统里面很多组件又依赖python2.6,所以导致你 阅读全文
posted @ 2016-05-14 00:25 ljy2013 阅读(15240) 评论(0) 推荐(3) 编辑
 

2020年12月31日

摘要: 1、awk命令 (1)两个文件的交集 awk 'NR==FNR{ a[$1]=a[$1]+1} NR>FNR{ if(a[$1]>=1 &&b[$1]<1){ print $1;b[$1]=b[$1]+1}}' a.txt b.txt (2)两个文件差集(b-a) awk 'NR==FNR{ a[$ 阅读全文
posted @ 2020-12-31 16:01 ljy2013 阅读(62) 评论(0) 推荐(0) 编辑
 

2020年9月17日

摘要: 本文主要介绍机器学习的基本知识,通过本文可以快速复习机器学习的主要内容。主要目录如下 一、特征工程 二、线性回归 三、逻辑回归 四、树模型 五、优化算法 六、激活函数 七、过拟合与欠拟合 一、特征工程 1、特征提取 (1)用户行为数据 (2)用户画像/标签 (3)Embedding:word2vec 阅读全文
posted @ 2020-09-17 20:41 ljy2013 阅读(579) 评论(0) 推荐(0) 编辑
 

2018年12月20日

摘要: 论文地址:https://arxiv.org/pdf/1703.04247.pdf CTR预估我们知道在比较多的应用场景下都有使用。如:搜索排序、推荐系统等都有广泛的应用。并且CTR具有极其重要的 地位,特别相对广告推荐领域来说更加如此,竞价广告需要通过ctr给出相应的价格,并由此获得广告曝光的机会 阅读全文
posted @ 2018-12-20 20:44 ljy2013 阅读(3873) 评论(0) 推荐(0) 编辑
 
摘要: papers地址:https://arxiv.org/pdf/1708.05027.pdf 借用论文开头,目前很多的算法任务都是需要使用category feature,而一般对于category feature处理的方式是经过one hot编码,然后我们有些情况下,category feature 阅读全文
posted @ 2018-12-20 16:36 ljy2013 阅读(1043) 评论(0) 推荐(1) 编辑
 

2018年11月1日

摘要: 广告点击率预估是一个非常经典的转化率预估问题,在互联网时代,广告作为互联网公司盈利的一种重要手段或方法,而广告又分为很多种(这部分的知识可以课后脑补一下),今天主要讲下在计算广告当中,竞价广告涉及到的ctr预估遇到的平滑问题。这里先解释一下竞价广告:简单讲来就是广告主需要在媒体投放平台投放广告,而媒 阅读全文
posted @ 2018-11-01 20:15 ljy2013 阅读(2459) 评论(0) 推荐(0) 编辑
 

2018年7月17日

摘要: 1、首先现在idea,官网:https://www.jetbrains.com/idea/ 2、安装jdk1.8,scala2.11 3、下载idea后,需要在idea中安装scala的插件,安装的方式如下: File >settings >Plugins >输入scala(下图是我已经安装好了) 阅读全文
posted @ 2018-07-17 10:52 ljy2013 阅读(1770) 评论(0) 推荐(0) 编辑
 

2018年1月25日

摘要: 随着深度学习的火热,越来越多的人去学习和了解这门技术。而做算法的同学为了能够更快,更高效的写出相关的深度学习算法出来,需要比较方便的开发环境。今天主要介绍一下在jupyter notebook中,新增python3的环境,从而可以使用tensorflow、keras等。具体步骤如下: 1、首先假设你 阅读全文
posted @ 2018-01-25 14:24 ljy2013 阅读(2069) 评论(0) 推荐(0) 编辑
 

2017年10月18日

摘要: 在机器学习的过程中,我们常常会用到树模型的方式来解决我们的问题。在工业界,我们不仅要针对某个问题利用机器学习的方法来解决问题,而且还需要能力解释其中的原理或原因。今天主要在这里记录一下树模型是怎么做可视化的方法: 1、首选需要用到几个包,需要导入一下。没有对应包的需要手动安装一下。 2、window 阅读全文
posted @ 2017-10-18 17:47 ljy2013 阅读(2033) 评论(0) 推荐(0) 编辑
 

2017年6月9日

摘要: 一、GBDT的原理 GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛 阅读全文
posted @ 2017-06-09 16:08 ljy2013 阅读(2334) 评论(0) 推荐(0) 编辑
 

2017年5月22日

摘要: 1、L1范式和L2方式的区别 (1)L1范式是对应参数向量绝对值之和 (2)L1范式具有稀疏性 (3)L1范式可以用来作为特征选择,并且可解释性较强(这里的原理是在实际Loss function中都需要求最小值,根据L1的定义可知L1最小值只有0,故可以通过这种方式来进行特征选择) (4)L2范式是 阅读全文
posted @ 2017-05-22 17:17 ljy2013 阅读(16458) 评论(0) 推荐(3) 编辑
 
摘要: 推荐系统基础知识整理 基于规则的推荐系统 热门推荐 基于内容的推荐系统 利用用户的已知属性或者兴趣偏好,与物品内容的属性进行匹配,以此为用户推荐新的感兴趣的物品。 协同过滤 应用矩阵分解的原因是由于用户和物品构成的矩阵在实际的应用场景中,往往都是稀疏的或者存在缺失值的情况。这个时候很难补充或者很难准 阅读全文
posted @ 2017-05-22 15:55 ljy2013 阅读(837) 评论(0) 推荐(0) 编辑
 

2017年3月11日

摘要: 1、安装jdk 2、下载scala-ide。官网:http://scala-ide.org 3、安装maven 4、在eclipse中,配置maven的安装了路径。偏好设置 >maven >installpath 5、修改maven的镜像文件,即setting.txt中的mirror。具体修改为如下 阅读全文
posted @ 2017-03-11 00:05 ljy2013 阅读(1531) 评论(0) 推荐(0) 编辑
 

2017年2月23日

摘要: 1、交叉熵的定义: 在信息论中,交叉熵是表示两个概率分布p,q,其中p表示真实分布,q表示非真实分布,在相同的一组事件中,其中,用非真实分布q来表示某个事件发生所需要的平均比特数。从这个定义中,我们很难理解交叉熵的定义。下面举个例子来描述一下: 假设现在有一个样本集中两个概率分布p,q,其中p为真实 阅读全文
posted @ 2017-02-23 10:29 ljy2013 阅读(14250) 评论(1) 推荐(0) 编辑
 

2017年2月21日

摘要: 问题描述:由于公司业务产品中,需要用户自己填写公司名称,而这个公司名称存在大量的乱填现象,因此需要对其做一些归一化的问题。在这基础上,能延伸出一个预测用户填写的公司名是否有效的模型出来。 目标:问题提出来了,就是想找到一种办法来预测用户填写的公司名是否有效? 问题分析:要想预测用户填写的公司名称是否 阅读全文
posted @ 2017-02-21 17:33 ljy2013 阅读(29771) 评论(0) 推荐(2) 编辑
 

2017年1月13日

摘要: 1、说明 最近老大想要做一个webUI界面,为了展示我们数据中心工作内容,需要把各自的工作内容用webUI展示出来。目前我负责的做公司名称归一化的问题。 2、Django实现web 具体实现是完全按照官网https://docs.djangoproject.com/en/1.10/intro/tut 阅读全文
posted @ 2017-01-13 17:07 ljy2013 阅读(1463) 评论(0) 推荐(0) 编辑
 
摘要: 1、登录 sqlite da_name 2、查看数据库和表 .databases .tables 3、查看表结构 .schema tablename 4、导入数据到sqlite 5、数据导出 数据导出也是一个常用到的操作,可以将指定表中的数据导出成SQL脚本,供其他数据库使用,还可以将指定的数据表中 阅读全文
posted @ 2017-01-13 15:55 ljy2013 阅读(221) 评论(0) 推荐(0) 编辑
 

2016年10月20日

摘要: 1、引言 最近,在做用户画像,利用文本分类方法挖掘用户兴趣模型。虽然文本分类不是很难,但是简单的事情,细节却是相当的重要。这篇文章我主要是想记录一下,我在做分类的时候,使用到的特征选择的方法,以及相关的是实现方法。 2、特征选择的方法 (1)信息增益 信息增益这一词来自通信领域,香浓提出的信息熵理论 阅读全文
posted @ 2016-10-20 16:34 ljy2013 阅读(6530) 评论(0) 推荐(0) 编辑
 

2016年9月29日

摘要: 前段时间使用了HanLP一个纯JAVA分词工具包,后来老大说分词效果不是很好,需要换一个分词工具。于是推荐了一个分词工具——NLPIR,它是中科院XXX研发的一个分词工具。这个分词工具只用C/C++写的,但是它提供了JAVA,C#等调用接口。于是我希望是的通过java来调用。使用java调用C/C+ 阅读全文
posted @ 2016-09-29 20:32 ljy2013 阅读(2449) 评论(0) 推荐(0) 编辑