摘要: 1.停用词 stop words: 在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词。 停用词都是人工输入、或者由一个停用词表导入。 2.jieba是目前最好的 Python 中文分词组件,它主要有以下 3 种特性: 支持 3 种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析 阅读全文
posted @ 2019-07-09 21:43 悦悦的小屋 阅读(121) 评论(0) 推荐(0) 编辑
摘要: 1.CTR CTR预估是对每次广告的点击情况做出预测,预测用户是点击还是不点击。 CTR预估和很多因素相关,比如历史点击率、广告位置、时间、用户等。 CTR预估模型就是综合考虑各种因素、特征,在大量历史数据上训练得到的模型。 CTR预估的训练样本一般从历史log、离线特征库获得。 样本标签相对容易, 阅读全文
posted @ 2019-07-09 19:29 悦悦的小屋 阅读(2666) 评论(0) 推荐(0) 编辑