摘要: 1.特征工程介绍 这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。 特征工程包含内容: 特征清洗 清洗异常样本(缺失值填充,异常值处理) 采样( 阅读全文
posted @ 2019-08-02 20:31 FromZeroToOne 阅读(181) 评论(0) 推荐(0) 编辑
摘要: 1.定义 TF(词频) = 词频数/一篇文章的总共词数 IDF(逆文档频率) = log(总文档数/出现该词的文档数+1) TF IDF = TF IDF ,其值越大表示其在文档中的重要性也越大, 2.应用 1. 可用它来提取某关键词 2. 与余弦相似度结合找出相似的文章 具体步骤如下 (1)使用T 阅读全文
posted @ 2019-08-02 15:40 FromZeroToOne 阅读(383) 评论(0) 推荐(0) 编辑
摘要: 现如今,深度学习方法成了解决nlp任务的首选方案,比如textCNN、LSTM、GRU、BiLSTM、Attention、BERT等等。当然,有的nlp任务也可以用机器学习方法去解决,至于哪种任务用哪种方法,需要我们根据实际情况去选择。就目前我接触到的nlp赛题任务有,文本分类、情感分析、关系抽取、 阅读全文
posted @ 2019-08-02 14:41 FromZeroToOne 阅读(749) 评论(1) 推荐(0) 编辑