随笔分类 -  机器学习

摘要:Word2Vec 谷歌2013年提出的Word2Vec是目前最常用的词嵌入模型之一。Word2Vec实际是一种浅层的神经网络模型,它有两种网络结构,分别是CBOW(Continues Bag of Words)和Skip-gram。 CBOW的目标是根据上下文出现的词语来预测当前词的生成概率,如下图 阅读全文
posted @ 2022-07-11 00:42 huggingAha 阅读(337) 评论(0) 推荐(0) 编辑
摘要:简单线性回归¶ 简单线性回归代码¶ Step 1: 数据预处理¶ In [ ]: import pandas as pd import numpy as np import matplotlib.pyplot as plt dataset = pd.read_csv('data/studentsco 阅读全文
posted @ 2022-06-23 15:59 huggingAha 阅读(135) 评论(0) 推荐(0) 编辑
摘要:4 文本表示模型 TF-IDF TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术,常用于挖掘文章中的关键词,而且算法简单高效,常被工业用于最开始的文本数据清洗。 TF-IDF有两层意思,一层是"词频"(Ter 阅读全文
posted @ 2022-06-19 16:48 huggingAha 阅读(366) 评论(0) 推荐(0) 编辑
摘要:一、特征工程 对原始数据进行一系列工程处理,将其提炼为特征,作为输入供算法和模型使用。从本质上来讲,特征工程是一个表示和展现数据的过程。在实际工作中,特征工程旨在去除原始数据中的杂质和冗余,设计更高效的特征以刻画求解的问题与预测模型之间的关系。 以下主要针对结构化数据和非结构化数据进行特征选择。 1 阅读全文
posted @ 2022-06-18 00:21 huggingAha 阅读(169) 评论(0) 推荐(0) 编辑
摘要:数据预处理¶ 将数据预处理分解为 6 ​​个基本步骤。从此处获取本示例中使用的数据集 Step 1: 导入库¶ In [ ]: import numpy as np import pandas as pd Step 2: 倒入数据集¶ In [ ]: dataset = pd.read_csv('. 阅读全文
posted @ 2022-04-30 20:39 huggingAha 阅读(236) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示