11 2019 档案

摘要:数据来源 通过爬虫,爬取腾讯新闻三个分类每个分类大约1000条左右数据,存入excel 以上是大体的数据,三列分别为title、content、class;由于这里讲的的不是爬虫,爬虫部分省略 项目最终结构 其中主要逻辑在native_bayes.py文件中实现,utils.py为部分工具函数,tr 阅读全文
posted @ 2019-11-12 19:25 springionic 阅读(1042) 评论(0) 推荐(0)
摘要:分类算法-k近邻算法(KNN): 定义: 如果一个样本在特征空间中的k个最相似 (即特征空间中最邻近) 的样本中的大多数属于某一个类别,则该样本也属于这个类别 来源: KNN算法最早是由Cover和Hart提出的一种分类算法 计算距离公式: 两个样本的距离可以通过如下公式计算,又叫欧氏距离,比如说 阅读全文
posted @ 2019-11-03 15:59 springionic 阅读(1060) 评论(0) 推荐(0)
摘要:数据集划分: 机器学习一般的数据集会划分为两个部分 训练数据: 用于训练,构建模型 测试数据: 在模型检验时使用,用于评估模型是否有效 sklearn数据集划分API: 代码示例文末! scikit-learn数据集API: 获取数据集的返回类型: 数据集进行分割: 代码示例: 1 import o 阅读全文
posted @ 2019-11-02 16:20 springionic 阅读(1181) 评论(0) 推荐(0)

点击右上角即可分享
微信分享提示