2019年12月19日

数据挖掘之决策树

摘要: 决策树 1.决策树基本概念 决策树属于也只能非参数学习算法、可以用于解决(多)分类问题,回归问题。 回归问题的结果,叶子结点的平均值是回归问题的解。 根节点:决策树具有数据结构里面的二叉树、树的全部属性 非叶子节点 :(决策点) 代表测试的条件,数据的属性的测试 叶子节点 :分类后获得分类标记 分支 阅读全文

posted @ 2019-12-19 14:04 忆往昔、此去经年 阅读(583) 评论(0) 推荐(0) 编辑

2019年12月16日

python数据挖掘第三篇-垃圾短信文本分类

摘要: 数据挖掘第三篇 文本分类 文本分类总体上包括8个步骤。数据探索分析 》数据抽取 》文本预处理 》分词 》去除停用词 》文本向量化表示 》分类器 》模型评估.重要python库包括numpy(数组),pandas(用于处理结构化数据),matplotlib(绘制词云,便于直观表示),sklearn(提 阅读全文

posted @ 2019-12-16 22:13 忆往昔、此去经年 阅读(1918) 评论(0) 推荐(0) 编辑

2019年12月13日

python数据挖掘第二篇-爬虫

摘要: python爬虫 urllib用法 eg1: from urllib import request data = request.urlopen(urlString).read() data获取的是该网页的所有源码内容 data=data.decode("utf 8") 对data编码 import 阅读全文

posted @ 2019-12-13 12:40 忆往昔、此去经年 阅读(265) 评论(0) 推荐(0) 编辑

2019年12月12日

python数据挖掘第一篇:正则表达式

摘要: 正则表达式 re 模块 1. re.match(pattern,string[,flag]) match方法 从首字母开始匹配,如果包含pattern字符串,则匹配成功,返回match对象,失败则返回None. 【注】只从起始位置开始匹配 ,flag表示可选项 re.I 使匹配对大小写不敏感 re. 阅读全文

posted @ 2019-12-12 15:25 忆往昔、此去经年 阅读(253) 评论(0) 推荐(0) 编辑

2019年8月10日

如何在博客园写第一篇博客

摘要: 如何用markdown在博客园里发第一篇博客 markdown 是一种标记语言,在markdown编辑器中编辑好的内容会自动生成html代码,将生成的文档代码拷贝到博客园的编辑器中,选择发布即可。 初次使用博客园写博客,以此作为记录。 1.在博客园创建自己的博客 具体创建博客见百度,略过 2.设置默 阅读全文

posted @ 2019-08-10 09:48 忆往昔、此去经年 阅读(3529) 评论(0) 推荐(0) 编辑

导航