摘要: 随机划分 随机划分 from sklearn.model_select import train_test_split x_train, x_test, y_train,y_test = train_test_split(x, y, test_size=0.25, ramdon_state=0) 参 阅读全文
posted @ 2019-11-01 18:18 数之美 阅读(4010) 评论(1) 推荐(0) 编辑
摘要: 几乎所有编程语言都提供对正则表达式操作的支持,Python通过标准库中的re模块来支持正则表达式操作。 关于为什么要用 r’ ..‘ 字符串? 在 python 的字符串中,\ 是被当做转义字符的。在正则表达式中,\ 也是被当做转义字符。这就导致了一个问题:如果你要匹配 \ 字符串,那么传递给 re 阅读全文
posted @ 2019-11-01 14:35 数之美 阅读(609) 评论(0) 推荐(0) 编辑
摘要: import urllib import urllib2 import re import time path="G:/123/" path_file="1.txt" def geturllist(text): text= text.decode('utf-8') urllist = re.find 阅读全文
posted @ 2019-11-01 14:29 数之美 阅读(320) 评论(0) 推荐(0) 编辑
摘要: urllib库实现:从指定的 URL 地址获取网页数据,然后对其进行分析处理,获取想要的数据。 urllib模块urlopen()函数:urlopen(url, data=None, proxies=None) 创建一个表示远程url的类文件对象,然后像本地文件一样操作这个类文件对象来获取远程数据。 阅读全文
posted @ 2019-11-01 14:27 数之美 阅读(181) 评论(0) 推荐(0) 编辑
摘要: https://github.com/jackfrued/Python-100-Days/blob/master/ 爬虫概念 网络爬虫(web crawler),以前经常称之为网络蜘蛛(spider),是按照一定的规则自动浏览万维网并获取信息的机器人程序(或脚本),曾经被广泛的应用于互联网搜索引擎。 阅读全文
posted @ 2019-11-01 14:25 数之美 阅读(232) 评论(0) 推荐(0) 编辑
摘要: SVM(Support Vector Machine)支持向量机是建立于统计学习理论上的一种二类分类算法,适合处理具备高维特征的数据集。它对数据的分类有两种模式,一种是线性可分割,另一种是线性不可分割(即非线性分割)。SVM思想是:通过某种核函数,将数据在高维空间里寻找一个最优超平面,能够将两类数据 阅读全文
posted @ 2019-11-01 14:05 数之美 阅读(1976) 评论(0) 推荐(0) 编辑
摘要: scikit-learn,又称sklearn,是一个开源的基于python语言的机器学习工具包。它通过NumPy, SciPy和Matplotlib等python数值计算的库实现高效的算法应用,并且涵盖了大多数主流机器学习算法。 sklearn官网链接讲解了所有算法的实现和简单应用:http://s 阅读全文
posted @ 2019-11-01 14:02 数之美 阅读(8742) 评论(0) 推荐(0) 编辑
摘要: # Iris鸢尾花数据集是常用的分类实验数据集,由Fisher, 1936收集整理。 # 是一类多重变量分析的数据集。分为3类,每类50个数据,每个数据包含4个属性。 # 可通过4个属性预测鸢尾花属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。 # Iris鸢尾花 阅读全文
posted @ 2019-11-01 14:01 数之美 阅读(1637) 评论(0) 推荐(0) 编辑
摘要: http://www.lining0806.com/sklearn使用总结/ scikit-learn是Python实现的一个传统机器学习算法库,基本涵盖了机器学习涉及到的各个方面,包括数据的预处理、特征的提取、模型的构建、模型的训练、模型的验证以及模型的评价等等,目前项目已在Github上star 阅读全文
posted @ 2019-11-01 14:00 数之美 阅读(398) 评论(0) 推荐(0) 编辑