摘要: '''二级静态页面的爬取''' from urllib import request import re import time import random import pymysql class DianyingtiantangSpider: def __init__(self): self.url = 'https://www.dytt8.net/html/gn... 阅读全文
posted @ 2019-07-19 17:02 一如年少模样 阅读(618) 评论(0) 推荐(0) 编辑
摘要: '''爬取猫眼电影TOP100,并将其保存''' from urllib import request import re import csv import time import random import os class MaoyanSpider: def __init__(self): self.url = 'https://maoyan.com/board... 阅读全文
posted @ 2019-07-19 12:26 一如年少模样 阅读(317) 评论(0) 推荐(0) 编辑
摘要: ''' 聚类之均值漂移:首先假定样本空间中的每个聚类均服从某种已知的概率分布规则,然后用不同的概率密度函数拟合样本中的统计直方图, 不断移动密度函数的中心(均值)的位置,直到获得最佳拟合效果为止。这些概率密度函数的峰值点就是聚类的中心, 再根据每个样本距离各个中心的距离,选择最近聚类中心所属的类别作为该样本的类别。 ... 阅读全文
posted @ 2019-07-19 08:38 一如年少模样 阅读(5468) 评论(0) 推荐(0) 编辑
摘要: ''' 聚类:分类(class)与聚类(cluster)不同,分类是有监督学习模型,聚类属于无监督学习模型。 聚类讲究使用一些算法把样本划分为n个群落。一般情况下,这种算法都需要计算欧氏距离。(用两个样本对应特征值之差的平方和之平方根, 即欧氏距离,来表示这两个样本的相似性) 1.K均值算法: 第一步:随机选择k个... 阅读全文
posted @ 2019-07-19 07:11 一如年少模样 阅读(1620) 评论(0) 推荐(0) 编辑