摘要:
'''爬取猫眼电影TOP100,并将其保存''' from urllib import request import re import csv import time import random import os class MaoyanSpider: def __init__(self): self.url = 'https://maoyan.com/board... 阅读全文
摘要:
''' 聚类之均值漂移:首先假定样本空间中的每个聚类均服从某种已知的概率分布规则,然后用不同的概率密度函数拟合样本中的统计直方图, 不断移动密度函数的中心(均值)的位置,直到获得最佳拟合效果为止。这些概率密度函数的峰值点就是聚类的中心, 再根据每个样本距离各个中心的距离,选择最近聚类中心所属的类别作为该样本的类别。 ... 阅读全文
摘要:
''' 聚类:分类(class)与聚类(cluster)不同,分类是有监督学习模型,聚类属于无监督学习模型。 聚类讲究使用一些算法把样本划分为n个群落。一般情况下,这种算法都需要计算欧氏距离。(用两个样本对应特征值之差的平方和之平方根, 即欧氏距离,来表示这两个样本的相似性) 1.K均值算法: 第一步:随机选择k个... 阅读全文