摘要:
数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。以下是三种常用的归一 阅读全文
摘要:
字符分割有很多方法,但并不是每一种方法是万能的,那么就需要根据自己的需要来分析。 例如:我现在项目的需求是将一串编号给切分开来。查了网上的资料和文献,大致适合项目的有两种方法:投影分割法和连通域分割法。 当然还有其他的一些改进的算法,今天就不作深入讨论,以后研究了再分享。今天我们就来实现垂直投影和水 阅读全文
摘要:
一、matplotlib的用法 折线图+一些常用的设置 #显示中文 import matplotlib as mpl mpl.rcParams['font.sans-serif'] = [u'SimHei'] mpl.rcParams['axes.unicode_minus'] = False fi 阅读全文
摘要:
Python 中的 numpy 包 和 pandas 包都能够计算均值、方差等,本文总结一下它们的用法。1. Numpy 计算均值、方差、标准差一般的均值可以用 numpy 中的 mean 方法求得: >>> import numpy as np >>> a = [5, 6, 16, 9] >>> 阅读全文
摘要:
简介 Pandas [1] 是python的一个数据分析包,最初由AQR Capital Management于2008年4月开发,并于2009年底开源出来,目前由专注于Python数据包开发的PyData开发team继续开发和维护,属于PyData项目的一部分。Pandas最初被作为金融数据分析工 阅读全文
摘要:
网络爬虫是从web中发现,下载以及存储内容,是搜索引擎的核心部分。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。 获取A-Z每个名字的姓名(Ename)、ORIGIN/USAGE、SOURCE 阅读全文
摘要:
python写入csv文件的几种方法 最常用的一种方法,利用pandas包 import pandas as pd #任意的多组列表 a = [1,2,3] b = [4,5,6] #字典中的key值即为csv中列名 dataframe = pd.DataFrame({'a_name':a,'b_n 阅读全文
摘要:
(1) http://www.zhcw.com/ssq/kaijiangshuju/index.shtml?type=0,打开此网址,并通过浏览器中“检查”选项发现此网页数据来源规律; (2)发现他的这些信息都存在标签<tr>中 (3)代码展示: 爬取 1-5 页的中所有中奖的<开奖时间>、<期号> 阅读全文
摘要:
《修罗武神》是在17K小说网上连载的网络小说,作者为善良的蜜蜂。小说讲述了一个少年从下界二等门派外门弟子成长为上界翘楚人物的故事。该书曾入选“第三届橙瓜网络文学奖”百强作品。 编程只是实现目的的工具。 所以重点是分析我们的需求。 获取小说目录页面是基本。这里有各个章节的链接,标题等等内容。这是我们需 阅读全文
摘要:
功能实现 1.输入:大学排名url链接 2.输出:大学排行信息 所用到的库:BeaitifulSoup,requests 程序结构设计步骤一:利用requests获取网页内容 步骤二:利用bs4提取网页内容信息到合适的数据结构 步骤三:在屏幕上打印出来 建立三个函数,将其分为三个模块。这样能够使代码 阅读全文