摘要:1、CTR: (1)几个概念: impression(展示):用户看到该广告的次数。也就是一个广告被显示了多少次,它就计数多少。比如:打开网站的一个页面,网站上的所有广告就被显示了一次,每个广告增加1个,如果刷新就再增加一个。 click(点击):用户点击该广告的次数 CTR:click throu
阅读全文
摘要:1、数据规约概念和目的 数据规约是产生更小且保留数据完整性的新数据集。 意义:降低无效错误数据的影响、更有效率、降低存储成本。 2、属性规约 (1)属性合并(降维):比如PCA (2)删除不相关属性 3、数值规约:离散化也算是数值规约
阅读全文
摘要:1、简单变换: 开方、平方、对数等 2、数据规范化: (1)离差标准化(最小最大标准化):消除量纲(单位)影响以及变异大小因素的影响。 x1=(x-min)/(max-min) 代码:data1=(data-min())/(data.max()-data.min()) (2)标准差标准化(0-均值标
阅读全文
摘要:一、数据清洗 这一个步骤可以和数据探索并行。 (1)标签分类数据处理:LabelEncoder【将分类数据变成0-n的值】 (2)one-hot编码 2、数据集成 (1)概念 数据挖掘往往分布在不同的数据源中,进行数据分析时需要将多个不同的数据源整合到同一个数据存储(如数据仓库)中。但是来自不同地方
阅读全文
摘要:一、数据探索 数据探索的目的:及早发现数据的一些简单规律或特征 数据清洗的目的:留下可靠数据,避免脏数据的干扰。 两者没有严格的先后顺序,经常在一个阶段进行。 分为: (1)数据质量分析(跟数据清洗密切联系):缺失值分析、异常值分析、一致性分析、重复数据或含有特殊符号的数据分析 (2)数据特征分析(
阅读全文
摘要:恢复内容开始 1、Mysql官网:https://www.mysql.com/downloads/ 有两种下载方式:msi和zip压缩包 2、我下载的是zip压缩包,选择mysql community server 64位5.7.21版本。 3、将下载的压缩包解压到合适的路径并可以修改文件名。E:\
阅读全文
摘要:参考链接:https://blog.csdn.net/qq_16234613/article/details/64217337 1、describe():该函数主要对数据进行一个基本的统计,输出数据的总数量(count)、平均值(mean)、标准差(std)、最小值和最大值(min、max)、分位数
阅读全文
摘要:1、简介: (1)numpy:(科学计算)高效处理数据,提供数组支持,很多模块都依赖它,是一个基础。 (2)pandas:数据探索和数据分析(两个重要的数据结构series 和dataframe) (3)matplotlib:作图模块,可视化 (4)scipy:主要进行数值计算,支持矩阵计算,高等数
阅读全文
摘要:1、收集参数(参数前面加*): def test1(param1,*params): print(param1) print(params) 调用:test1(1,2,3,4) 结果:1 (2,3,4) 2、收集参数的逆过程 def test2(x,y): return x+y 调用:params=
阅读全文
摘要:魔法方法也为特殊方法,即用两个下划线形成的(__方法__)。自己定义的方法最好不要采用这种方式,因为这些方法会在一些特殊的情况下直接被调用。 1、第一个魔法方法: 类中常用的__init__()方法:相当于其他语言中的构造函数,用来初始化参数 当类的一个对象被创建之后会立即调用构造函数。 2. __
阅读全文
摘要:爬虫时出现问题: import requests data=requests.get('http://roll.news.sina.com.cn/')print(data.text) 输出结果中文显示乱码,如下图: 原因是,Spyder默认的编码是utf-8,要将其转码成'gb2312' 加上:da
阅读全文
摘要:1、在anaconda交互环境下安装jieba,输入命令: pip install jieba 2、在https://pypi.python.org/pypi/wordcloud下载wordcloud,在anaconda prompt下转到下载文件的目录,然后执行命令: pip install 文件
阅读全文
摘要:1、类的定义 (1)#括号中要加入父类,如果没有则默认为object,万类之源 class 类名(父类): '类的文档字符串' 类体代码 若类什么都不做,则类只作为命名空间,仅作为一个容器。 (2)类的方法定义 #方法的第一个参数为self,它为调用对象本身,不一定要实参与它对应。 #方法只有在类被
阅读全文
摘要:主要三个库:Pilow(PIL)、OpenCV、Skimage(针对scipy,用的少) 小例子:给一张图片的左上角粘贴一个相同的图片(缩略并旋转了45度) from PIL import Imageim1=Image.open('1.jpg') #输出图像的像素、格式、JPG等print(im1.
阅读全文
摘要:1、CSV格式数据: 1.1普通读取和保存 可以以纯文本形式打开,可以保存多条记录,每条记录的数据之间默认用逗号来分隔,csv就是逗号分割值的英文缩写。 保存为csv文件: import pandas as pd data=pd.DataFrame(数据源) data.to_csv('文件名.csv
阅读全文
摘要:1、pandas可以用来画DataFrame和Series的图 如: import numpy as npimport matplotlib.pyplot as pltimport pandas as pdx = np.linspace(0, 1)y = np.sin(4 * np.pi * x)
阅读全文
摘要:1、matplotlib:pyplot和pylab 如: import pylab as pl pl.figure(figsize=(8,6),dpi=100)【建立的图像大小和图的精度】 pl.plot(x,y,label='Line1') pl.plot(x,y,label='Line2') p
阅读全文
摘要:输出结果: [0 1 1 0 0 1] 根据数据可以看出0为学渣,1为学霸。 6个人中,1、4、5为学渣,2,3,6为学霸。 以上为使用Scipy中kmeans来求解的。 sklearn
阅读全文
摘要:1、NLTK的概念 NLTK:Natural language toolkit,是一套基于python的自然语言处理工具。 2、NLTK中集成了语料与模型等的包管理器,通过在python编辑器中执行。 import nltk nltk.download() 便会弹出下面的包管理界面,在管理器中可以下
阅读全文
摘要:1、不同长度的列表合并成DataFrame。 法1: ntest=['a','b'] ltest=[[1,2],[4,5,6]] 先变成等长的列表:(a:1),(a:2),(b:4),(b:5),(b:6) 再转化成DataFrame。 data=[(k,v) for k,l in zip(ntes
阅读全文
摘要:目录: DataFrame概念 DataFrame创建 基本操作 查看、索引 修改、删除 统计功能 条件筛选 合并 去除空值 4. 一些常用的函数 apply memory_usage pivot_table 1、DataFrame概念 Series对应的是一维序列,而DataFrame对应的是二维
阅读全文
摘要:1、Series概念 类似一维数组的对象,由数据和索引组成 2、Series创建 用Series()函数创建,0,1,2为series结构自带的索引。 可以自己指定索引值,用index,也可以直接用字典 3、Series的基本运算 ①所有的索引和值查询:index和value ②查找某个值的索引:b
阅读全文
摘要:1、Python 中的数组 形式: 用list和tuple等数据结构表示数组 一维数组:list=[1,2,3,4] 二维数组:list=[[1,2,3],[4,5,6],[7,8,9]] 用array模块:array模块需要加载,而且运用的较少 通过array函数创建数组(数组中的元素可以不是同一
阅读全文
摘要:1、集合的概念:无序不重复 分为可变集合(set())和不可变集合(frozenset)两种 2、创建集合 aset=set('hello') >>aset={'h','e','l','o'} 3、集合的基本运算 增:aset.add('world') >>aset={'h','world','e'
阅读全文
摘要:1、哈希: 输入任意长度,输出固定长度。 即判断是否哈希,即判断可不可变。 2、创建字典 (1)直接创建:dic={1:'a',2:'b',3:'c'} (2)dict函数创建: (3)fromkeys函数创建:(当给所有键赋同样的值可以用) 3、字典相关操作:假如dic是一个词典 (1)len(d
阅读全文
摘要:1、先看看要爬的网站有没有爬虫协议,可以看该网站有没有robots.txt,如豆瓣的: 2、requests模块:【requests是第三方,代码比python自带的urllib模块简单】 先加载requests模块,然后输入要抓取的地址: 结果如下:输出该网页的代码源 运用BeautifulSou
阅读全文
摘要:包、模块、库 包指的是 : 文件夹 模块和库就是.py文件。 其中,库是一些功能相同的模块的集合,其也是模块。 1、import 模块 2、form 库 import 模块 3、import 包.子包.模块 引用时:包.子包.模块.函数() 4、为了方便: from 包.子包 import 模块 引
阅读全文
摘要:Python数据类型: 整型、字符串、浮点型、布尔型 列表、元祖、字典 1、整型: 范围: 32位机子:-231~231-1、 64位机子:-263~263-1 2、浮点型: 复数:(complex) >>x=2.4+6.3j >>type(x)(类型) complex >>x.imag(即虚数部分
阅读全文
摘要:转自:https://morvanzhou.github.io/tutorials/machine-learning/keras/2-2-classifier/#测试模型 下载数据: # download the mnist to the path '~/.keras/datasets/' if i
阅读全文
摘要:转自http://blog.csdn.net/c437yuyang/article/details/54836303 1.打开 cmd 输入命令 jupyter notebook --generate-config 2.找到C:\Users\Administrator\.jupyter 中的文件 j
阅读全文
摘要:1、BP算法的任务: 给定输入样本数据值x1和x2,给定输出值y1和y2,初始化参数w1、w2……、b1、b2……; 目标:调整参数w1、w2……、b1、b2……使输出值接近输出值y1和y2。即求参数。 2、BP算法作用和实质: 用来求解神经网络的算法,是梯度下降和链式求导的结合。 梯度下降: 链式
阅读全文
摘要:http://speech.ee.ntu.edu.tw/~tlkagk/courses/ML_2017/Lecture/DL.mp4 1、步骤 Step1:就是Neural Network。 2、概念 一个logistics regression就是一个Neural,将多个logistics reg
阅读全文
摘要:1、题目:一种新的基于深度学习的协同过滤推荐系统 2、摘要: 以协同过滤(CF)为基础的模型主要获取用户和项目的交互或者相关性。然而,现有的基于CF的方法只能掌握单一类型的关系,如RBM,它只能获取用户-用户或项目-项目关系的相关性,而矩阵分解(MF)可以捕捉到用户-项目之间的相互作用。 为了克服基
阅读全文