2018 年 3月随笔档案 - 吱吱了了

数据分析例子-------CTR1

摘要：1、CTR：（1）几个概念： impression（展示）：用户看到该广告的次数。也就是一个广告被显示了多少次，它就计数多少。比如：打开网站的一个页面，网站上的所有广告就被显示了一次，每个广告增加1个，如果刷新就再增加一个。 click（点击）：用户点击该广告的次数 CTR：click throu 阅读全文

posted @ 2018-03-30 19:04 吱吱了了阅读(1105) 评论(0) 推荐(0) 编辑

Python数据分析5-----数据规约

摘要：1、数据规约概念和目的数据规约是产生更小且保留数据完整性的新数据集。意义：降低无效错误数据的影响、更有效率、降低存储成本。 2、属性规约（1）属性合并（降维）：比如PCA （2）删除不相关属性 3、数值规约：离散化也算是数值规约阅读全文

posted @ 2018-03-30 13:33 吱吱了了阅读(1221) 评论(0) 推荐(0) 编辑

Python数据分析4------------数据变换

摘要：1、简单变换：开方、平方、对数等 2、数据规范化：（1）离差标准化（最小最大标准化）：消除量纲（单位）影响以及变异大小因素的影响。 x1=（x-min)/(max-min) 代码：data1=(data-min())/(data.max()-data.min()) （2）标准差标准化（0-均值标阅读全文

posted @ 2018-03-29 19:36 吱吱了了阅读(2468) 评论(0) 推荐(0) 编辑

Python数据分析3------数据预处理

摘要：一、数据清洗这一个步骤可以和数据探索并行。（1）标签分类数据处理：LabelEncoder【将分类数据变成0-n的值】（2）one-hot编码 2、数据集成（1）概念数据挖掘往往分布在不同的数据源中，进行数据分析时需要将多个不同的数据源整合到同一个数据存储（如数据仓库）中。但是来自不同地方阅读全文

posted @ 2018-03-29 14:21 吱吱了了阅读(581) 评论(0) 推荐(0) 编辑

Python数据分析2------数据探索

摘要：一、数据探索数据探索的目的：及早发现数据的一些简单规律或特征数据清洗的目的：留下可靠数据，避免脏数据的干扰。两者没有严格的先后顺序，经常在一个阶段进行。分为：（1）数据质量分析（跟数据清洗密切联系）：缺失值分析、异常值分析、一致性分析、重复数据或含有特殊符号的数据分析（2）数据特征分析（阅读全文

posted @ 2018-03-28 16:45 吱吱了了阅读(1920) 评论(0) 推荐(0) 编辑

Mysql5.7安装过程----win10

摘要：恢复内容开始 1、Mysql官网：https://www.mysql.com/downloads/ 有两种下载方式：msi和zip压缩包 2、我下载的是zip压缩包，选择mysql community server 64位5.7.21版本。 3、将下载的压缩包解压到合适的路径并可以修改文件名。E:\ 阅读全文

posted @ 2018-03-28 14:12 吱吱了了阅读(253) 评论(0) 推荐(0) 编辑

数据分析常用函数（1）

摘要：参考链接：https://blog.csdn.net/qq_16234613/article/details/64217337 1、describe（）：该函数主要对数据进行一个基本的统计，输出数据的总数量（count）、平均值（mean）、标准差(std)、最小值和最大值（min、max)、分位数阅读全文

posted @ 2018-03-28 10:54 吱吱了了阅读(393) 评论(0) 推荐(0) 编辑

数据分析相关模块

摘要：1、简介：（1）numpy：（科学计算）高效处理数据，提供数组支持，很多模块都依赖它，是一个基础。（2）pandas：数据探索和数据分析（两个重要的数据结构series 和dataframe）（3）matplotlib：作图模块，可视化（4）scipy：主要进行数值计算，支持矩阵计算，高等数阅读全文

posted @ 2018-03-28 10:11 吱吱了了阅读(363) 评论(0) 推荐(0) 编辑

Python笔记18-----函数收集参数

摘要：1、收集参数（参数前面加*）： def test1(param1,*params): print(param1) print(params) 调用：test1(1,2,3,4) 结果：1 （2，3，4） 2、收集参数的逆过程 def test2（x,y）: return x+y 调用：params= 阅读全文

posted @ 2018-03-27 19:34 吱吱了了阅读(180) 评论(0) 推荐(0) 编辑

Python笔记17---------魔法方法

摘要：魔法方法也为特殊方法，即用两个下划线形成的（__方法__）。自己定义的方法最好不要采用这种方式，因为这些方法会在一些特殊的情况下直接被调用。 1、第一个魔法方法：类中常用的__init__（）方法：相当于其他语言中的构造函数，用来初始化参数当类的一个对象被创建之后会立即调用构造函数。 2. __ 阅读全文

posted @ 2018-03-27 17:04 吱吱了了阅读(206) 评论(0) 推荐(0) 编辑

Python编码显示中文乱码

摘要：爬虫时出现问题： import requests data=requests.get('http://roll.news.sina.com.cn/')print(data.text) 输出结果中文显示乱码，如下图：原因是，Spyder默认的编码是utf-8，要将其转码成'gb2312' 加上：da 阅读全文

posted @ 2018-03-26 21:35 吱吱了了阅读(2928) 评论(0) 推荐(0) 编辑

anaconda下jieba和wordcloud安装

摘要：1、在anaconda交互环境下安装jieba，输入命令: pip install jieba 2、在https://pypi.python.org/pypi/wordcloud下载wordcloud，在anaconda prompt下转到下载文件的目录，然后执行命令： pip install 文件阅读全文

posted @ 2018-03-26 20:31 吱吱了了阅读(1141) 评论(0) 推荐(0) 编辑

Python笔记16-------类

摘要：1、类的定义（1）#括号中要加入父类，如果没有则默认为object，万类之源 class 类名(父类）: '类的文档字符串' 类体代码若类什么都不做，则类只作为命名空间，仅作为一个容器。（2）类的方法定义 #方法的第一个参数为self，它为调用对象本身，不一定要实参与它对应。 #方法只有在类被阅读全文

posted @ 2018-03-26 17:01 吱吱了了阅读(220) 评论(0) 推荐(0) 编辑

Python笔记15------图像

摘要：主要三个库：Pilow(PIL)、OpenCV、Skimage(针对scipy，用的少）小例子：给一张图片的左上角粘贴一个相同的图片（缩略并旋转了45度） from PIL import Imageim1=Image.open('1.jpg') #输出图像的像素、格式、JPG等print(im1. 阅读全文

posted @ 2018-03-25 21:54 吱吱了了阅读(203) 评论(0) 推荐(0) 编辑

Python数据分析1------数据存取

摘要：1、CSV格式数据: 1.1普通读取和保存可以以纯文本形式打开，可以保存多条记录，每条记录的数据之间默认用逗号来分隔，csv就是逗号分割值的英文缩写。保存为csv文件： import pandas as pd data=pd.DataFrame(数据源） data.to_csv('文件名.csv 阅读全文

posted @ 2018-03-25 20:55 吱吱了了阅读(1277) 评论(0) 推荐(0) 编辑

Python笔记13------pandas作图

摘要：1、pandas可以用来画DataFrame和Series的图如： import numpy as npimport matplotlib.pyplot as pltimport pandas as pdx = np.linspace(0, 1)y = np.sin(4 * np.pi * x) 阅读全文

posted @ 2018-03-25 20:01 吱吱了了阅读(374) 评论(0) 推荐(0) 编辑

Python笔记12-----画图Matplotlib

摘要：1、matplotlib：pyplot和pylab 如： import pylab as pl pl.figure(figsize=(8,6),dpi=100)【建立的图像大小和图的精度】 pl.plot(x,y,label='Line1') pl.plot(x,y,label='Line2') p 阅读全文

posted @ 2018-03-25 19:43 吱吱了了阅读(607) 评论(0) 推荐(0) 编辑

Python笔记11------一个K-means聚类的小例子

摘要：输出结果： [0 1 1 0 0 1] 根据数据可以看出0为学渣，1为学霸。 6个人中，1、4、5为学渣，2，3，6为学霸。以上为使用Scipy中kmeans来求解的。 sklearn 阅读全文

posted @ 2018-03-25 16:47 吱吱了了阅读(6703) 评论(0) 推荐(0) 编辑

python笔记10-----便捷网络数据NLTK语料库

摘要：1、NLTK的概念 NLTK：Natural language toolkit，是一套基于python的自然语言处理工具。 2、NLTK中集成了语料与模型等的包管理器，通过在python编辑器中执行。 import nltk nltk.download() 便会弹出下面的包管理界面，在管理器中可以下阅读全文

posted @ 2018-03-25 11:35 吱吱了了阅读(281) 评论(0) 推荐(0) 编辑

Python笔记9-----不等长列表转化成DataFrame

摘要：1、不同长度的列表合并成DataFrame。法1： ntest=['a','b'] ltest=[[1,2],[4,5,6]] 先变成等长的列表：(a:1),(a:2),(b:4),(b:5),(b:6) 再转化成DataFrame。 data=[(k,v) for k,l in zip(ntes 阅读全文

posted @ 2018-03-23 14:22 吱吱了了阅读(4532) 评论(0) 推荐(0) 编辑

Python笔记8----DataFrame（二维）

摘要：目录： DataFrame概念 DataFrame创建基本操作查看、索引修改、删除统计功能条件筛选合并去除空值 4. 一些常用的函数 apply memory_usage pivot_table 1、DataFrame概念 Series对应的是一维序列，而DataFrame对应的是二维阅读全文

posted @ 2018-03-22 19:23 吱吱了了阅读(1615) 评论(0) 推荐(0) 编辑

Python笔记7----Pandas中变长字典Series

摘要：1、Series概念类似一维数组的对象，由数据和索引组成 2、Series创建用Series（）函数创建，0,1,2为series结构自带的索引。可以自己指定索引值，用index，也可以直接用字典 3、Series的基本运算 ①所有的索引和值查询：index和value ②查找某个值的索引：b 阅读全文

posted @ 2018-03-22 18:43 吱吱了了阅读(1145) 评论(0) 推荐(0) 编辑

Python笔记6----数组

摘要：1、Python 中的数组形式：用list和tuple等数据结构表示数组一维数组：list=[1,2,3,4] 二维数组：list=[[1,2,3],[4,5,6],[7,8,9]] 用array模块：array模块需要加载，而且运用的较少通过array函数创建数组（数组中的元素可以不是同一阅读全文

posted @ 2018-03-22 17:57 吱吱了了阅读(4738) 评论(0) 推荐(1) 编辑

Python笔记5----集合set

摘要：1、集合的概念：无序不重复分为可变集合(set())和不可变集合(frozenset)两种 2、创建集合 aset=set('hello') >>aset={'h','e','l','o'} 3、集合的基本运算增：aset.add('world') >>aset={'h','world','e' 阅读全文

posted @ 2018-03-22 15:14 吱吱了了阅读(331) 评论(0) 推荐(0) 编辑

python笔记4----字典

摘要：1、哈希：输入任意长度，输出固定长度。即判断是否哈希，即判断可不可变。 2、创建字典（1）直接创建：dic={1:'a',2:'b',3:'c'} （2）dict函数创建：（3）fromkeys函数创建：（当给所有键赋同样的值可以用） 3、字典相关操作：假如dic是一个词典（1）len(d 阅读全文

posted @ 2018-03-22 14:46 吱吱了了阅读(320) 评论(0) 推荐(0) 编辑

python笔记3----第一个小爬虫

摘要：1、先看看要爬的网站有没有爬虫协议，可以看该网站有没有robots.txt，如豆瓣的： 2、requests模块：【requests是第三方，代码比python自带的urllib模块简单】先加载requests模块,然后输入要抓取的地址：结果如下：输出该网页的代码源运用BeautifulSou 阅读全文

posted @ 2018-03-20 13:53 吱吱了了阅读(362) 评论(0) 推荐(0) 编辑

Python笔记2----包、模块、库、条件循环

摘要：包、模块、库包指的是：文件夹模块和库就是.py文件。其中，库是一些功能相同的模块的集合，其也是模块。 1、import 模块 2、form 库 import 模块 3、import 包.子包.模块引用时：包.子包.模块.函数() 4、为了方便： from 包.子包 import 模块引阅读全文

posted @ 2018-03-19 15:26 吱吱了了阅读(186) 评论(0) 推荐(0) 编辑

Python笔记1----数据类型

摘要：Python数据类型：整型、字符串、浮点型、布尔型列表、元祖、字典 1、整型：范围： 32位机子：-231~231-1、 64位机子：-263~263-1 2、浮点型：复数：(complex) >>x=2.4+6.3j >>type(x)（类型） complex >>x.imag（即虚数部分阅读全文

posted @ 2018-03-17 17:46 吱吱了了阅读(205) 评论(0) 推荐(0) 编辑

Keras手写识别例子（1）----softmax

摘要：转自：https://morvanzhou.github.io/tutorials/machine-learning/keras/2-2-classifier/#测试模型下载数据： # download the mnist to the path '~/.keras/datasets/' if i 阅读全文

posted @ 2018-03-15 11:10 吱吱了了阅读(1481) 评论(0) 推荐(0) 编辑

jupyter notebook主目录修改

摘要：转自http://blog.csdn.net/c437yuyang/article/details/54836303 1.打开 cmd 输入命令 jupyter notebook --generate-config 2.找到C:\Users\Administrator\.jupyter 中的文件 j 阅读全文

posted @ 2018-03-14 20:21 吱吱了了阅读(320) 评论(0) 推荐(0) 编辑

BP算法

摘要：1、BP算法的任务：给定输入样本数据值x1和x2，给定输出值y1和y2，初始化参数w1、w2……、b1、b2……；目标：调整参数w1、w2……、b1、b2……使输出值接近输出值y1和y2。即求参数。 2、BP算法作用和实质：用来求解神经网络的算法，是梯度下降和链式求导的结合。梯度下降：链式阅读全文

posted @ 2018-03-13 17:43 吱吱了了阅读(797) 评论(0) 推荐(0) 编辑

神经网络----笔记（1）

摘要：http://speech.ee.ntu.edu.tw/~tlkagk/courses/ML_2017/Lecture/DL.mp4 1、步骤 Step1：就是Neural Network。 2、概念一个logistics regression就是一个Neural，将多个logistics reg 阅读全文

posted @ 2018-03-13 14:31 吱吱了了阅读(182) 评论(0) 推荐(0) 编辑

深度学习应用在推荐系统的论文-----A Novel Deep Learning-Based Collaborative Filtering Model for Recommendation System

摘要：1、题目：一种新的基于深度学习的协同过滤推荐系统 2、摘要：以协同过滤（CF）为基础的模型主要获取用户和项目的交互或者相关性。然而，现有的基于CF的方法只能掌握单一类型的关系，如RBM，它只能获取用户-用户或项目-项目关系的相关性，而矩阵分解（MF）可以捕捉到用户-项目之间的相互作用。为了克服基阅读全文

posted @ 2018-03-12 21:29 吱吱了了阅读(714) 评论(0) 推荐(0) 编辑

03 2018 档案

导航

统计

公告

常用链接

最新随笔

随笔档案