随笔分类 - 数据分析
pandas/numpy/sql
摘要:对于在一个长字符串中搜索匹配一个短字符串的方法,KMP算法首先将子字符串第一个字符与长字符串对比,依次向下, 直到对应字符不同。这时候 一般的方法是从头来过,重新挨个对比。而KMP算法则是利用已知信息将待对比部分右移,右移的值为:已对比字符串长度-部分匹配值 在这里是6-2,其中部分匹配值为已匹配字
阅读全文
摘要:1.Timedelta基本概念 首先导入pandas库 import pandas as pd; 1 Timedelta在pandas中是一个表示两个datetime值之间的差(如日,秒和微妙)的类型,2个Datetime数据运算相减得出的结果就是一个Timedelta数据类型 Datetime只支
阅读全文
摘要:属性和数据DataFrame.axes #index: 行标签;columns: 列标签DataFrame.as_matrix([columns]) #转换为矩阵DataFrame.dtypes #返回数据的类型DataFrame.ftypes #返回每一列的 数据类型float64:denseDa
阅读全文
摘要:https://www.cnblogs.com/Acceptyly/p/3562100.html 朴素贝叶斯的优点: 对小规模的数据表现很好,适合多分类任务,适合增量式训练。 缺点: 对输入数据的表达形式很敏感。 决策树的优点: 计算量简单,可解释性强,比较适合处理有缺失属性值的样本,能够处理不相关
阅读全文
摘要:转自:http://www.cnblogs.com/tornadomeet/p/3395593.html 常见机器学习算法(主要是一些常规分类器)大概流程和主要思想,希望对大家找机器学习岗位时有点帮助。实际上在面试过程中,懂这些算法的基本思想和大概流程是远远不够的,那些面试官往往问的都是一些公司内部
阅读全文
摘要:数据来源:Kaggle 分析目的:对数据进行分析、处理,进而训练、预测。 一、查看数据 import pandas as pddata_train = pd.read_csv('E:/pythonob/data/Titantic/mytrain.csv') #读取csv数据文件pd.set_opti
阅读全文
摘要:分析250条电影数据的类型数量分布# coding = utf-8import pandas as pdimport numpy as npfrom matplotlib import pyplot as pltfrom matplotlib import font_managermy_font =
阅读全文
摘要:# coding = utf-8# encoding:utf-8import reimport sysfrom collections import OrderedDictimport pandas as pdimport requestsfrom bs4 import BeautifulSoup#
阅读全文
摘要:# coding = utf-8import numpy as npdef nan_fill(a): for i in range(a.shape[1]): temp_col = a[:, i] count_col_nan = np.count_nonzero(temp_col == temp_co
阅读全文
摘要:四部电影三天内的票房统计# coding=utf-8from matplotlib import pyplot as pltfrom matplotlib import font_managermy_font = font_manager.FontProperties(fname='C:/Windo
阅读全文
摘要:# coding = utf-8from matplotlib import pyplot as pltimport randomfrom matplotlib import font_managerimport matplotlib#matplotlib设置字体#法一:适用于windows/lin
阅读全文
摘要:# coding=utf-8from matplotlib import pyplot as pltx = range(2,26,2)y = [15,13,14.5,17,20,25,26,26,24,22,18,15]fig = plt.figure(figsize=(20,8),dpi=80)#
阅读全文
摘要:from matplotlib import pyplot as pltinterval = [0, 5, 10, 15, 20, 25, 30, 35, 40, 45, 60, 90] # 时间width = [5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 15, 30,
阅读全文
摘要:# coding = utf-8from matplotlib import pyplot as pltimport randomy = [random.randint(90, 181) for i in range(250)] #随机生成250个大小在90-180的数字列表bin_width =
阅读全文
摘要:def __init__(self, url, start_page, pages, page_size): """ 初始化 @param url: 爬取主网址 @param start_page: 起始页码 @param pages: 总页码(截止页码) @param page_size: 每页的
阅读全文
摘要:pd.set_option('display.float_format',lambda x: '%.2f'%x) pd.set_option('display.expand_frame_repr',False) #显示所有列 pd.set_option('display.max_columns',
阅读全文