数据分析 - 随笔分类 - Bambo0

KMP字符串匹配算法

摘要：对于在一个长字符串中搜索匹配一个短字符串的方法，KMP算法首先将子字符串第一个字符与长字符串对比，依次向下，直到对应字符不同。这时候一般的方法是从头来过，重新挨个对比。而KMP算法则是利用已知信息将待对比部分右移，右移的值为：已对比字符串长度-部分匹配值在这里是6-2，其中部分匹配值为已匹配字阅读全文

posted @ 2020-10-30 19:28 Bambo0 阅读(84) 评论(0) 推荐(0)

Pandas Timedelta

摘要：1.Timedelta基本概念首先导入pandas库 import pandas as pd; 1 Timedelta在pandas中是一个表示两个datetime值之间的差(如日,秒和微妙)的类型,2个Datetime数据运算相减得出的结果就是一个Timedelta数据类型 Datetime只支阅读全文

posted @ 2020-10-27 14:15 Bambo0 阅读(205) 评论(0) 推荐(0)

DataFrame基本函数

摘要：属性和数据DataFrame.axes #index: 行标签；columns: 列标签DataFrame.as_matrix([columns]) #转换为矩阵DataFrame.dtypes #返回数据的类型DataFrame.ftypes #返回每一列的数据类型float64:denseDa 阅读全文

posted @ 2020-10-21 16:12 Bambo0 阅读(801) 评论(0) 推荐(0)

机器学习常用算法优缺点

摘要：https://www.cnblogs.com/Acceptyly/p/3562100.html 朴素贝叶斯的优点：对小规模的数据表现很好，适合多分类任务，适合增量式训练。缺点：对输入数据的表达形式很敏感。决策树的优点：计算量简单，可解释性强，比较适合处理有缺失属性值的样本，能够处理不相关阅读全文

posted @ 2020-10-09 19:43 Bambo0 阅读(342) 评论(0) 推荐(0)

机器学习常用算法

摘要：转自：http://www.cnblogs.com/tornadomeet/p/3395593.html 常见机器学习算法（主要是一些常规分类器）大概流程和主要思想，希望对大家找机器学习岗位时有点帮助。实际上在面试过程中，懂这些算法的基本思想和大概流程是远远不够的，那些面试官往往问的都是一些公司内部阅读全文

posted @ 2020-10-09 19:42 Bambo0 阅读(220) 评论(0) 推荐(0)

Titantic乘客数据分析

摘要：数据来源：Kaggle 分析目的：对数据进行分析、处理，进而训练、预测。一、查看数据 import pandas as pddata_train = pd.read_csv('E:/pythonob/data/Titantic/mytrain.csv') #读取csv数据文件pd.set_opti 阅读全文

posted @ 2020-09-19 23:12 Bambo0 阅读(580) 评论(0) 推荐(0)

http状态码

摘要：阅读全文

posted @ 2020-03-20 16:52 Bambo0 阅读(113) 评论(0) 推荐(0)

豆瓣电影数据分析

摘要：分析250条电影数据的类型数量分布# coding = utf-8import pandas as pdimport numpy as npfrom matplotlib import pyplot as pltfrom matplotlib import font_managermy_font = 阅读全文

posted @ 2020-03-20 14:44 Bambo0 阅读(635) 评论(0) 推荐(0)

豆瓣电影Top250数据爬取学习

摘要：# coding = utf-8# encoding:utf-8import reimport sysfrom collections import OrderedDictimport pandas as pdimport requestsfrom bs4 import BeautifulSoup# 阅读全文

posted @ 2020-03-20 14:39 Bambo0 阅读(292) 评论(0) 推荐(0)

numpy_将nan替换为均值

摘要：# coding = utf-8import numpy as npdef nan_fill(a): for i in range(a.shape[1]): temp_col = a[:, i] count_col_nan = np.count_nonzero(temp_col == temp_co 阅读全文

posted @ 2020-03-20 14:36 Bambo0 阅读(1228) 评论(0) 推荐(0)

多次条形图

摘要：四部电影三天内的票房统计# coding=utf-8from matplotlib import pyplot as pltfrom matplotlib import font_managermy_font = font_manager.FontProperties(fname='C:/Windo 阅读全文

posted @ 2020-03-20 14:34 Bambo0 阅读(116) 评论(0) 推荐(0)

气温变化折线图/matplotlib中文显示

摘要：# coding = utf-8from matplotlib import pyplot as pltimport randomfrom matplotlib import font_managerimport matplotlib#matplotlib设置字体#法一：适用于windows/lin 阅读全文

posted @ 2020-03-20 14:32 Bambo0 阅读(812) 评论(0) 推荐(0)

基本折线图

摘要：# coding=utf-8from matplotlib import pyplot as pltx = range(2,26,2)y = [15,13,14.5,17,20,25,26,26,24,22,18,15]fig = plt.figure(figsize=(20,8),dpi=80)# 阅读全文

posted @ 2020-03-20 14:28 Bambo0 阅读(190) 评论(0) 推荐(0)

根据统计数据画直方图

摘要：from matplotlib import pyplot as pltinterval = [0, 5, 10, 15, 20, 25, 30, 35, 40, 45, 60, 90] # 时间width = [5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 15, 30, 阅读全文

posted @ 2020-03-20 14:25 Bambo0 阅读(451) 评论(0) 推荐(0)

matplotlib直方图绘制（hist）

摘要：# coding = utf-8from matplotlib import pyplot as pltimport randomy = [random.randint(90, 181) for i in range(250)] #随机生成250个大小在90-180的数字列表bin_width = 阅读全文

posted @ 2020-03-20 14:23 Bambo0 阅读(1178) 评论(0) 推荐(0)

豆瓣Top250电影数据爬取学习

摘要：def __init__(self, url, start_page, pages, page_size): """ 初始化 @param url: 爬取主网址 @param start_page: 起始页码 @param pages: 总页码（截止页码） @param page_size: 每页的阅读全文

posted @ 2020-03-20 14:18 Bambo0 阅读(361) 评论(0) 推荐(0)

pd.set_option参数设置

摘要：pd.set_option('display.float_format',lambda x: '%.2f'%x) pd.set_option('display.expand_frame_repr',False) #显示所有列 pd.set_option('display.max_columns', 阅读全文

posted @ 2020-03-20 14:16 Bambo0 阅读(1701) 评论(0) 推荐(0)

Bambo0

随笔分类 - 数据分析

公告