2019 年 8月随笔档案 - ---江北

flink入门（一）——基本原理与应用场景

摘要：一、简介 1.简介 flink是一个开源的分布式流处理框架优势：高性能处理、高度灵活window操作、有状态计算的Exactly-once等详情简介，参考官网：https://flink.apache.org/flink-architecture.html 中文参考：https://flink. 阅读全文

posted @ 2019-08-28 17:34 ---江北阅读(759) 评论(0) 推荐(1) 编辑

python操作excel——openpyxl

摘要：一、概述 python操作excel各个库对比：https://www.cnblogs.com/paul-liang/p/9187503.html 操作老版本的excel文件使用xlrd：参考：https://segmentfault.com/a/1190000017485618 https://w 阅读全文

posted @ 2019-08-20 21:58 ---江北阅读(508) 评论(0) 推荐(0) 编辑

数据分析入门——苹果股价分析

摘要：参考数据来自雅虎财经：https://finance.yahoo.com/quote/AAPL/history?p=AAPL 1.导包 2.导入数据导入数据方法，参考美国各州人口分析随笔检查数据类型dtypes：其他，行数等同理：使用to_datetime进行数据类型转换：转换成时间是更容阅读全文

posted @ 2019-08-18 11:19 ---江北阅读(702) 评论(0) 推荐(0) 编辑

数据分析入门——美国各州人口分析

摘要：1.案例数据来自python数据分析手册,github地址：https://github.com/jakevdp/PythonDataScienceHandbook/tree/master/notebooks/data 不克隆项目，怎么在github下载单个文件？：https://www.cnblo 阅读全文

posted @ 2019-08-17 16:32 ---江北阅读(1033) 评论(0) 推荐(0) 编辑

数据分析入门——pandas数据处理

摘要：1，处理重复数据使用duplicated检测重复的行，返回一个series，如果不是第一次出现，也就是有重复行的时候，则为True：对应的，可以使用drop_duplicates来删除重复的行：以上两个方法，都不能有重复的列！ 2.map函数：列处理 map() 是一个Series的函数，Da 阅读全文

posted @ 2019-08-16 11:11 ---江北阅读(663) 评论(0) 推荐(0) 编辑

数据分析入门——pandas之合并函数merge

摘要：merge有点类似SQL中的join，可以将不同数据集按照某些字段进行合并，得到新的数据集 1.参数一览表： 2.一对一连接：默认情况下，会按照相同字段的进行连接例如有相同字段emp的两个df，merge的时候就会根据emp进行连接，且根据参数知道，默认是内连接：使用默认的不是很明了，通常情况下阅读全文

posted @ 2019-08-14 23:32 ---江北阅读(5823) 评论(0) 推荐(0) 编辑

数据分析入门——pandas之数据合并

摘要：主要分为：级联：pd.concat、pd.append 合并：pd.merge 一、numpy级联的回顾详细参考numpy章节 https://www.cnblogs.com/jiangbei/p/11287238.html 二、pd中concat函数 1.简单级联和numpy的级联类似，默认增阅读全文

posted @ 2019-08-14 17:38 ---江北阅读(829) 评论(0) 推荐(0) 编辑

数据分析入门——pandas之DataFrame多层/多级索引与聚合操作

摘要：一、行多层索引 1.隐式创建在构造函数中给index、colunms等多个数组实现（datafarme与series都可以） df的多级索引创建方法类似： 2.显式创建pd.MultiIndex 其中.from_arrays为类似上面的参数，推荐使用简单的from_product函数（会自动进行交阅读全文

posted @ 2019-08-11 20:51 ---江北阅读(18831) 评论(0) 推荐(0) 编辑

数据分析入门——pandas之DataFrame数据丢失

摘要：一、数据丢失分类 1）nd中分为两种：None和np.nan（NaN）其中，None是python中的对象，是一个object；而nan是一个float类型两种不同的类型，运算速度也是不同的 2）pandas中两种都视作NaN（np.nan）二、数据丢失处理通过控制columns来创建有Na 阅读全文

posted @ 2019-08-07 09:49 ---江北阅读(740) 评论(0) 推荐(0) 编辑

MaxComputer——pyodps

该文被密码保护。

posted @ 2019-08-06 10:21 ---江北阅读(15) 评论(0) 推荐(0) 编辑

数据分析入门——pandas之DataFrame基本概念

摘要：一、介绍数据帧(DataFrame)是二维数据结构，即数据以行和列的表格方式排列。可以看作是Series的二维拓展，但是df有行列索引：index、column 推荐参考：https://www.jianshu.com/p/c534e83d2f4b 二、快速入门 1.打开csv 发现报错，原因是阅读全文

posted @ 2019-08-04 09:52 ---江北阅读(1670) 评论(0) 推荐(0) 编辑

数据分析入门——pandas之Series

摘要：一、介绍 Pandas是一个开源的，BSD许可的库（基于numpy），为Python编程语言提供高性能，易于使用的数据结构和数据分析工具。官方中文文档：https://www.pypandas.cn/docs/ 本次演示使用数据来自github：https://github.com/jakevdp 阅读全文

posted @ 2019-08-03 18:01 ---江北阅读(902) 评论(0) 推荐(0) 编辑

数据分析入门——numpy

摘要：一、什么是numpy Numpy提供了一个在Python中做科学计算的基础库，重在数值计算，主要用于处理多维数组（矩阵）的库。用来存储和处理大型矩阵，比Python自身的嵌套列表结构要高效的多。本身是由C语言开发，是个很基础的扩展，Python其余的科学计算扩展大部分都是以此为基础。二、快速入门n 阅读全文

posted @ 2019-08-02 10:51 ---江北阅读(548) 评论(0) 推荐(0) 编辑

数据分析入门——IPython入门

摘要：一、什么是IPython IPython的开发者吸收了标准解释器的基本概念，在此基础上进行了大量的改进，创造出一个令人惊奇的工具。在它的主页上是这么说的：“这是一个增强的交互式Python shell。”具有tab补全，对象自省，强大的历史机制，内嵌的源代码编辑，集成Python调试器，%run机制阅读全文

posted @ 2019-08-02 00:09 ---江北阅读(324) 评论(0) 推荐(0) 编辑

---江北

冰冻三尺，非一日之寒

08 2019 档案

公告

搜索

随笔分类 (476)

随笔档案 (456)

阅读排行榜