2017 年 2月随笔档案 - 最最么么哒

Pandas：让你像写SQL一样做数据分析

摘要：1. 引言 Pandas是一个开源的Python数据分析库。Pandas把结构化数据分为了三类： Series，1维序列，可视作为没有column名的、只有一个column的DataFrame； DataFrame，同Spark SQL中的DataFrame一样，其概念来自于R语言，为多column 阅读全文

posted @ 2017-02-22 17:22 最最么么哒阅读(7588) 评论(0) 推荐(1) 编辑

Python中实现count(distinct )

摘要：假设一个表有6个字段c1,c2,c3,c4,c5,c6，有如下的sql语句: select c1,count(distinct(c6)) from tbl where c3>1 group by c3; Python中asq模块可以实现类似的查询，以下用一个示例说明。运行结果: [[6, 3], 阅读全文

posted @ 2017-02-21 19:23 最最么么哒阅读(13345) 评论(0) 推荐(0) 编辑

Python count()方法

摘要：描述 Python count() 方法用于统计字符串里某个字符出现的次数。可选参数为在字符串搜索的开始与结束位置。语法 count()方法语法：参数 sub -- 搜索的子字符串 start -- 字符串开始搜索的位置。默认为第一个字符,第一个字符索引值为0。 end -- 字符串中结束搜索的阅读全文

posted @ 2017-02-21 14:15 最最么么哒阅读(6726) 评论(0) 推荐(1) 编辑

用python做数据分析pandas库介绍之DataFrame基本操作

摘要：怎样删除list中空字符？最简单的方法：new_list = [ x for x in li if x != '' ] 这一部分主要学习pandas中基于前面两种数据结构的基本操作。设有DataFrame结果的数据a如下所示： a b c one 4 1 1 two 6 2 0 three 6 阅读全文

posted @ 2017-02-21 11:00 最最么么哒阅读(113562) 评论(0) 推荐(1) 编辑

Python中的sorted() 和 list.sort() 的用法总结

摘要：该文章为转载；原文地址为：http://www.cnblogs.com/freemao/p/3869994.html 只要是可迭代对象都可以用sorted 。 sorted(itrearble, cmp=None, key=None, reverse=False) =号后面是默认值默认是升序排序的阅读全文

posted @ 2017-02-21 10:41 最最么么哒阅读(15913) 评论(0) 推荐(1) 编辑

02 2017 档案

公告