02 2017 档案

摘要:1. 引言 Pandas是一个开源的Python数据分析库。Pandas把结构化数据分为了三类: Series,1维序列,可视作为没有column名的、只有一个column的DataFrame; DataFrame,同Spark SQL中的DataFrame一样,其概念来自于R语言,为多column 阅读全文
posted @ 2017-02-22 17:22 最最么么哒 阅读(7580) 评论(0) 推荐(1) 编辑
摘要:假设一个表有6个字段c1,c2,c3,c4,c5,c6,有如下的sql语句: select c1,count(distinct(c6)) from tbl where c3>1 group by c3; Python中asq模块可以实现类似的查询,以下用一个示例说明。 运行结果: [[6, 3], 阅读全文
posted @ 2017-02-21 19:23 最最么么哒 阅读(13333) 评论(0) 推荐(0) 编辑
摘要:描述 Python count() 方法用于统计字符串里某个字符出现的次数。可选参数为在字符串搜索的开始与结束位置。 语法 count()方法语法: 参数 sub -- 搜索的子字符串 start -- 字符串开始搜索的位置。默认为第一个字符,第一个字符索引值为0。 end -- 字符串中结束搜索的 阅读全文
posted @ 2017-02-21 14:15 最最么么哒 阅读(6719) 评论(0) 推荐(1) 编辑
摘要:怎样删除list中空字符? 最简单的方法:new_list = [ x for x in li if x != '' ] 这一部分主要学习pandas中基于前面两种数据结构的基本操作。 设有DataFrame结果的数据a如下所示: a b c one 4 1 1 two 6 2 0 three 6 阅读全文
posted @ 2017-02-21 11:00 最最么么哒 阅读(113541) 评论(0) 推荐(1) 编辑
摘要:该文章为转载;原文地址为:http://www.cnblogs.com/freemao/p/3869994.html 只要是可迭代对象都可以用sorted 。 sorted(itrearble, cmp=None, key=None, reverse=False) =号后面是默认值 默认是升序排序的 阅读全文
posted @ 2017-02-21 10:41 最最么么哒 阅读(15897) 评论(0) 推荐(1) 编辑