摘要: 1.分组后查询前几列数据 row_number() over (partition by p_day,uid order by time asc) num num = 1 取第一个,num<=10取分区后前十个 2.lag/lead 某一行前/后附近一行的数据 lag(url,1,2001) ove 阅读全文
posted @ 2018-12-17 17:28 haoziii 阅读(146) 评论(0) 推荐(0) 编辑
摘要: 如果需要导入的模块与正在编写的程序处于同一文件夹内,可以直接import导入。 如果是上级目录: 如果是上级目录的上级目录,增加“/..”(以此类推): 阅读全文
posted @ 2018-07-06 12:11 haoziii 阅读(411) 评论(0) 推荐(0) 编辑
摘要: 冒泡和插数的算法对于大量数据效率太低,可以用下面这种方法。 阅读全文
posted @ 2018-06-29 15:35 haoziii 阅读(158) 评论(0) 推荐(0) 编辑
摘要: PATH_FILE_DIRECTORY:文件目录路径 PATH_FILE:文件路径 阅读全文
posted @ 2018-06-25 14:45 haoziii 阅读(126) 评论(0) 推荐(0) 编辑
摘要: 1.时间处理 格式化时间 pd.to_datetime(),其中输入一个时间形式的str或者一列数据都行。如, 生成时间序列 pd.date_range(),其中主要输入的参数,起止时间或序列长度、间隔。如, 时间加减 2.行列操作 删除空行 df.dropna(),可以选择某一列,也可以全选,删掉 阅读全文
posted @ 2018-04-13 11:44 haoziii 阅读(297) 评论(0) 推荐(0) 编辑
摘要: html文件 <form>中,enctype设置为multipart/form-data,才能完整的传递文件数据。 后端 如果上传的excel文件包含多个sheet,不能这样做。这样只能读到Sheet1,读不到Sheet2. 而要这样: 阅读全文
posted @ 2018-03-29 17:16 haoziii 阅读(3694) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2018-03-19 11:50 haoziii 阅读(122) 评论(0) 推荐(0) 编辑
摘要: 导入模块: 生成DataFrame数据 DataFrame数据预览: 计算各列数据总和并作为新列添加到末尾 计算各行数据总和并作为新行添加到末尾 最终数据结果: 2017-07-07 11:19:54 阅读全文
posted @ 2017-07-07 11:21 haoziii 阅读(1231) 评论(0) 推荐(0) 编辑