摘要: Padas的pivot_table做交叉表变换后支持总计功能,但是分类的小计功能需要自己动手实现。在实现这个小计的功能时,好好研究了下交叉表的属性,写了下开发流程,当初走了点弯路,总结如下: 下图是开发前手写的流程: 按着这个流程开发到中途遇到点麻烦,又转而尝试了其它方式,因为我们的应用是把交叉表导 阅读全文
posted @ 2018-01-24 10:37 就今夜 阅读(817) 评论(0) 推荐(0) 编辑
摘要: 由于对接impala数据源,原本对接Oracle数据库速度还可以的,因为impala响应查询的性能大并发下的不稳定,故把原本关闭的缓存放开,先修改的配置信息如下。在superset目录下的全局配置文件config.py下面修改或新增: CHCHE_DIR目录是你自己定义的缓存文件存放路径,最好是在当 阅读全文
posted @ 2018-01-24 09:53 就今夜 阅读(1286) 评论(0) 推荐(0) 编辑
 
摘要: 公司最近在superset上面做二次开发,目前对接了mysql和oracle数据源,对这两个源的SQL操作查询做了完善和兼容。目前有新的需求就是要对接大数据部门的HBASE和HIVE数据源,由于superset原生支持impala,所以直接安装库测试。 Superset是由Airbnb(知名在线房屋 阅读全文
posted @ 2017-10-30 09:42 就今夜 阅读(5160) 评论(5) 推荐(1) 编辑
 
摘要: 实现过程很简单,主要注意有2点:1.安装PIL库,设置好字体保存目录 2.如果直接返回图片的二进制数据流的話,如下: 阅读全文
posted @ 2017-06-08 10:55 就今夜 阅读(1186) 评论(0) 推荐(0) 编辑
  2018年5月24日
摘要: Python爬虫原理 Python爬虫原理 前言 简单来说互联网是由一个个站点和网络设备组成的大网,我们通过浏览器访问站点,站点把HTML、JS、CSS代码返回给浏览器,这些代码经过浏览器解析、渲染,将丰富多彩的网页呈现我们眼前; 一、爬虫是什么? 如果我们把互联网比作一张大的蜘蛛网,数据便是存放于 阅读全文
posted @ 2018-05-24 16:46 就今夜 阅读(285) 评论(0) 推荐(0) 编辑
  2017年11月10日
摘要: 最近工作上有个新需求就是按照交叉表在superset上显示的数据原样导出到Excel文档,目前最新版本的superset不支持导出交叉表格式的数据,任何导出的表都是基本的二维表格的csv,刚好最近在学习pandas这个工具。阅读文档可以看到导出提供的接口:Pivot_table接口如下: 提供了to 阅读全文
posted @ 2017-11-10 11:02 就今夜 阅读(3582) 评论(3) 推荐(0) 编辑
  2017年10月31日
摘要: 最近对接日本的数据源,视图页面显示正常,但是导出结果数据到CSV文件会出现乱码,经过查找原因是EXCEL表仅支持带BOM(Byte Order Mark)的表格式,否则出现乱码。 As UTF-8 is an 8-bit encoding no BOM is required and anyU+FE 阅读全文
posted @ 2017-10-31 10:05 就今夜 阅读(3897) 评论(0) 推荐(0) 编辑
  2015年6月19日
摘要: 当我们在服务器端记录日志或文本数据时,有时候会有需要删除一个大文件的最后几行,这时如何才能高效实现。上网浏览终于找到dd命令,亲测如下,删除一个32GB的日志文件最后100行仅需要4分钟[root@game1_10 tmp]# dd of=sqq_jobs_run.log.bak seek=1 bs... 阅读全文
posted @ 2015-06-19 16:33 就今夜 阅读(4312) 评论(2) 推荐(0) 编辑
  2015年4月11日
摘要: 有时候需要测试一个对象,尤其是在写一个函数或则方法到时候,需要测试传入的参数是否是一个字符串(或这个对象是否类似于字符串的行为):下面的方式是利用内建的isinstance和basestring来简单快速的检查某个对象是否是字符串或Unicode对象的方法,如下:def isAString(anob... 阅读全文
posted @ 2015-04-11 00:22 就今夜 阅读(402) 评论(0) 推荐(0) 编辑