07 2020 档案

摘要:情况:重复索引与非重复索引的取值返回类型是不一样的。 dfa = pd.DataFrame(np.random.randn(6, 4),index=list('aacdeb'),columns=list('ABCD')) dfa print('存在重复索引取一列的情况:',type(dfa.loc[ 阅读全文
posted @ 2020-07-30 21:30 forxtz 阅读(3419) 评论(0) 推荐(0)
摘要:情况:业务数据基本字段会有如下: Index(['时间', '地区', '产品', '字段', '数值'], dtype='object') 这样就会引发一个经典“三角不可能定理”,如何同时简约展现分时序、分产品、分字段数据。)一般来说, 1、时序为作为单独的分类, 2、然后剩下两个标签就是,要么: 阅读全文
posted @ 2020-07-30 00:12 forxtz 阅读(273) 评论(0) 推荐(0)
摘要:pandas 一维台账数据与二维表格数据的转换:https://www.cnblogs.com/cycxtz/p/13394583.html 使用pivot_table或多或少会遇到,分机构空行不显示的问题,导致数据样式有点不统一,部分表的机构数量比较少。 可以使用解决: pd.merge(left 阅读全文
posted @ 2020-07-29 20:42 forxtz 阅读(171) 评论(0) 推荐(0)
摘要:需求:低版本excel对于使用透视表后,索引方向会出现合并,需要将其恢复为“台账”样式。 解决方法:可以使用reset_index()。 在Pandas中如何给多层索引降级: https://blog.csdn.net/qq_36387683/article/details/86616367 pan 阅读全文
posted @ 2020-07-28 23:38 forxtz 阅读(1043) 评论(0) 推荐(0)
摘要:对前文 https://www.cnblogs.com/cycxtz/p/13378922.html 思路1进行补充。 可以考虑jieba分词库,不过需要先进行训练。 依赖库:jieba 提前准备:国家统计局所有地区信息,以及地区简写。 下来,对使用jieba分词库的add_word。参考使用网站: 阅读全文
posted @ 2020-07-26 19:58 forxtz 阅读(1132) 评论(0) 推荐(0)
摘要:需求:由于业务检查需求,需要将一个结构化地址,如”XX省XX市XX区XXX号“地区转化为对应国家统计区行政划分的 省、市、区(县)、镇(街道)、乡结构。 解决思路: 1、自行编制文本解析方法,考虑比较复杂,很多情况不能覆盖,暂时不考虑,如果能解析,则速度会比较快。 2、通过爬虫,在百度搜索“百度百科 阅读全文
posted @ 2020-07-26 12:19 forxtz 阅读(2818) 评论(4) 推荐(0)
摘要:目的:基于办公与互联网隔离,自带的office软件没有带本地帮助工具,因此在写vba程序时比较不方便(后来发现07有自带,心中吐血,瞎折腾些什么)。所以想到通过爬虫在官方摘录下来作为参考。 目标网站:https://docs.microsoft.com/zh-cn/office/vba/api/ov 阅读全文
posted @ 2020-07-15 00:25 forxtz 阅读(2277) 评论(0) 推荐(0)