随笔档案「2020年7月」 - forxtz

python pandas DataFrame 关于重复索引取值的一些坑

摘要：情况：重复索引与非重复索引的取值返回类型是不一样的。 dfa = pd.DataFrame(np.random.randn(6, 4),index=list('aacdeb'),columns=list('ABCD')) dfa print('存在重复索引取一列的情况:',type(dfa.loc[ 阅读全文

posted @ 2020-07-30 21:30 forxtz 阅读(3419) 评论(0) 推荐(0)

padans 关于数据处理的杂谈 -- 时序数

摘要：情况：业务数据基本字段会有如下： Index(['时间', '地区', '产品', '字段', '数值'], dtype='object') 这样就会引发一个经典“三角不可能定理”，如何同时简约展现分时序、分产品、分字段数据。）一般来说， 1、时序为作为单独的分类， 2、然后剩下两个标签就是，要么：阅读全文

posted @ 2020-07-30 00:12 forxtz 阅读(273) 评论(0) 推荐(0)

pandas 关于一维台账转二维之后，全空行会不显示的问题。

摘要：pandas 一维台账数据与二维表格数据的转换：https://www.cnblogs.com/cycxtz/p/13394583.html 使用pivot_table或多或少会遇到，分机构空行不显示的问题，导致数据样式有点不统一，部分表的机构数量比较少。可以使用解决: pd.merge(left 阅读全文

posted @ 2020-07-29 20:42 forxtz 阅读(171) 评论(0) 推荐(0)

pandas 一维台账数据与二维表格数据的转换

摘要：需求：低版本excel对于使用透视表后，索引方向会出现合并，需要将其恢复为“台账”样式。解决方法：可以使用reset_index()。在Pandas中如何给多层索引降级： https://blog.csdn.net/qq_36387683/article/details/86616367 pan 阅读全文

posted @ 2020-07-28 23:38 forxtz 阅读(1043) 评论(0) 推荐(0)

python 行政区域地址标准化：业务经理填报的地址乱起八糟，高德接口有点厉害! -- 后续，使用分词思路完成解析

摘要：对前文 https://www.cnblogs.com/cycxtz/p/13378922.html 思路1进行补充。可以考虑jieba分词库，不过需要先进行训练。依赖库:jieba 提前准备：国家统计局所有地区信息，以及地区简写。下来，对使用jieba分词库的add_word。参考使用网站：阅读全文

posted @ 2020-07-26 19:58 forxtz 阅读(1132) 评论(0) 推荐(0)

python 行政区域地址标准化：业务经理填报的地址乱起八糟，高德接口有点厉害!

摘要：需求：由于业务检查需求，需要将一个结构化地址，如”XX省XX市XX区XXX号“地区转化为对应国家统计区行政划分的省、市、区（县）、镇（街道）、乡结构。解决思路： 1、自行编制文本解析方法，考虑比较复杂，很多情况不能覆盖，暂时不考虑，如果能解析，则速度会比较快。 2、通过爬虫，在百度搜索“百度百科阅读全文

posted @ 2020-07-26 12:19 forxtz 阅读(2818) 评论(4) 推荐(0)

记一次 excel vba 参考手册爬虫实战，不必要的一次爬虫。

摘要：目的：基于办公与互联网隔离，自带的office软件没有带本地帮助工具，因此在写vba程序时比较不方便(后来发现07有自带，心中吐血，瞎折腾些什么）。所以想到通过爬虫在官方摘录下来作为参考。目标网站：https://docs.microsoft.com/zh-cn/office/vba/api/ov 阅读全文

posted @ 2020-07-15 00:25 forxtz 阅读(2277) 评论(0) 推荐(0)

forxtz

07 2020 档案

公告