随笔分类 -  数据处理

摘要:处理文本数据时,常见的存储格式为 textfile 格式,对应行分隔符为"\n",列分隔符为"\t"。 而大家往往不会直接使用txt格式文件进行日常操作,Excel 更为简便通用。 因此,如果我们需要处理的 Excel 数据中,某个取值内出现了"\t"或"\n"或"\r\n"符号,转为 txt 格式 阅读全文
posted @ 2023-05-22 14:44 星宇SKY 阅读(732) 评论(0) 推荐(0) 编辑
摘要:如果需要插入数据到同一分区表的多个分区,除了可以手动指定分区,还可以使用动态分区的方法进行插入。 需要在插入语句前加上: ``` set hive.exec.dynamic.partition=true; set hive.exec.dynamic.partition.mode=nostrict; 阅读全文
posted @ 2022-10-08 15:10 星宇SKY 阅读(936) 评论(0) 推荐(0) 编辑
摘要:ArcGIS 是一款GIS信息的软件,它的数据中包含一些公开的地理位置信息,如不同区域水系、公园的电子围栏,以 shp 文件保存。 # GeoPandas 包安装 这次我们需要的提取 shp 文件中包含的电子围栏信息,需要使用到 GeoPandas 包进行解析提取。 官方建议我们使用 conda 进 阅读全文
posted @ 2022-08-08 16:04 星宇SKY 阅读(796) 评论(0) 推荐(0) 编辑
摘要:什么是多线程/多进程 引用虫师的解释: 计算机程序只不过是磁盘中可执行的,二进制(或其它类型)的数据。它们只有在被读取到内存中,被操作系统调用的时候才开始它们的生命期。 进程(有时被称为重量级进程)是程序的一次执行。每个进程都有自己的地址空间,内存,数据栈以及其它记录其运行轨迹的辅助数据。操作系统管 阅读全文
posted @ 2019-01-07 15:37 星宇SKY 阅读(2512) 评论(1) 推荐(0) 编辑

点击右上角即可分享
微信分享提示