随笔分类 - 数据处理
摘要:处理文本数据时,常见的存储格式为 textfile 格式,对应行分隔符为"\n",列分隔符为"\t"。 而大家往往不会直接使用txt格式文件进行日常操作,Excel 更为简便通用。 因此,如果我们需要处理的 Excel 数据中,某个取值内出现了"\t"或"\n"或"\r\n"符号,转为 txt 格式
阅读全文
摘要:如果需要插入数据到同一分区表的多个分区,除了可以手动指定分区,还可以使用动态分区的方法进行插入。 需要在插入语句前加上: ``` set hive.exec.dynamic.partition=true; set hive.exec.dynamic.partition.mode=nostrict;
阅读全文
摘要:ArcGIS 是一款GIS信息的软件,它的数据中包含一些公开的地理位置信息,如不同区域水系、公园的电子围栏,以 shp 文件保存。 # GeoPandas 包安装 这次我们需要的提取 shp 文件中包含的电子围栏信息,需要使用到 GeoPandas 包进行解析提取。 官方建议我们使用 conda 进
阅读全文
摘要:什么是多线程/多进程 引用虫师的解释: 计算机程序只不过是磁盘中可执行的,二进制(或其它类型)的数据。它们只有在被读取到内存中,被操作系统调用的时候才开始它们的生命期。 进程(有时被称为重量级进程)是程序的一次执行。每个进程都有自己的地址空间,内存,数据栈以及其它记录其运行轨迹的辅助数据。操作系统管
阅读全文