google colab 数据复制 解压
在 Notebook 中添加一个 Section 命名为「安装环境」。然后在这个 Section 中做一些数据复制、解压,以及安装第三方包的工作。实例代码如下:
zip文件解压
!mkdir ./data # 在实例中创建文件夹 data
!cp /content/drive/MyDrive/paper/Demo/data-local.zip ./data/ # data copy
!cd ./data && unzip data-local.zip # 进入.data目录并解压(到本地)
- 将zip文件mv到/content下再unzip,之后将文件mv到对应文件夹下,并且,在/content下解压文件特别快,drive下两个多小时的解压这里只要几分钟,
!mv xxx.zip /content
%cd /content
!unzip xxx.zip
mv xxx /content/drive/path
zip 文件压缩
!zip -r package.zip folder
为什么不直接将数据集存放至 Drive 直接使用,而是要先压缩,再从 Drive 中拷贝出来解压使用?因为直接从 Drive 中读取数据是通过网络传输的,并不是从本地文件磁盘读取。如果数据文件多,那么就会发很多次网络请求,导致加载数据非常慢,进而严重影响训练速度;这也是很多小伙伴抱怨 Colab 慢的原因之一。所以我们提前压缩好数据集文件,每次训练前复制压缩文件到实例的磁盘,再进行解压,最大程度保证网络传输次数少,传输数据量小。
作者:佘城璐
链接:https://zhuanlan.zhihu.com/p/218133131
来源:知乎
tar文件解压
-x: Extract a tar ball.
-v: Verbose output or show progress while extracting files.
-f: Specify an archive or a tarball filename.
-z: Decompress and extract the contents of the compressed archive created by gzip program(tar.gz extension).
-j: Decompress and extract the contents of the compressed archive created by bzip2 program(tar.bz2 extension)
-C: Specify a different directory to extract
!tar -xvf 'xxx/xxx.tar' -C 'xxx/output_folder/'
tar.gz文件解压
!tar -xzvf 'xxx/xxx.tar.gz' -C 'xxx/output_folder/'
tar.bz2文件解压
!tar -xjvf 'xxx/xxx.tar.bz2' -C 'xxx/output_folder/'
*.tar 用 tar –xvf 解压
*.gz 用 gzip -d或者gunzip 解压
*.tar.gz和*.tgz 用 tar –xzf 解压
*.bz2 用 bzip2 -d或者用bunzip2 解压
*.tar.bz2用tar –xjf 解压
*.Z 用 uncompress 解压
*.tar.Z 用tar –xZf 解压
*.rar 用 unrar e解压
*.zip 用 unzip 解压