使用Golang解压缩文件遇到的问题及解决方法
问题描述
最近做广告业务获取某推的广告成效,与其他渠道不同的是,最终拿到的成效数据是一个压缩包的HTTP流数据。
将数据写入到本地生成了一个以.gz为后缀的压缩包文件,解压以后的文件存放着json格式的成效数据。
当然需要程序去解压缩这个压缩包获取里面的文件了。
内置tar包的问题
参考网上大佬们之前的解决方案写了一段测试代码:
// TODO:解压gz文件 func decompressionGZ(fileName string) error { filePath := GZIPS_PATH + fileName // file read fr, err := os.Open(filePath) if err != nil { return err } fmt.Println("fr>>> ", fr) defer fr.Close() // gzip read // TODO:这一步会校验文件的Header gr, err := gzip.NewReader(fr) fmt.Println("gr_before>>> ", gr) //createTime := time.Date(2020, 01, 01, 00, 00, 00, 00, TIME_LOCATION_CST) //gr.Header.Comment = "xxx" //gr.Header.Name = "whw" //gr.Header.ModTime = createTime //fmt.Println("gr.after>>>>> ", gr) fmt.Println("gr.Header>>>>> ", gr.Header) fmt.Println("gr.err>>>>>> ", err) if err != nil { return err } defer gr.Close() // tar read tr := tar.NewReader(gr) //fmt.Println("tr>>> ", tr) // 读取文件 for { h, err := tr.Next() fmt.Println("h_err>>>>>> ", err) fmt.Println("h>>> ", h) if err == io.EOF { break } if err != nil { fmt.Println("err0>>> ", err) return err } // 打开文件 fw, err := os.OpenFile("xxx.json", os.O_CREATE|os.O_WRONLY, os.ModePerm) if err != nil { fmt.Println("err1...... ", err) return err } defer fw.Close() // 写文件 _, err = io.Copy(fw, tr) if err != nil { fmt.Println("err2>>> ", err) return err } } return nil }
运行完这段代码一直会报一个错:archive/tar: invalid tar header
就是说,在tar模块进行校验的时候检测到了一个“非法”的tar header!(注意我们得到的文件的后缀名是xxx.json.gz)
研究了一下具体的实现过程,其实使用golang原生的tar包解压缩文件的话都会对header做一下校验!
至于原因,我们可以看一下使用原生golang实现压缩文件的过程:
func compressionGZ(fileName string) error { // 创建文件 fw, err := os.Create(fileName) if err != nil { fmt.Println("werr1>>> ", err) return err } defer fw.Close() // gzip write gw := gzip.NewWriter(fw) defer gw.Close() // tar write tw := tar.NewWriter(gw) defer tw.Close() // 打开文件夹 dir, err := os.Open(GZIPS_PATH) if err != nil { fmt.Println("打开文件夹错误>>> ", err) return err } defer dir.Close() // 读取文件列表 fis, err := dir.Readdir(0) if err != nil { fmt.Println("读取文件列表错误>>> ", err) return err } // 遍历文件列表 for _, fi := range fis { // TODO:遇到文件夹先不管,不递归了 if fi.IsDir() { continue } // 开始写入数据 fr, err := os.Open(dir.Name() + "/" + fi.Name()) if err != nil { fmt.Println("werr2>>> ", err) return err } defer fr.Close() // 设置信息头 h := new(tar.Header) // TODO:压缩的时候设置Header!!! // TODO:注意这里的名称需要去掉后面的 .gz h.Name = fileName[:len(fileName)-3] h.Mode = int64(fi.Mode()) h.Size = fi.Size() // 写信息头 err = tw.WriteHeader(h) if err != nil { fmt.Println("werr3>>> ", err) return err } // 写文件 _, err = io.Copy(tw, fr) if err != nil { fmt.Println("werr4>>> ", err) return err } } return nil }
里面有一段代码需要注意:
// 设置信息头 h := new(tar.Header) // TODO:压缩的时候设置Header!!! // TODO:注意这里的名称需要去掉后面的 .gz h.Name = fileName[:len(fileName)-3] h.Mode = int64(fi.Mode()) h.Size = fi.Size() // 写信息头 err = tw.WriteHeader(h)
在golang的tar模块进行压缩文件的时候需要设置一下Header——所以在解压的时候才会校验tar的Header!
而且需要注意:正常情况下我们得到的压缩文件的后缀是xxx.tar.gz,但是,twitter渠道给的文件的后缀名是xxx.json.gz,上面代码在解压的过程中是需要校验一下tar包的header的!我们现在得到的文件当然是没有tar包的header的!所以会报错!!!
解决方案
在网上找了下,有一个第三方包可以顺利解决压缩与解压的问题:https://github.com/c4milo/unpackit
下面是我的测试:
package pgzip import ( "fmt" "github.com/c4milo/unpackit" "os" "testing" ) var filename = "SDJ9NgtdiyZwKaR9eEJQ7vOQm1UXJXWmeAmbZ5XmdBJ5Adj6gXadqEGXMPZNQO2H61cJXkcjMGJcQm6bWGyNB-9SZAId0SL9vVMgdoU5M8w3d6yXALPIrtxFTx5Whf3S.json.gz" func TestUnpackIt(t *testing.T){ filePath := GZIPS_PATH + filename file, err1 := os.Open(filePath) if err1 != nil{ fmt.Println("err1>>> ", err1) } destPath, err := unpackit.Unpack(file,GZIPS_PATH) if err != nil{ fmt.Println("err>>> ", err) }else{ fmt.Println("destPath>>> ", destPath) } }
当然,这个包还可以unpack HttpRedponse,readme文件有具体的例子,带入自己的代码就好了。
简单原理
简单看了下里面的源码,它使用的是golang另外一个内置包bufio包实现的,有时间大家可以研究一下。
并发情况下存在的问题
当然这个包虽然解决了我们上面提到的解压的问题,但是有一个小小的问题,就是返回的文件名是固定的,在并发的场景中多个gorountine操作同一个文件十分危险,当然我们可以给多个gorountine之间加互斥锁保证并发的安全,也可以在不同的gorountine中生成一个唯一的解压缩后的文件名保证goruntine之间不能操作到同一个文件即可。