php中pack、unpack的详细用法

参考：

https://segmentfault.com/a/1190000018264262 （pack和unpack函数）

https://segmentfault.com/a/1190000008305573（PHP中pack、unpack的详细用法）

一，理解流的概念

在c中流可分为两大类，即文本流和二进制流。

1，所谓文本流是指在流中流动的数据是以字符形式出现。

2，二进制流是指流动的是二进制数字序列，若流中有字符，则用一个字节的二进制ASCII码表示，若是数字，则用一个字节的二进制数标识。在流入流出时，对\n符号不进行变换。

计算机的存储在物理上是二进制的，所以文本文件与二进制文件的区别并不是物理上的，而是逻辑上的。这两者只是在编码层次上有差异。

附赠ASCII表一张(linux/unix下可以使用man ascii查看)

pack和unpack函数用途

1，数据通信(通过二进制格式与其它语言通信)

2，数据加密(如果不告诉第三方你的打包方式，对方解包的难度就相对很大)

3，节省空间(比如比较大的数字按字符串储存会浪费很多空间，打包成二进制格式才需要4位<32位数字>

二，pack函数

用来将参数打包成二进制字符串，返回的是字符串

string pack ( string $format [, mixed $args [, mixed $... ]] )

其中第一个参数$format，有如下选项(可选参数很多，后面会选几个常用的讲解)：

代码	描述
a	以NUL字节填充字符串
A	以SPACE(空格)填充字符串
h	十六进制字符串，低位在前
H	十六进制字符串，高位在前
c	有符号字符
C	无符号字符
s	有符号短整型(16位，主机字节序)
S	无符号短整型(16位，主机字节序)
n	无符号短整型(16位，大端字节序)
v	无符号短整型(16位，小端字节序)
i	有符号整型(机器相关大小字节序)
I	无符号整型(机器相关大小字节序)
l	有符号长整型(32位，主机字节序)
L	无符号长整型(32位，主机字节序)
N	无符号长整型(32位，大端字节序)
V	无符号长整型(32位，小端字节序)
q	有符号长长整型(64位，主机字节序)
Q	无符号长长整型(64位，主机字节序)
J	无符号长长整型(64位，大端字节序)
P	无符号长长整型(64位，小端字节序)
f	单精度浮点型(机器相关大小)
g	单精度浮点型(机器相关大小，小端字节序)
G	单精度浮点型(机器相关大小，大端字节序)
d	双精度浮点型(机器相关大小)
e	双精度浮点型(机器相关大小，小端字节序)
E	双精度浮点型(机器相关大小，大端字节序)
x	NUL字节
X	回退已字节
Z	以NUL字节填充字符串空白(PHP 5.5中新加入的)
@	NUL填充到绝对位置

这么多参数看下来，我第一次是真心懵逼了，大部分说明都很好理解，但是其中的主机、大端、小端等字节序是什么鬼呢？接下里的内容比较枯燥，但必须理解才行，坚持吧。

字节序是什么？

就是字节的顺序，说白了就是多字节数据的存放顺序(一个字节显然不需要顺序)。
比如A和B分别对应的二进制表示为0100 0001、0100 0010。对于储存字符串AB，我们可以0100 0001 0100 0010也可以0100 0010 0100 0001，这个顺序就是所谓的字节序。

高/低位字节

比如字符串AB，左高右低(我们正常的阅读顺序)，A为高字节，B为低字节

高/低地址

假设0x123456是按从高位到底位的顺序储存，内存中是这样存放的：

高地址 -> 低地址
12 -> 34 -> 56

大端字节序(网络字节序)

大端就是将高位字节放到内存的低地址端，低位字节放到高地址端。网络传输中(比如TCP/IP)低地址端(高位字节)放在流的开始，对于2个字节的字符串(AB)，传输顺序为：A(0-7bit)、B(8-15bit)。
那么小端字节序自然和大端相反。

主机字节序

表示当年机器的字节序(也就是网络字节序是确定的，而主机字节序是依机器确定的)，一般为小端字节序。

大尾和小尾

字节存放有大尾和小尾之分。如果对应数据的高字节存放在低地址就是大尾，反之，高字节存放在高地址的就是小尾。

比如 short int a = 0x1234
大尾存放时：
偏移地址      存放内容
0x0000       0x12
0x0001       0x34

小尾存放：
偏移地址      存放内容
0x0000       0x34
0x0001       0x12

a和A(打包字符串，用NUL或者空格填充)

$string = pack('a6', 'china');
var_dump($string); //输出结果: string(6) "china",最后一个字节是不可见的NUL
echo ord($string[5]); //输出结果: 0(ASCII码中0对应的就是nul)

//A同理
$string = pack('A6', 'china');
var_dump($string); //输出结果: string(6) "china ",最后一个字节是空格
echo ord($string[5]); //输出结果: 32(ASCII码中32对应的就是空格)

h和H

$string = pack('H3', 281);
var_dump($string); //输出结果: string(2) "("

for($i=0;$i<strlen($string);$i++) {
echo ord($string[$i]) . PHP_EOL;
}
//输出结果: 40 16

h和H需要特殊说明一下，它们是将对应的参数看做十六进制字符然后打包。什么意思呢？比如上面的281，打包前会将281转换为0x281，因为十六进制的一位对应二进制的四位，上面的0x281只有1.5个字节，后面会默认补0变成0x2810，0x28对应的十进制为40(()，0x10对应的十进制为16(dle不可见字符)，懂了吧？不懂可以给我留言。。

c和C

$string = pack('c3', 67, 68, -1);
var_dump($string); //输出:string(3) "CD�"

for($i=0;$i<strlen($string);$i++) {
echo ord($string[$i]) . PHP_EOL;
}
//输出: 67 68 225

最后输出本能应该觉得是67 68 -1
ord获取的是字符的ASCII码(范围0-255)，这时-1(0000 0001)对应的字符将以补码的形式输出也就是255(1111 1110 + 0000 0001 = 1111 1111)

整型相关

所有的整型类型使用方法完全一样，主要注意它们的位和字节序就可以了，下面以L作为例子展示

$string = pack('L', 123456789);
var_dump($string); //输出:string(4) "�["

for($i=0;$i<strlen($string);$i++) {
echo ord($string[$i]) . PHP_EOL;
}
//输出: 21 205 91 7

f和d

$string = pack('f', 12345.123);
var_dump($string);
//输出:string(4) "~�@F"
var_dump(unpack('f', $string)); //这里提前用到了unpack，后面会讲解
//输出:float(12345.123046875)

f和d是针对浮点数打包，至于为什么打包前是12345.123解包后是12345.123046875，这个和浮点数的储存有关系，后面可以单开一个文章讲解一下IEEE标准

x、X、Z、@

$string = pack('x'); //打包一个nul字符串
echo ord($string); //输出: 0

关于X(大写X)，试了N次，没搞明白怎么用，有清楚的童鞋可以给我留言，多谢。

$string = pack('Z2', 'abc5'); //其实就是将从Z后面的数字位置开始，全部设置为nul
var_dump($string); //输出:string(2) "a"

for($i=0;$i<strlen($string);$i++) {
echo ord($string[$i]) . PHP_EOL;
}
//输出: 97 0
$string = pack('@4'); //我理解为填充N个nul
var_dump($string); //输出: string(4) ""

for($i=0;$i<strlen($string);$i++) {
echo ord($string[$i]) . PHP_EOL;
}
//输出: 0 0 0 0

三，unpack

将二进制字符串解包返回一个参数数组

array unpack ( string $format , string $data )

unpack的使用相当简单，就是讲pack打包的数据解包，打包的时候用的什么参数，就用什么参数解包，具体使用懒得说了，列几个小例子

$string = pack('L4', 1, 2, 3, 4);
var_dump(unpack('L4', $string));
//输出:
array(4) {
[1]=>
int(1)
[2]=>
int(2)
[3]=>
int(3)
[4]=>
int(4)
}

$string = pack('L4', 1, 2, 3, 4);
var_dump(unpack('Ll1/Ll2/Ll3/Ll4', $string)); //可以指定key，用/分割
//输出:
array(4) {
["l1"]=>
int(1)
["l2"]=>
int(2)
["l3"]=>
int(3)
["l4"]=>
int(4)
}

实际用途

string pack (string $format [, mixed $args [, mixed $...]])

一些规则：
1.每个字母后面都可以跟着一个数字，表示 count（计数），如果 count 是一个 * 表示剩下的所有东西。
2.如果你提供的参数比 $format 要求的少，pack 假设缺的都是空值。如果你提供的参数比 $format 要求的多，那么多余的参数被忽略。

下面还是用例子来说明用法会容易理解一点：

关于Pack:

下面的第一部分把数字值包装成字节：

$out = pack("CCCC",65,66,67,68);      # $out 等于"ABCD"
$out = pack("C4",65,66,67,68);         # 一样的东西

下面的对 Unicode 的循环字母做同样的事情：

$foo = pack("U4",0x24b6,0x24b7,0x24b8,0x24b9);

下面的做类似的事情，增加了一些空：

$out = pack("CCxxCC",65,66,67,68);      # $out 等于 "AB\0\0CD"

打包你的短整数并不意味着你就可移植了：

$out = pack("s2",1,2);        
# 在小头在前的机器上是 "\1\0\2\0"
# 在大头在前的机器上是 "\0\1\0\2"

在二进制和十六进制包装上，count 指的是位或者半字节的数量，而不是生成的字节数量：

$out = pack("B32","...");
$out = pack("H8","5065726c");         # 都生成“Perl”

a 域里的长度只应用于一个字串：

$out = pack("a4","abcd","x","y","z");      # "abcd"

要绕开这个限制，使用多倍声明：

$out = pack("aaaa",    "abcd","x","y","z");   # "axyz"
$out = pack("a" x 4,   "abcd","x","y","z");   # "axyz"

a 格式做空填充：

$out = pack("a14","abcdefg");         # " abcdefg\0\0\0\0\0\0"

关于unpack:

array unpack (string $format,string $data )

$data ="010000020007";
unpack("Sint1/Cchar1/Sint2/Cchar2",$data);

## array('int1'=>1, 'char1'=>'0','int2'=>2,'char2'=>7);

最后本文开头讲到的协议使用pack/unpack 举例程序代码为 ：

$lastact   = pack('SCSa32a32',0x0040,0x00,0x0006, $username, $passwd );

unpack('Sint1/Cchar1/Sint2/Cchar2/',$lastmessage);

posted @ 2019-05-27 20:18 指令跳动阅读(637) 评论(0) 收藏举报

刷新页面返回顶部

细节决定专业