php中pack、unpack的详细用法
参考:
https://segmentfault.com/a/1190000018264262 (pack和unpack函数)
https://segmentfault.com/a/1190000008305573(PHP中pack、unpack的详细用法)
一,理解流的概念
在c中流可分为两大类,即文本流和二进制流。
1,所谓文本流是指在流中流动的数据是以字符形式出现。
2,二进制流是指流动的是二进制数字序列,若流中有字符,则用一个字节的二进制ASCII码表示,若是数字,则用一个字节的二进制数标识。在流入流出时,对\n符号不进行变换。
计算机的存储在物理上是二进制的,所以文本文件与二进制文件的区别并不是物理上的,而是逻辑上的。这两者只是在编码层次上有差异。
附赠ASCII表一张(linux/unix下可以使用man ascii
查看)
pack和unpack函数用途
1,数据通信(通过二进制格式与其它语言通信)
2,数据加密(如果不告诉第三方你的打包方式,对方解包的难度就相对很大)
3,节省空间(比如比较大的数字按字符串储存会浪费很多空间,打包成二进制格式才需要4位<32位数字>
二,pack函数
用来将参数打包成二进制字符串,返回的是字符串
string pack ( string $format [, mixed $args [, mixed $... ]] )
其中第一个参数$format,有如下选项(可选参数很多,后面会选几个常用的讲解):
代码 | 描述 |
---|---|
a | 以NUL字节填充字符串 |
A | 以SPACE(空格)填充字符串 |
h | 十六进制字符串,低位在前 |
H | 十六进制字符串,高位在前 |
c | 有符号字符 |
C | 无符号字符 |
s | 有符号短整型(16位,主机字节序) |
S | 无符号短整型(16位,主机字节序) |
n | 无符号短整型(16位,大端字节序) |
v | 无符号短整型(16位,小端字节序) |
i | 有符号整型(机器相关大小字节序) |
I | 无符号整型(机器相关大小字节序) |
l | 有符号长整型(32位,主机字节序) |
L | 无符号长整型(32位,主机字节序) |
N | 无符号长整型(32位,大端字节序) |
V | 无符号长整型(32位,小端字节序) |
q | 有符号长长整型(64位,主机字节序) |
Q | 无符号长长整型(64位,主机字节序) |
J | 无符号长长整型(64位,大端字节序) |
P | 无符号长长整型(64位,小端字节序) |
f | 单精度浮点型(机器相关大小) |
g | 单精度浮点型(机器相关大小,小端字节序) |
G | 单精度浮点型(机器相关大小,大端字节序) |
d | 双精度浮点型(机器相关大小) |
e | 双精度浮点型(机器相关大小,小端字节序) |
E | 双精度浮点型(机器相关大小,大端字节序) |
x | NUL字节 |
X | 回退已字节 |
Z | 以NUL字节填充字符串空白(PHP 5.5中新加入的) |
@ | NUL填充到绝对位置 |
这么多参数看下来,我第一次是真心懵逼了,大部分说明都很好理解,但是其中的主机、大端、小端等字节序是什么鬼呢?接下里的内容比较枯燥,但必须理解才行,坚持吧。
字节序是什么?
就是字节的顺序,说白了就是多字节数据的存放顺序(一个字节显然不需要顺序)。
比如A
和B
分别对应的二进制表示为0100 0001
、0100 0010
。对于储存字符串AB
,我们可以0100 0001 0100 0010
也可以0100 0010 0100 0001
,这个顺序就是所谓的字节序。
高/低位字节
比如字符串AB
,左高右低(我们正常的阅读顺序),A
为高字节,B
为低字节
高/低地址
假设0x123456是按从高位到底位的顺序储存,内存中是这样存放的:
高地址 -> 低地址
12 -> 34 -> 56
大端字节序(网络字节序)
大端就是将高位字节放到内存的低地址端,低位字节放到高地址端。网络传输中(比如TCP/IP)低地址端(高位字节)放在流的开始,对于2个字节的字符串(AB
),传输顺序为:A
(0-7bit)、B
(8-15bit)。
那么小端字节序自然和大端相反。
主机字节序
表示当年机器的字节序(也就是网络字节序是确定的,而主机字节序是依机器确定的),一般
为小端字节序。
大尾和小尾
字节存放有大尾和小尾之分。如果对应数据的高字节存放在低地址就是大尾,反之,高字节存放在高地址的就是小尾。
比如 short int a = 0x1234
大尾存放时:
偏移地址 存放内容
0x0000 0x12
0x0001 0x34
小尾存放:
偏移地址 存放内容
0x0000 0x34
0x0001 0x12
a和A(打包字符串,用NUL或者空格填充)
$string = pack('a6', 'china');
var_dump($string); //输出结果: string(6) "china",最后一个字节是不可见的NUL
echo ord($string[5]); //输出结果: 0(ASCII码中0对应的就是nul)
//A同理
$string = pack('A6', 'china');
var_dump($string); //输出结果: string(6) "china ",最后一个字节是空格
echo ord($string[5]); //输出结果: 32(ASCII码中32对应的就是空格)
h和H
$string = pack('H3', 281);
var_dump($string); //输出结果: string(2) "("
for($i=0;$i<strlen($string);$i++) {
echo ord($string[$i]) . PHP_EOL;
}
//输出结果: 40 16
h和H需要特殊说明一下,它们是将对应的参数看做十六进制字符然后打包。什么意思呢?比如上面的281
,打包前会将281
转换为0x281
,因为十六进制的一位对应二进制的四位,上面的0x281
只有1.5个字节,后面会默认补0变成0x2810
,0x28对应的十进制为40((
),0x10对应的十进制为16(dle
不可见字符),懂了吧?不懂可以给我留言。。
c和C
$string = pack('c3', 67, 68, -1);
var_dump($string); //输出:string(3) "CD�"
for($i=0;$i<strlen($string);$i++) {
echo ord($string[$i]) . PHP_EOL;
}
//输出: 67 68 225
最后输出本能应该觉得是67 68 -1
ord获取的是字符的ASCII码(范围0-255
),这时-1(0000 0001)
对应的字符将以补码的形式输出也就是255(1111 1110 + 0000 0001 = 1111 1111)
整型相关
所有的整型类型使用方法完全一样,主要注意它们的位和字节序就可以了,下面以L作为例子展示
$string = pack('L', 123456789);
var_dump($string); //输出:string(4) "�["
for($i=0;$i<strlen($string);$i++) {
echo ord($string[$i]) . PHP_EOL;
}
//输出: 21 205 91 7
f和d
$string = pack('f', 12345.123);
var_dump($string);
//输出:string(4) "~�@F"
var_dump(unpack('f', $string)); //这里提前用到了unpack,后面会讲解
//输出:float(12345.123046875)
f和d是针对浮点数打包,至于为什么打包前是12345.123
解包后是12345.123046875
,这个和浮点数的储存有关系,后面可以单开一个文章讲解一下IEEE标准
x、X、Z、@
$string = pack('x'); //打包一个nul字符串 echo ord($string); //输出: 0
关于X(大写X)
,试了N次,没搞明白怎么用,有清楚的童鞋可以给我留言,多谢。
$string = pack('Z2', 'abc5'); //其实就是将从Z后面的数字位置开始,全部设置为nul
var_dump($string); //输出:string(2) "a"
for($i=0;$i<strlen($string);$i++) {
echo ord($string[$i]) . PHP_EOL;
}
//输出: 97 0
$string = pack('@4'); //我理解为填充N个nul
var_dump($string); //输出: string(4) ""
for($i=0;$i<strlen($string);$i++) {
echo ord($string[$i]) . PHP_EOL;
}
//输出: 0 0 0 0
三,unpack
将二进制字符串解包返回一个参数数组
array unpack ( string $format , string $data )
unpack的使用相当简单,就是讲pack打包的数据解包,打包的时候用的什么参数,就用什么参数解包,具体使用懒得说了,列几个小例子
$string = pack('L4', 1, 2, 3, 4); var_dump(unpack('L4', $string)); //输出: array(4) { [1]=> int(1) [2]=> int(2) [3]=> int(3) [4]=> int(4) } $string = pack('L4', 1, 2, 3, 4); var_dump(unpack('Ll1/Ll2/Ll3/Ll4', $string)); //可以指定key,用/分割 //输出: array(4) { ["l1"]=> int(1) ["l2"]=> int(2) ["l3"]=> int(3) ["l4"]=> int(4) }
实际用途
string pack (string $format [, mixed $args [, mixed $...]])
一些规则:
1.每个字母后面都可以跟着一个数字,表示 count(计数),如果 count 是一个 * 表示剩下的所有东西。
2.如果你提供的参数比 $format 要求的少,pack 假设缺的都是空值。如果你提供的参数比 $format 要求的多,那么多余的参数被忽略。
下面还是用例子来说明用法会容易理解一点:
关于Pack:
下面的第一部分把数字值包装成字节: $out = pack("CCCC",65,66,67,68); # $out 等于"ABCD" $out = pack("C4",65,66,67,68); # 一样的东西 下面的对 Unicode 的循环字母做同样的事情: $foo = pack("U4",0x24b6,0x24b7,0x24b8,0x24b9); 下面的做类似的事情,增加了一些空: $out = pack("CCxxCC",65,66,67,68); # $out 等于 "AB\0\0CD" 打包你的短整数并不意味着你就可移植了: $out = pack("s2",1,2); # 在小头在前的机器上是 "\1\0\2\0" # 在大头在前的机器上是 "\0\1\0\2" 在二进制和十六进制包装上,count 指的是位或者半字节的数量,而不是生成的字节数量: $out = pack("B32","..."); $out = pack("H8","5065726c"); # 都生成“Perl” a 域里的长度只应用于一个字串: $out = pack("a4","abcd","x","y","z"); # "abcd" 要绕开这个限制,使用多倍声明: $out = pack("aaaa", "abcd","x","y","z"); # "axyz" $out = pack("a" x 4, "abcd","x","y","z"); # "axyz" a 格式做空填充: $out = pack("a14","abcdefg"); # " abcdefg\0\0\0\0\0\0"
关于unpack:
array unpack (string $format,string $data ) $data ="010000020007"; unpack("Sint1/Cchar1/Sint2/Cchar2",$data); ## array('int1'=>1, 'char1'=>'0','int2'=>2,'char2'=>7); 最后本文开头讲到的协议使用pack/unpack 举例程序代码为 : $lastact = pack('SCSa32a32',0x0040,0x00,0x0006, $username, $passwd ); unpack('Sint1/Cchar1/Sint2/Cchar2/',$lastmessage);