iOS. PercentEscape是错用的URLEncode,看看AFN和Facebook吧

别再使用stringByAddingPercentEscapesUsingEncoding

当遇到发送网络请求的参数中有汉字的情况,很多人一股脑地使用stringByAddingPercentEscapesUsingEncoding:进行转义,这样带有汉字的urlString就会将每个汉字转成相应的unicode编码对应的3个%形式,这叫urlEncode(每个能写后端的语言都有的方法),但是苹果的stringByAddingPercentEscapesUsingEncoding:却不是urlEncode。实际上我们使用的参数值可能会包含一些特殊的字符,如&?这样的字符,而Percent转义已经不能满足需求了,如下面的例子:

NSString *queryWord = @"汉字&ss";
NSString *urlString = [NSString stringWithFormat:@"https://www.baidu.com/s?ie=UTF-8&wd=%@", queryWord];
NSString *escapedString = [urlString stringByAddingPercentEscapesUsingEncoding:NSUTF8StringEncoding];
NSLog(@"%@", escapedString); // https://www.baidu.com/s?ie=UTF-8&wd=%E6%B1%89%E5%AD%97&ss

这是一个非常常见的情景,(之前公司项目的搜索中,也遇到过这种情况),这种被转义之后的URL,服务端接收到的参数会使这样的

["ie":"UTF-8", "wd":"汉字", "ss":nil]

即使你做如下的改进:(在请求之前将每个参数都转义,再使用&拼接参数也无济于事)

NSString *queryWord = @"汉字&ss";
NSString *escapedQueryWord = [queryWord stringByAddingPercentEscapesUsingEncoding:NSUTF8StringEncoding];
NSString *urlString = [NSString stringWithFormat:@"https://www.baidu.com/s?ie=UTF-8&wd=%@", escapedQueryWord];
NSLog(@"%@", urlString); // https://www.baidu.com/s?ie=UTF-8&wd=%E6%B1%89%E5%AD%97&ss

产生这种情况的原因是:百分号转义不等于URLEncode
该编码不同于URL编码,由于不会对&字符编码,因此不会改变URL参数的分隔。URL编码会编码&?与其他标点符号。如果查询字符串包含了这些字符,那么需要实现一种更加彻底的编码方法。

不过还好iOS7.0推出了stringByAddingPercentEncodingWithAllowedCharacters:方法,这个方法会对字符串进行更彻底的转义,但是需要传递一个参数:这个参数是一个字符集,表示:在进行转义过程中,不会对这个字符集中包含的字符进行转义,而保持原样保留下来。
这样就可以使用它改造上面的代码了:

NSString *queryWord = @"汉字&ss";
NSString *escapedQueryWord = [queryWord stringByAddingPercentEncodingWithAllowedCharacters:[NSCharacterSet letterCharacterSet]];
NSLog(@"%@", escapedQueryWord); // %E6%B1%89%E5%AD%97%26ss
NSString *urlString = [NSString stringWithFormat:@"https://www.baidu.com/s?ie=UTF-8&wd=%@", escapedQueryWord];
NSLog(@"%@", urlString); // https://www.baidu.com/s?ie=UTF-8&wd=%E6%B1%89%E5%AD%97%26ss

在上面的例子中传递参数[NSCharacterSet letterCharacterSet]来保证字母不被转义。所以被转义之后的参数值是:%E6%B1%89%E5%AD%97%26ss,这样问题就解决了,但是有时候会遇到queryString中的表单域也需要转义的情况,比如是一个表单数组如:

https://www.baidu.com/s?person[contact]=13801001234&person[address]=北京&habit[]=游泳&habit[]=骑行

这样可以使用将key转义,不过key中的[]字符是不需要转义的:可以自定义一个CharacterSet实现需求:

NSMutableCharacterSet *mutableCharSet = [[NSMutableCharacterSet alloc] init];
[mutableCharSet addCharactersInString:@"[]"]; // 允许'['和']'不被转义
NSCharacterSet *charSet = mutableCharSet.copy;

NSMutableString *mutableString = [NSMutableString string];
for (unit in queryString) {
	NSString *escapedField = [unit.field stringByAddingPercentEncodingWithAllowedCharacters:charSet];
	NSString *escapedValue = [unit.value stringByAddingPercentEncodingWithAllowedCharacters:charSet];
	[mutableString addFormat:@"%@=%@", escapedField, escapedValue];
}

这样问题已经圆满解决了,美中不足的是:当queryString非常多的时候你如何保证从queryString正确地提取出来每个unit呢,这个牵扯到复杂的字符串解析的问题。先不做讨论。实际上有一个好的方案是使用AFN将每个参数的URL和queryString在构建的时候分离,使用URL和parameter(字典)分别传入的方法,也就是说在使用AFN的时候避免使用:

GET:@"https://www.baidu.com/s?ie=UTF-8&wd=%E6%B1%89%E5%AD%97%26ss"
parameters:nil
success:nil
failure:nil

而是尽量使用

GET:@"https://www.baidu.com/s"
parameters:@{@"ie":@"UTF-8",@"wd":@"汉字&ss"};
success:nil
failure:nil

为什么要这样,翻看AFN的源码会发现,AFN对queryString的组装是这样进行的:

AFN会将parameters的传递的字典通过将每个表单元素的field和value进行urlcode之后拼接,然后再直接附加在传递的URLString后面(当然,如果是POST方式就不是附加了,而是将拼好的串放到HTTP body中)。

那么如果要使用第一种方式,必须要确保自己在传入的URLString是经过完美转义的,因为AFN不会对你传入的URLString进行检测有没有进行了转义或者正确与否,但是AFN对上面方法中parameter参数的解析时非常彻底的,因此强烈建议使用第二种方式调用AFN的方法。那么AFN是如何完美解析parameter参数的呢,这刚好是一个可以将字典转为queryString的模块呀!!!,下面就来看一下:

对AFN urlEncode的研究

AFN将网络访问分割为三个过程模块
1.请求前:构建request的header和queryString、uploadContent和配置(如超时等),这部分的功能在AFURLRequestSerialization中
2.请求中:分别有基于NSConnection的访问(3.0移除)和基于NSURLSession的访问模块
3.请求后:1错误处理2.成功处理:数据格式转换和解析,主要在AFURLResponseSerialization中

requestSerialization就像过滤器一样,每一个用于构建网络请求的URLRequest对象都会经过requestSerialization配置,再返回一个NSMutableURLRequest对象(参见2.x版本的dataTaskWithHTTPMethod: URLString: parameters: success: failure方法,3.0版本dataTaskWithHTTPMethod URLString: parameters: uploadProgress: downloadProgress: success:方法),NSURLSession对象会使用这个NSMutableURLRequest对象创建task。而我们要讨论的将parameter转为queryString的功能全部在AFURLRequestSerialization中,它实际上使用了

NSMutableURLRequest *request = [self.requestSerializer requestWithMethod:method URLString:[[NSURL URLWithString:URLString relativeToURL:self.baseURL] absoluteString] parameters:parameters error:&serializationError];

就完成了所有的请求前的配置功能,可以查看一下内部的实现,有一句关键性的代码

mutableRequest = [[self requestBySerializingRequest:mutableRequest withParameters:parameters error:error] mutableCopy];
// 这里的self是AFURLResponseSerialization对象

这句代码用于对request对象设置requestHeader和转义queryString,我们仅仅看一下对queryString进行转义的
其内部按照这样的思路实现:

1.如果传递过来的parameters不为空,就会判断self.queryStringSerialization是否为空(self.queryStringSerialization属性是一个 AFQueryStringSerializationBlock类型的block,它是用来实现转义的核心代码块)

2.如果self.queryStringSerialization不为空,使用self.queryStringSerialization(request, parameters, &serializationError);进行转义和组装:

3.如果self.queryStringSerialization为空,使用一个内部函数来执行:AFQueryStringFromParameters(parameters),实际上每一个AFURLResponseSerialization对象在创建的时候queryStringSerialization属性都是空的,因此外部不传递block类型的值给queryStringSerialization属性时都会走这条路线,也就是使用AFQueryStringFromParameters(parameters)来解析参数。

AFQueryStringFromParameters的实现是这样的:

NSString * AFQueryStringFromParameters(NSDictionary *parameters) {
    NSMutableArray *mutablePairs = [NSMutableArray array];
    for (AFQueryStringPair *pair in AFQueryStringPairsFromDictionary(parameters)) {
        [mutablePairs addObject:[pair URLEncodedStringValue]];
    }

    return [mutablePairs componentsJoinedByString:@"&"];
}

而其中使用到的AFQueryStringPairsFromDictionary函数是这样实现的:

NSArray * AFQueryStringPairsFromDictionary(NSDictionary *dictionary) {
    return AFQueryStringPairsFromKeyAndValue(nil, dictionary);
}

NSArray * AFQueryStringPairsFromKeyAndValue(NSString *key, id value); // 这个方法太长,只放置了原型

思路为:

1.利用AFQueryStringPairsFromKeyAndValue函数将parameters字典中的每个key-value对取出,将每个key-value对构建为AFQueryStringPair对象,放到一个数组中。

2.在AFQueryStringFromParameters方法内部遍历这个数组(每个元素为AFQueryStringPair对象),使用AFQueryStringPair类的转义方法URLEncodedStringValue将AFQueryStringPair转为字符串,将这些字符串存入新的数组中。这样新数组中的每个元素就是转义之后的field=value字符串,最后用&将数组元素连接即可。

函数AFQueryStringPairsFromKeyAndValue是一个非常完美的算法,基本上考虑到了所有类型的表单域:包括表单数组的处理和对一个表单域赋值多个value的情况的处理,表单数组在html页面经常用到的:

<form method="GET" action="http://127.0.0.1/test.php">
<input name="habit[]" value="游泳" />
<input name="habit[]" value="骑行" />
<input type="submit" value="提交">
</form>

浏览器自动转义: habit%5B%5D=%E6%B8%B8%E6%B3%B3&habit%5B%5D=%E9%AA%91%E8%A1%8C
AFN传递parameter = @{@"habit"😡[@"游泳", @"骑行"]}:
2.x版本:habit[]=%E6%B8%B8%E6%B3%B3&habit[]=%E9%AA%91%E8%A1%8C
3.0版本:habit%5B%5D=%E6%B8%B8%E6%B3%B3&habit%5B%5D=%E9%AA%91%E8%A1%8C (与浏览器相同)
php会将$_GET解析为:

array(1) { 
	["habit"]=> array(2) { 
		[0]=> string(6) "游泳" 
		[1]=> string(6) "骑行" 
	} 
}

如果是这种写法:

<form method="GET" action="http://127.0.0.1/test.php">
<input name="person[contact]" value="13801001234" />
<input name="person[address]" value="北京" />
<input type="submit" value="提交">
</form>

浏览器自动转义:person%5Bcontact%5D=13801001234&person%5Baddress%5D=%E5%8C%97%E4%BA%AC
AFN传递parameter = @{@"person"😡{@"contact"😡"13801001234", @"address"😡"北京"}}:
2.x版本: person[address]=%E5%8C%97%E4%BA%AC&person[contact]=13801001234 (没有将[]转义)
3.0版本:person%5Baddress%5D=%E5%8C%97%E4%BA%AC&person%5Bcontact%5D=13801001234 (与浏览器相同,但对field进行了排序)
结果为:

array(1) { 
	["person"]=> array(2) { 
		["contact"]=> string(11) "13801001234" 
		["address"]=> string(6) "北京" 
	} 
}

如果是对于一个field多参数的情况

<form method="GET" action="http://127.0.0.1/test.php">
<input type="checkbox" name="habit" value="游泳">游泳
<input type="checkbox" name="habit" value="骑行">骑行
<input type="submit" value="提交">
</form>

浏览器自动转义:habit=%E6%B8%B8%E6%B3%B3&habit=%E9%AA%91%E8%A1%8C
AFN传递parameter = @{@"habit":set} 其中set为:NSSet *set = [NSSet setWithObjects:@"游泳", @"骑行", nil];:
2.x版本: habit=%E6%B8%B8%E6%B3%B3&habit=%E9%AA%91%E8%A1%8C (与浏览器相同)
3.0版本:habit=%E6%B8%B8%E6%B3%B3&habit=%E9%AA%91%E8%A1%8C (与浏览器相同)

以上各种类型的html表单域的处理,函数AFQueryStringPairsFromKeyAndValue都已经很好地处理,不管如此,还对每个field按照NSString默认排序规则(字母表顺序)进行了排序。

在接下来我会针对2.x版本的AFN剖析一下AFQueryStringPair的转义方法- (NSString *)URLEncodedStringValueWithEncoding:(NSStringEncoding)stringEncoding的实现,中间会说到一些和3.0的差别:
我们看一下- (NSString *)URLEncodedStringValueWithEncoding:(NSStringEncoding)stringEncoding的代码

- (NSString *)URLEncodedStringValueWithEncoding:(NSStringEncoding)stringEncoding { // AFN3.0的区别是换了个方法名,而且不用传递stringEncoding
    if (!self.value || [self.value isEqual:[NSNull null]]) { // 如果value为空值,只转义field
        return AFPercentEscapedQueryStringKeyFromStringWithEncoding([self.field description], stringEncoding);
    } else { // 将field和value转义后拼接
        return [NSString stringWithFormat:@"%@=%@", AFPercentEscapedQueryStringKeyFromStringWithEncoding([self.field description], stringEncoding), AFPercentEscapedQueryStringValueFromStringWithEncoding([self.value description], stringEncoding)];
    }
}

而对于AFPercentEscapedQueryStringKeyFromStringWithEncodingAFPercentEscapedQueryStringValueFromStringWithEncoding方法,它的实现是这样的:

static NSString * const kAFCharactersToBeEscapedInQueryString = @":/?&=;+!@#$()',*"; // 在queryString进行URLEncode时需要进行转义的字符

static NSString * AFPercentEscapedQueryStringKeyFromStringWithEncoding(NSString *string, NSStringEncoding encoding) {
    static NSString * const kAFCharactersToLeaveUnescapedInQueryStringPairKey = @"[]."; // 在urlencode时不需要转义

	return (__bridge_transfer  NSString *)CFURLCreateStringByAddingPercentEscapes(kCFAllocatorDefault, (__bridge CFStringRef)string, (__bridge CFStringRef)kAFCharactersToLeaveUnescapedInQueryStringPairKey, (__bridge CFStringRef)kAFCharactersToBeEscapedInQueryString, CFStringConvertNSStringEncodingToEncoding(encoding));
}

static NSString * AFPercentEscapedQueryStringValueFromStringWithEncoding(NSString *string, NSStringEncoding encoding) {
	return (__bridge_transfer  NSString *)CFURLCreateStringByAddingPercentEscapes(kCFAllocatorDefault, (__bridge CFStringRef)string, NULL, (__bridge CFStringRef)kAFCharactersToBeEscapedInQueryString, CFStringConvertNSStringEncodingToEncoding(encoding));
}

这里是使用了一个CoreFoundation中定义的函数:CFURLCreateStringByAddingPercentEscapes这函数的参数解释如下:

index 参数名 解释
1 allocator 为新的CFString对象分配内存的分配器,传递NULL或者kCFAllocatorDefault使用当前默认的分配器
2 originalString 要copy的CFString对象
3 charactersToLeaveUnescaped 在百分号转义过程中要完好地留下的字符集,传递NULL指明所有非法的字符会被转义
4 legalURLCharactersToBeEscaped 需要转义的合法的字符集。传递NULL指明没有合法的字符集要被替换(所有字符都不转义)
5 encoding 转化过程使用的编码 如果你不关心正确的编码,你应该使用UTF-8 (kCFStringEncodingUTF8), 这是一个由RFC 3986设计的在URL使用中很合适的编码

看了参数的说明应该很容易理解为什么要那样传递参数,不过需要注意的是传递的字符串都是CFStringRef类型:因此要和NSString做一下桥接:

// NSString 转为CFStringRef
(__bridge CFStringRef)string

// CFStringRef 转为NSString
(__bridge_transfer  NSString *)string

而对于3.0的AFN无论是对field的转义还是对value的转义都使用了相同的函数NSString * AFPercentEscapedStringFromString(NSString *string)其在内部的实现就是使用了在本文第一部分提到提到的系统方法- (nullable NSString *)stringByAddingPercentEncodingWithAllowedCharacters:(NSCharacterSet *)allowedCharacters,而apple的文档中指出这个方法内部会按照UTF-8编码进行转义,因此这里刚好解释了为什么之前2.x版本需要传递编码参数,而3.0就不用了。
这里是NSString * AFPercentEscapedStringFromString(NSString *string)函数的一点核心代码:

NSString * AFPercentEscapedStringFromString(NSString *string) {
    static NSString * const kAFCharactersGeneralDelimitersToEncode = @":#[]@"; // does not include "?" or "/" due to RFC 3986 - Section 3.4
    static NSString * const kAFCharactersSubDelimitersToEncode = @"!$&'()*+,;=";

    NSMutableCharacterSet * allowedCharacterSet = [[NSCharacterSet URLQueryAllowedCharacterSet] mutableCopy];
    [allowedCharacterSet removeCharactersInString:[kAFCharactersGeneralDelimitersToEncode stringByAppendingString:kAFCharactersSubDelimitersToEncode]]; 

    // ......
    // .....
    return eacapedString;
}

可以看到允许转义的字符集一开始是URLQueryAllowedCharacterSet,然后去掉了kAFCharactersGeneralDelimitersToEncode(@":#[]@")和kAFCharactersSubDelimitersToEncode(@"!$&'()*+,;=")包含的字符,也就是说这些字符最终都需要转义,相比较2.x版本确实是多转义了[,].。这也是刚才看到说的使用AFN2.x版本参数值和3.0版本转义后参数值不同而3.0与浏览器中相同的原因。

费了那么大的劲,终于把这部分梳理清晰了,然后来做一件有意义的事:(将字典转为queryString的功能抽取)

将AFN字典转queryString模块抽取

这里我只是写了一个NSDictionary的分类

@interface NSDictionary (ConvertToQueryString)

- (NSString *)convertToQueryString;

@end
#import "NSDictionary+ConvertToQueryString.h"
#import "AFNetworking.h"

@implementation NSDictionary (ConvertToQueryString)

- (NSString *)convertToQueryString {
    if (!self || [self isEqual:[NSNull null]]) {
        return @"";
    }
#if AFN Version < 3.0
	return AFQueryStringFromParametersWithEncoding(self, NSUTF8StringEncoding);
#else
    return AFQueryStringFromParameters(self);
#endif
}

@end

一切就是那么简单,但是很有用处。接下来就是一点点扩展了,我们知道AFN已经封装了字典转为queryString的功能,那么有时候会有将queryString转为字典的需求,虽然这种需求并不常见,但偶尔也会碰到。那么具体怎么做呢。我推荐一个比较优秀的框架:Facebook的facebook-ios-sdk这是一个用于构建iOS应用的基础框架:包含了facebook登录和分享、处理应用间跳转的功能、一些绘图API,应用的数据统计模块等功能。这个框架并不是多么庞大,源码文件也比较少,但是其中一个网络工具还是挺好用的:FBSDKUtility。
在这个类的头文件中只是声明了这样4个方法:

@interface FBSDKUtility : NSObject

+ (NSDictionary *)dictionaryWithQueryString:(NSString *)queryString;

+ (NSString *)queryStringWithDictionary:(NSDictionary *)dictionary error:(NSError *__autoreleasing *)errorRef;

+ (NSString *)URLDecode:(NSString *)value;

+ (NSString *)URLEncode:(NSString *)value;

@end

在m文件中的实现并不复杂,单就URLEncode来说,它虽然对了一些对参数值的验空操作,但是没有想AFN那样将各种情况都充分考虑,因此若要完成queryStringWithDictionary:的功能还是建议使用AFN的功能,将AFN的方法加入到FBSDKUtility中,这种代码的普适性降低了但是增加几分可靠性。
至于dictionaryWithQueryString:方法,我相信我们都能写出这样的方法,但是说到底数据被转换后是要拿给后台使用的,排除各种后台语言和框架的差异,我们应该做到尽量使得传递的数据与后台经过解析之后获取的数据一致。

+ (NSDictionary *)dictionaryWithQueryString:(NSString *)queryString
{
  NSMutableDictionary *result = [[NSMutableDictionary alloc] init];
  NSArray *parts = [queryString componentsSeparatedByString:@"&"];

  for (NSString *part in parts) {
    if ([part length] == 0) {
      continue;
    }

    NSRange index = [part rangeOfString:@"="];
    NSString *key;
    NSString *value;

    if (index.location == NSNotFound) {
      key = part;
      value = @"";
    } else {
      key = [part substringToIndex:index.location];
      value = [part substringFromIndex:index.location + index.length];
    }

    key = [self URLDecode:key];
    value = [self URLDecode:value];
    if (key && value) {
      result[key] = value;
    }
  }
  return result;
}
posted @ 2016-01-22 19:06  Mike_zh  阅读(5086)  评论(1编辑  收藏  举报