让我们一起Go(六)
前言:
一如既往,继续Go语言的学习,不过继续学习之前,容许我再废话几句。最近发现坚持一件事情很重要,而且最近也发现坚持一件事情真的有点难。虽然文章基础,不过我还是要坚持的,废话完毕,那么就继续吧。
一 Go语言之字符串
与大多数面向对象编程语言一样,Go语言也具有string(字符串)类型,只不过它与其它语言例如java中的String类型不一样的是它是值类型。并且注意声明的关键字是string,全部小写的哦,亲(java程序员尤其注意,c#程序员偷乐中......)。除此之外,它还有个特性就是不可变性,这里需要注意的是指字符串本身不可变并不是字符串变量不可变,稍后看例子就能明白。在Go语言中string类型的结构如下:
1 struct String 2 { 3 byte* str; 4 int32 len; 5 };
上述结构可以在Go语言的源代码中的runtime.h头文件中找到。
从上述结构,我们可以看出,其实string类型是由一个byte指针和int32类型的表示字符串长度的变量两部分组成。其中这里的byte是uint8的别名,实质上它就表示8位的无符号整数,因此本质上在计算机上字符串其实也就是数字而已。只不过,通过不同的编码方式将数字映射到相应的字符上。而且在Go语言中使用的是UTF-8编码方式。如果你还不明白所谓的编码方式,那么请自己通过网络查阅吧,因为涉及的知识点又会比较多,而今天我们只关注Go语言,所以这里就不细说了。
以上结构是Go语言的runtime中的c语言的结构体,所以,实际上在Go语言中的string类型你可以理解成内部就是上面的结构,至于是如何实现的,现在没必要搞清楚,这关乎Go的语言底层实现了,暂时我们只需要使用就可以了。当然有兴趣的也可以从底层去挖。
为了让事情更好玩些,我们当然也可以在Go语言层面上模拟下上面的结构,当然实际中是毫无意义的,看下面:
在main函数中首先声明定义了一个animal的字符串,然后将它转成byte数组,并将它的地址传给我们自定义的String结构体,但是String结构体的第一个参数不是一个指针类型吗?没错,其实指针变量就是用来存放该类型的内存地址的变量,当它接收一个byte数组的首地址时,就可以控制数组了。所以,当我们传递给String结构体前面的那个b的byte数组的地址后,其实也就可以控制这个数组了。是不是已经晕了?嘿嘿,正常,当初刚学C语言的时候,笔者也一直没明白指针。后来慢慢的就习惯了。再看上图30行,这的print是我们自己定义的打印这个结构体的函数,当我们传入String结构体类型cat变量后,第16行,我们循环遍历结构体的指针变量,打印出它的每一个byte,由于Go语言不能和C语言一样直接进行指针运算,所以需要引入unsafe包,通过它进行运算,这里就不详细介绍了,如非需要了解可以查询文档,不过对于初学者来说没什么大的意义,而且Go本来就不建议直接指针运算,不然直接用C好了,嘿嘿。通过上面的一顿折腾,最终将byte转成string打印出来,所以最后byte数组又被还原成string了。
看完上面一段,估计有读者要骂了,Go语言那么麻烦,比C语言还麻烦。请冷静啊,上面的在实际开发中是几乎很少用到的,不然还真不如直接用C语言了,我这里写这一大堆,只是想阐释下它的内部结构,顺带练习下Go的结构体,完全没明白的也不用管,或许等随着我们的深入学习,时间久了,再回来看就能明白了哦。
二 字符串操作
了解了字符串的基本情况后,我们再来看看对于字符串的操作。在上一节中,我们其实已经对字符串求了它的长度,就是通过len函数。不过它求得的结果并不是字符串中字符的个数,这似乎和其它一些的语言不太一样,例如java。不过,当你赋值给它的都是英文字符的时候,似乎这个结果就是字符个数,但是当你将中文赋值给它后,就有些不太对了,不信可以试试。这里我将开发平台切换到了Linux,因为在windows下命令提示符下对于UTF-8的字符集操作不太方便。请看例子:
最终结果是:
结果是12,有图有真相,为什么是这个结果呢?原因是在Go语言中,字符是utf-8编码的,其中英文字符一个算一个字节,中文算三个字节。那么,我们如果非要得到字符个数呢?可以将string转换成[]rune类型:
rune没啥好奇怪的,其实就是int32的别名,所以这里其实是将string转成了32位整数数组分别存入对应字符的unicode,这样最终有几个字符就对应几个unicode分别位于数组中。因此最后可以得到长度为2。当然可以打印看下unicode是什么:
接下来,来点轻松的,大家都知道python中对数组可以切片,在Go中,也可以。如下:
最终结果:
今天就到这里,感觉文章越来越长了,额,没办法,随着深入学习必然会这样,但是我还是会尽量缩短每篇的长度的。希望对大家有帮助~
|