前言
当我们使用go进行数据序列化或反序列化操作时,可能经常涉及到字符串和字节数组的转换。例如:
1
2
3
4
5
6
7
8
9
if
str, err := json.Marshal(from); err != nil {
panic(err)
}
else
{
return
string(str)
}
json序列化后为[]byte类型,需要将其转换为字符串类型。当数据量小时,类型间转换的开销可以忽略不计,但当数据量增大后,可能成为性能瓶颈,使用高效的转换方法能减少这方面的开销
数据结构
在了解其如何转换前,需要了解其底层数据结构
本文基于go 1.13.12
string:
1
2
3
4
5
6
7
type stringStruct
struct
{
str unsafe.Pointer
len
int
}
slice:
1
2
3
4
5
6
7
8
9
type slice struct {
array unsafe.Pointer
len
int
cap
int
}
与slice的结构相比,string缺少一个表示容量的cap字段,因此不能对string遍历使用内置的cap()函数那为什么string不需要cap字段呢?因为go中string被设计为不可变类型(当然在很多其他语言中也是),由于其不可像slice一样追加元素,也就不需要cap字段判断是否超出底层数组的容量,来决定是否扩容
只有len属性不影响for-range等读取操作,因为for-range操作只根据len决定是否跳出循环
那为什么字符串要设定为不可变呢?因为这样能保证字符串的底层数组不发生改变
举个例子,map中以string为键,如果底层字符数组改变,则计算出的哈希值也会发生变化,这样再从map中定位时就找不到之前的value,因此其不可变特性能避免这种情况发生,string也适合作为map的键。除此之外,不可变特性也能保障数据的线程安全
常规实现
字符串不可变有很多好处,为了维持其不可变特性,字符串和字节数组互转一般是通过数据拷贝的方式实现:
1
2
3
4
5
var a string =
"hello world"
var b []byte = []byte(a)
// string转[]byte
a = string(b)
// []byte转string
这种方式实现简单,但是通过底层数据复制实现的,在编译期间分别转换成对slicebytetostring和stringtoslicebyte的函数调用
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
func stringtoslicebyte(buf *tmpBuf, s string) []byte {
var b []byte
if
buf != nil && len(s) <= len(buf) {
*buf = tmpBuf{}
b = buf[:len(s)]
}
else
{
// 申请内存
b = rawbyteslice(len(s))
}
// 复制数据
copy(b, s)
return
b
}
其根据返回值是否逃逸到堆上,以及buf的长度是否足够,判断选择使用buf还是调用rawbyteslice申请一个slice。但不管是哪种,都会执行一次copy拷贝底层数据
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
func slicebytetostring(buf *tmpBuf, b []byte) (str string) {
l := len(b)
if
l == 0 {
return
""
}
if
l == 1 {
stringStructOf(&str).str = unsafe.Pointer(&staticbytes[b[0]])
stringStructOf(&str).len = 1
return
}
var p unsafe.Pointer
if
buf != nil && len(b) <= len(buf) {
p = unsafe.Pointer(buf)
}
else
{
p = mallocgc(uintptr(len(b)), nil,
false
`)`
}
// 赋值底层指针
stringStructOf(&str).str = p
// 赋值长度
stringStructOf(&str).len = len(b)
// 拷贝数据
memmove
`(p, ((slice)(unsafe.Pointer(&b))).array, uintptr(len(b)))`
return
}
首先处理长度为0或1的情况,再判断使用buf还是通过mallocgc新申请一段内存,但无论哪种方式,最后都要拷贝数据
这里设置了转换后字符串的len属性
高效实现
如果程序保证不对底层数据进行修改,那么只转换类型,不拷贝数据,是否可以提高性能?
unsafe.Pointer,int,uintpt这三种类型占用的内存大小相同
1
2
3
4
5
6
7
8
9
10
11
var v1 unsafe.Pointer
var v2
int
var v3 uintptr
fmt.Println(unsafe.Sizeof(v1))
// 8
fmt.Println(unsafe.Sizeof(v2))
// 8
fmt.Println(unsafe.Sizeof(v3))
// 8
因此从底层结构上来看string可以看做[2]uintptr,[]byte切片类型可以看做 [3]uintptr
那么从string转[]byte只需构建出 [3]uintptr{ptr,len,len}
这里我们为slice结构生成了cap字段,其实这里不生成cap字段对读取操作没有影响,但如果要往转换后的slice append元素可能有问题,原因如下:
这样做slice的cap属性是随机的,可能是大于len的值,那么append时就不会新开辟一段内存存放元素,而是在原数组后面追加,如果后面的内存不可写就会panic
[]byte转string更简单,直接转换指针类型即可,忽略cap字段
实现如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
func stringTobyteSlice(s string) []byte {
tmp1 := (*[2]uintptr)(unsafe.Pointer(&s))
tmp2 := [3]uintptr{tmp1[0], tmp1[1], tmp1[1]}
return
*(*[]byte)(unsafe.Pointer(&tmp2))
}
func byteSliceToString(bytes []byte) string {
return
*(*string)(unsafe.Pointer(&bytes))
}
这里使用unsafe.Pointer来转换不同类型的指针,没有底层数据的拷贝
性能测试
接下来对高效实现进行性能测试,这里选用长度为100的字符串或字节数组进行转换
分别测试以下4个方法:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
func stringTobyteSlice(s string) []byte {
tmp1 := (*[2]uintptr)(unsafe.Pointer(&s))
tmp2 := [3]uintptr{tmp1[0], tmp1[1], tmp1[1]}
return
*(*[]byte)(unsafe.Pointer(&tmp2))
}
func stringTobyteSliceOld(s string) []byte {
return
[]byte(s)
}
func byteSliceToString(bytes []byte) string {
return
*(*string)(unsafe.Pointer(&bytes))
}
func byteSliceToStringOld(bytes []byte) string {
return
string(bytes)
}
测试结果如下:
BenchmarkStringToByteSliceOld-12 28637332 42.0 ns/opBenchmarkStringToByteSliceNew-12 1000000000 0.496 ns/op
BenchmarkByteSliceToStringOld-12 32595271 36.0 ns/op
BenchmarkByteSliceToStringNew-12 1000000000 0.256 ns/op
可以看出性能差距比较大,如果需要转换的字符串或字节数组长度更长,性能提升更加明显
总结
本文介绍了字符串和数组的底层数据结构,以及高效的互转方法,需要注意的是,其适用于程序能保证不对底层数据进行修改的场景。若不能保证,且底层数据被修改可能引发异常,则还是使用拷贝的方式
到此这篇关于Go中string与[]byte高效互转的文章就介绍到这了,更多相关Go中string与[]byte互转内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!
您可能感兴趣的文章:
原网址: 访问
创建于: 2022-09-13 20:55:47
目录: default
标签: 无
未标明原创文章均为采集,版权归作者所有,转载无需和我联系,请注明原出处,南摩阿彌陀佛,知识,不只知道,要得到
java windows火焰图_mob64ca12ec8020的技术博客_51CTO博客 - 在windows下不可行,不知道作者是怎样搞的 监听SpringBoot 服务启动成功事件并打印信息_监听springboot启动完毕-CSDN博客 SpringBoot中就绪探针和存活探针_management.endpoint.health.probes.enabled-CSDN博客 u2u转换板 - 嘉立创EDA开源硬件平台 Spring Boot 项目的轻量级 HTTP 客户端 retrofit 框架,快来试试它!_Java精选-CSDN博客 手把手教你打造一套最牛的知识笔记管理系统! - 知乎 - 想法有重合-理论可参考 安宇雨 闲鱼 机械键盘 客制化 开贴记录 文本 linux 使用find命令查找包含某字符串的文件_beijihukk的博客-CSDN博客_find 查找字符串 ---- mac 也适用 安宇雨 打字音 记录集合 B站 bilibili 自行搭建 开坑 真正的客制化 安宇雨 黑苹果开坑 查找工具包maven pom 引用地 工具网站 Dantelis 介绍的玩轴入坑攻略 --- 关于轴的一些说法 --- 非官方 ---- 心得而已 --- 长期开坑更新 [本人问题][新开坑位]关于自动化测试的工具与平台应用 机械键盘 开团 网站记录 -- 能做一个收集的程序就好了 不过现在没时间 -- 信息大多是在群里发的 - 你要让垃圾佬 都去一个地方看难度也是很大的 精神支柱 [超级前台]sprinbboot maven superdesk-app 记录 [信息有用] [环境准备] [基本完成] [sebp/elk] 给已创建的Docker容器增加新的端口映射 - qq_30599553的博客 - CSDN博客 [正在研究] Elasticsearch, Logstash, Kibana (ELK) Docker image documentation elasticsearch centos 安装记录 及 启动手记 正式服务器 39 elasticsearch 问题合集 不断更新 6.1.1 | 6.5.1 两个版本 博客程序 - 测试 - bug记录 等等问题 laravel的启动过程解析 - lpfuture - 博客园 OAuth2 Server PHP 用 Laravel 搭建带 OAuth2 验证的 RESTful 服务 | Laravel China 社区 - 高品质的 Laravel 和 PHP 开发者社区 利用Laravel 搭建oauth2 API接口 附 Unauthenticated 解决办法 - 煮茶的博客 - SegmentFault 思否 使用 OAuth2-Server-php 搭建 OAuth2 Server - 午时的海 - 博客园 基于PHP构建OAuth 2.0 服务端 认证平台 - Endv - 博客园 Laravel 的 Artisan 命令行工具 Laravel 的文件系统和云存储功能集成 浅谈Chromium中的设计模式--终--Observer模式 浅谈Chromium中的设计模式--二--pre/post和Delegate模式 浅谈Chromium中的设计模式--一--Chromium中模块分层和进程模型 DeepMind 4 Hacking Yourself README.md update 20211011
Laravel China 简书 知乎 博客园 CSDN博客 开源中国 Go Further Ryan是菜鸟 | LNMP技术栈笔记 云栖社区-阿里云 Netflix技术博客 Techie Delight Linkedin技术博客 Dropbox技术博客 Facebook技术博客 淘宝中间件团队 美团技术博客 360技术博客 古巷博客 - 一个专注于分享的不正常博客 软件测试知识传播 - 测试窝 有赞技术团队 阮一峰 语雀 静觅丨崔庆才的个人博客 软件测试从业者综合能力提升 - isTester IBM Java 开发 使用开放 Java 生态系统开发现代应用程序 pengdai 一个强大的博主 HTML5资源教程 | 分享HTML5开发资源和开发教程 蘑菇博客 - 专注于技术分享的博客平台 个人博客-leapMie 流星007 CSDN博客 - 舍其小伙伴 稀土掘金 Go 技术论坛 | Golang / Go 语言中国知识社区
最新评论