三周前,我开源了自己写的共识库Dragonboat ,在反馈里发现一些用户对硬盘性能有不少基础性误解,但仔细想来这些坑自己一样踏过。本文从一个软件工程师角度,分享一路走来踏过的几个硬盘性能误解,方便大家绕坑而行。
SATA 对 NVME
故事首先是从使用Google云提供的本地NVME盘开始的。“本地NVME盘“,顾名思义,应该是高性能的吧?它IOPS数据靓丽,带着Google招牌的光环,一定不会水啊。跑了一下Dragonboat的跑分模式,得分惨不忍堵,NVME盘跑出的性能比7年前的SATA SSD都烂。
诸如共识算法,各类数据库以及各类需要WAL的软件都需要确保数据确实被保存到硬盘上了,确保比如掉电重启后,数据依旧完好可用。fsync()就是起到这个作用,它确保操作系统缓存内的写数据以及磁盘上缓存的写数据,被确实保存能挺过掉电重启。数据库里一个写数据的transaction和共识算法里一个Proposal的完成,都需要确保数据已落盘,共识算法更需要数据在多数机器上完成落盘。fsync()的延迟性能对上述系统的吞吐均有最直接影响。Google云本地NVME盘的蜗牛速度,是不是fsync()特别慢引起的呢?
祖传工具pg_test_fsync该登场了。
正确测试fsync()相关的各项性能,一大圈工具使用下来加上自己撸的,发现还是PostgreSQL数据库自带的这个pg_test_fsync工具最直观好用。下图是pg_test_fsync在Google云提供的本地NVME盘的跑分结果,Google云本地NVME盘的靓丽IOPS数据下,fsync()每次近需要4.4毫秒,和高速的机械盘一个量级。其他用户也发现了这一奇葩问题。
作为对比,Intel S3700/S3710,Intel 320和镁光500DC等等常见SATA固态硬盘的测试结果显示它们的fsync()延迟是0.15-0.2毫秒左右,比Goole云本地NVME盘足足低几十倍。Intel S3700的pg_test_fsync结果是这样的:
而NVME的Intel P3700的结果如下,差别是客观的,但并不是上述那种几十倍的差距:
以共识算法来说,其理论延迟极限是一次fsync()的延迟加上一次网络RTT延迟。简单计算可知,上述Google云的NVME的fsync()延迟决定了其单client的共识吞吐不可能超过每秒230次,而如果换用SATA的S3700,得益于其0.2毫秒的fsync(),单client共识吞吐理论上限即刻提升为5000次。SATA的S3700秒杀Google云上的奇葩NVME盘。
容量、吞吐、IOPS数甚至寿命都可以通过多盘来堆叠,而这个fsync()延迟,没有任何取巧近路。上述NVME和SATA的对比可见NVME与否并不是最核心的关键因素。SATA与NVME的差异,是几十微秒量级的,而具体差异产生的原因,网络上的介绍文章铺天盖地,这里不复述。上述NVME比SATA慢几十倍的实例,客观显示真正性能差异不在SATA/NVME这一点。
消费级 对 企业级SSD盘
另一常见大坑就是在开发、测试环境上使用消费级SSD,比如三星的NVME M.2固态硬盘价低量足,IOPS数据比肩企业级产品,在非生产环境使用,初一听似乎有一定道理。Dragonboat开发之初,就曾傻傻的拿这样的家用NVME盘去跑测试,结果各种龟速各种悲剧。其实,这种误解用FreeBSD开发人员贴出的数据来对比说明最直接。同样是写盘以后fsync()落盘,比较的是古董级的Intel 710企业级SATA硬盘和高端家用级的Samsung 950 PRO这款NVME盘,家用级是绝对不应该用的,哪怕是开发测试环境:
上述第三方数据也再次验证SATA/NVME的差异不是核心关键,NVME的家用盘的落盘写延迟是古董级Intel 710这款SATA盘的11倍,完全绝对不适用于共识算法、数据库等领域。如果开发测试环境单机吞吐是生产环境的1/10,而这样的差异仅仅是为了几百人民币的固态盘差价,显然是很得不偿失的。
具有掉电保护的缓存
传统的企业级硬盘都带有掉电保护功能,初听起来是一个为数据完整性设计的东西,目的是让硬盘在掉电的时候不丢失其缓存内尚未写入到磁盘的数据。其实有无掉电保护下的缓存恰恰正是上述fsync()性能巨大差异的原因。
Intel P3700拆开后,卡的正面左上角用于掉电保护两颗突起的电容清晰可见
在具有掉电保护企业盘里,当fsync()的时候,数据只要成功写入SSD卡上的内存缓存里就可以回复主机报告落盘完成,因为即使系统突然掉电,电容内的电量足够确保维持供电直到缓存内的数据安全落盘写入NAND。而不具备掉电保护的奇葩级企业盘,比如上述Google云的本地NVME盘,以及NVME的Samsung 950 PRO这款家用盘,每次均必须把数据实打实写到NAND存储芯片里。写NAND的物理延迟就是平均毫秒级别的,这和SATA与NVME均无关。
下图是AnandTech对几种常见NAND芯片性能的比较。以Intel P3700为例,它是最典型MLC NAND的固态盘,所用的NAND的写延迟就是1ms,之所以可以在100微秒内完成落盘,就是因为数据是被在掉电保护机构配合下可靠写入缓存,而非写入了MLC NAND。
此处的一大坑就是过度片面追求SLC/MLC/TLC这类NAND类型带来的性能差异,最好服务器都用SLC/MLC颗粒。这首先不是产品趋势,其次上述的分析已经清楚展示了最直接的吞吐相关的因素是掉电保护系统,恰恰就是通过它完全规避了NAND写延迟,才有良好的落盘写性能。NAND类型真的不必苛求,选大厂比如Intel的企业盘,确保掉电保护的完好性自检没有问题,选写入寿命扛得住的,这才是关键。
Intel傲腾
Optane从原理上避免了对基于内存的缓存的需求,没有了这个内存缓存,自然就不需要掉电保护这一东西。它读写延迟均更低,不用缓存不用掉电保护,落盘写就是在20-30微秒。它除了价格贵,包括寿命在那的各项指标没有一样不出彩的。特别指出这一最新发展,但不做具体展开。
共识算法不需要大量的高速低fsync()延迟存储空间
成熟的共识算法库以及数据库系统,一般均支持指定一个WAL存储位置,将它指向Optane或者带掉电保护的低fsync()延迟的固态盘,对系统性能帮助极大。此类WAL数据一般不大,在不少测试过的场景一般100G左右就足够,这也正是Intel P4801X这样固态盘只有100G大的原因。切勿错误理解为用了共识算法那所有数据都必须放低落盘写延迟的固态盘上。
结论
最后,您试用Dragonboat这款开源共识库了吗?欢迎试用,并点Star支持!
Original url: Access
Created at: 2019-02-13 09:53:44
Category: default
Tags: none
未标明原创文章均为采集,版权归作者所有,转载无需和我联系,请注明原出处,南摩阿彌陀佛,知识,不只知道,要得到
java windows火焰图_mob64ca12ec8020的技术博客_51CTO博客 - 在windows下不可行,不知道作者是怎样搞的 监听SpringBoot 服务启动成功事件并打印信息_监听springboot启动完毕-CSDN博客 SpringBoot中就绪探针和存活探针_management.endpoint.health.probes.enabled-CSDN博客 u2u转换板 - 嘉立创EDA开源硬件平台 Spring Boot 项目的轻量级 HTTP 客户端 retrofit 框架,快来试试它!_Java精选-CSDN博客 手把手教你打造一套最牛的知识笔记管理系统! - 知乎 - 想法有重合-理论可参考 安宇雨 闲鱼 机械键盘 客制化 开贴记录 文本 linux 使用find命令查找包含某字符串的文件_beijihukk的博客-CSDN博客_find 查找字符串 ---- mac 也适用 安宇雨 打字音 记录集合 B站 bilibili 自行搭建 开坑 真正的客制化 安宇雨 黑苹果开坑 查找工具包maven pom 引用地 工具网站 Dantelis 介绍的玩轴入坑攻略 --- 关于轴的一些说法 --- 非官方 ---- 心得而已 --- 长期开坑更新 [本人问题][新开坑位]关于自动化测试的工具与平台应用 机械键盘 开团 网站记录 -- 能做一个收集的程序就好了 不过现在没时间 -- 信息大多是在群里发的 - 你要让垃圾佬 都去一个地方看难度也是很大的 精神支柱 [超级前台]sprinbboot maven superdesk-app 记录 [信息有用] [环境准备] [基本完成] [sebp/elk] 给已创建的Docker容器增加新的端口映射 - qq_30599553的博客 - CSDN博客 [正在研究] Elasticsearch, Logstash, Kibana (ELK) Docker image documentation elasticsearch centos 安装记录 及 启动手记 正式服务器 39 elasticsearch 问题合集 不断更新 6.1.1 | 6.5.1 两个版本 博客程序 - 测试 - bug记录 等等问题 laravel的启动过程解析 - lpfuture - 博客园 OAuth2 Server PHP 用 Laravel 搭建带 OAuth2 验证的 RESTful 服务 | Laravel China 社区 - 高品质的 Laravel 和 PHP 开发者社区 利用Laravel 搭建oauth2 API接口 附 Unauthenticated 解决办法 - 煮茶的博客 - SegmentFault 思否 使用 OAuth2-Server-php 搭建 OAuth2 Server - 午时的海 - 博客园 基于PHP构建OAuth 2.0 服务端 认证平台 - Endv - 博客园 Laravel 的 Artisan 命令行工具 Laravel 的文件系统和云存储功能集成 浅谈Chromium中的设计模式--终--Observer模式 浅谈Chromium中的设计模式--二--pre/post和Delegate模式 浅谈Chromium中的设计模式--一--Chromium中模块分层和进程模型 DeepMind 4 Hacking Yourself README.md update 20211011
Laravel China 简书 知乎 博客园 CSDN博客 开源中国 Go Further Ryan是菜鸟 | LNMP技术栈笔记 云栖社区-阿里云 Netflix技术博客 Techie Delight Linkedin技术博客 Dropbox技术博客 Facebook技术博客 淘宝中间件团队 美团技术博客 360技术博客 古巷博客 - 一个专注于分享的不正常博客 软件测试知识传播 - 测试窝 有赞技术团队 阮一峰 语雀 静觅丨崔庆才的个人博客 软件测试从业者综合能力提升 - isTester IBM Java 开发 使用开放 Java 生态系统开发现代应用程序 pengdai 一个强大的博主 HTML5资源教程 | 分享HTML5开发资源和开发教程 蘑菇博客 - 专注于技术分享的博客平台 个人博客-leapMie 流星007 CSDN博客 - 舍其小伙伴 稀土掘金 Go 技术论坛 | Golang / Go 语言中国知识社区
最新评论