[ 用大白话讲解复杂的技术 ]
这是我的第 54 篇原创文章
作者 l 会点代码的大叔(CodeDaShu)
有一道流传广泛的面试题:
给你一台 4G 内存的机器,一组 20 亿个无序正整数,如何快速地判断一个正整数 N 是否在这组数字中?或者如何快速地对这组数据排重后排序?
让我们先算算 20 亿个整数会占用多大的内存空间,Java 的 int 类型占用 4 个字节,那么 20 亿 * 4 再换算成 G 大约是 7.5G,大于题目中 4G 内存的限制,无法一次性地放到内存中;
这时候有些伙伴会说:“把数据放到磁盘上,然后分批将数据读取到内存中就行查询”,但是这种方法会导致多次磁盘 IO,而且只能解决第一个查找的问题,排序就没有办法做到了。
01
BitMap 的概念
BitMap 能够很好地解决这个问题;它是用一个 Bit 位来标记某个元素对应的 Value, 而 Key 即是该元素,比如我们初始化一个类型为 bit、长度为 8 的数组,数组下标 0-7,数组中的内容 1 表示存在,0 表示不存在,那么:
00000001 下标为 0 的位置,对应值是1,那么表示 0;同理:
00000010 表示 1;
00000100 表示 2;
00001000 表示 3;
...
10000000 表示 7;
如果一组数据 {2,3,4,7} 放到同一个数组中的话,就是 10011100:
如果按照 int 数组存储,{2,3,4,7} 需要 4 4 8 个 bit 才能存储的数据,但是现在 BitMap 只需要 8 个 bit 就可以存储,很大地节省了存储空间,并且排重后的排序也变的非常简单了;如果用 byte 实现的话,只需要 1 个 byte 就可以(1 byte = 8 bits)。
如果增加了一个数字 10 呢,那么 1 个 byte 就不够了:
02
数据结构及初始化
我们可以得知,BitMap 的容量大小取决于最大的那个数值,比如要存储 {2,3,4,7,10}:
明白了这点之后,一个简单的 BitMap 数据结构也就可以确定了:
public class BitMap {
03
添加数据
添加数据,需要快速地定位到这个元素要存到整个数组中的哪个位置,这里有两个概念:
索引号 index:数据保存在整个数组的哪个下标中;
位置号 position:数据在这个下标元素的哪个位置;
比如 10 保存在 index = 1,position = 2(从 0 开始) 这个位置中,经推算可得:
index = N / 8
知道了 10 保存的位置之后,怎么把对应位置的数据更改成 1 呢?可以用“位或”运算。将 10 添加到 BitMap 中的完整步骤如下:
完整的代码如下:
public void add(int num){
04
判断数字是否存在
知道了如何判断数字的索引号和位置号之后,判断数字是否存在也就容易了,直接使用“位与”运算,代码如下:
public boolean contains(int num){
05
测试
让我们做一下测试吧:
public class BitMapTest {
运行结果:
12:存在
从结果可以看到,判断的都很准确,当然这只是一个最简单的BitMap实现,它还存在着很多问题,比如我们必须知道数据中最大的那个数字是多少,这个可以采用动态扩容的方式解决;
在 JDK 中,已经有对应实现的数据结构类 java.util.BitSet,我们可以不用强撸 BitMap,直接使用 BitSet 就好了,或者使用谷歌封装的 EWAHCompressedBitmap。
06
优缺点
优点:
缺点:
本章节介绍了 BitMap 的概念和基本实现,后续会介绍 BitMap 在实际开发中的应用。
期待分享
如果您喜欢本文,请点个“在看”或分享到朋友圈,这将是对我最大的鼓励。
本文分享自微信公众号 - 会点代码的大叔(CodeDaShu)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。
Original url: Access
Created at: 2020-08-28 09:44:40
Category: default
Tags: none
未标明原创文章均为采集,版权归作者所有,转载无需和我联系,请注明原出处,南摩阿彌陀佛,知识,不只知道,要得到
java windows火焰图_mob64ca12ec8020的技术博客_51CTO博客 - 在windows下不可行,不知道作者是怎样搞的 监听SpringBoot 服务启动成功事件并打印信息_监听springboot启动完毕-CSDN博客 SpringBoot中就绪探针和存活探针_management.endpoint.health.probes.enabled-CSDN博客 u2u转换板 - 嘉立创EDA开源硬件平台 Spring Boot 项目的轻量级 HTTP 客户端 retrofit 框架,快来试试它!_Java精选-CSDN博客 手把手教你打造一套最牛的知识笔记管理系统! - 知乎 - 想法有重合-理论可参考 安宇雨 闲鱼 机械键盘 客制化 开贴记录 文本 linux 使用find命令查找包含某字符串的文件_beijihukk的博客-CSDN博客_find 查找字符串 ---- mac 也适用 安宇雨 打字音 记录集合 B站 bilibili 自行搭建 开坑 真正的客制化 安宇雨 黑苹果开坑 查找工具包maven pom 引用地 工具网站 Dantelis 介绍的玩轴入坑攻略 --- 关于轴的一些说法 --- 非官方 ---- 心得而已 --- 长期开坑更新 [本人问题][新开坑位]关于自动化测试的工具与平台应用 机械键盘 开团 网站记录 -- 能做一个收集的程序就好了 不过现在没时间 -- 信息大多是在群里发的 - 你要让垃圾佬 都去一个地方看难度也是很大的 精神支柱 [超级前台]sprinbboot maven superdesk-app 记录 [信息有用] [环境准备] [基本完成] [sebp/elk] 给已创建的Docker容器增加新的端口映射 - qq_30599553的博客 - CSDN博客 [正在研究] Elasticsearch, Logstash, Kibana (ELK) Docker image documentation elasticsearch centos 安装记录 及 启动手记 正式服务器 39 elasticsearch 问题合集 不断更新 6.1.1 | 6.5.1 两个版本 博客程序 - 测试 - bug记录 等等问题 laravel的启动过程解析 - lpfuture - 博客园 OAuth2 Server PHP 用 Laravel 搭建带 OAuth2 验证的 RESTful 服务 | Laravel China 社区 - 高品质的 Laravel 和 PHP 开发者社区 利用Laravel 搭建oauth2 API接口 附 Unauthenticated 解决办法 - 煮茶的博客 - SegmentFault 思否 使用 OAuth2-Server-php 搭建 OAuth2 Server - 午时的海 - 博客园 基于PHP构建OAuth 2.0 服务端 认证平台 - Endv - 博客园 Laravel 的 Artisan 命令行工具 Laravel 的文件系统和云存储功能集成 浅谈Chromium中的设计模式--终--Observer模式 浅谈Chromium中的设计模式--二--pre/post和Delegate模式 浅谈Chromium中的设计模式--一--Chromium中模块分层和进程模型 DeepMind 4 Hacking Yourself README.md update 20211011
Laravel China 简书 知乎 博客园 CSDN博客 开源中国 Go Further Ryan是菜鸟 | LNMP技术栈笔记 云栖社区-阿里云 Netflix技术博客 Techie Delight Linkedin技术博客 Dropbox技术博客 Facebook技术博客 淘宝中间件团队 美团技术博客 360技术博客 古巷博客 - 一个专注于分享的不正常博客 软件测试知识传播 - 测试窝 有赞技术团队 阮一峰 语雀 静觅丨崔庆才的个人博客 软件测试从业者综合能力提升 - isTester IBM Java 开发 使用开放 Java 生态系统开发现代应用程序 pengdai 一个强大的博主 HTML5资源教程 | 分享HTML5开发资源和开发教程 蘑菇博客 - 专注于技术分享的博客平台 个人博客-leapMie 流星007 CSDN博客 - 舍其小伙伴 稀土掘金 Go 技术论坛 | Golang / Go 语言中国知识社区
最新评论