版权声明:Designed By JiaMingcan https://blog.csdn.net/qq_41571900/article/details/84205823
记得在之前写了一篇是MySQL基础使用的,这次就用MySQL来保存Direct方式的偏移量。
代码如下:
package kafka1
import kafka.common.TopicAndPartition
import kafka.message.MessageAndMetadata
import kafka.serializer.StringDecoder
import org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.InputDStream
import org.apache.spark.streaming.kafka.KafkaCluster.Err
import org.apache.spark.streaming.kafka.{HasOffsetRanges, KafkaCluster, KafkaUtils}
import org.apache.spark.streaming.{Duration, StreamingContext}
import scalikejdbc.{DB, SQL}
import scalikejdbc.config.DBs
/*
将偏移量保存到mysql中
*/
class DirectMySQL {
def main(args: Array[String]): Unit = {
val conf = new SparkConf().setAppName("ssom").setMaster("local[2]")
val ssc = new StreamingContext(conf,Duration(3000))
//一系列基本配置
val groupid="gp0123"
val brokerList="192.168.85.200:9092,192.168.85.201:9092,192.168.85.202:9092"
val topic="topic009"
val topics=Set(topic)
//设置kafka的配置
val kafkas=Map(
"metadata.broker.list"->brokerList,
"group.id"->groupid,
"auto.offset.reset"->kafka.api.OffsetRequest.SmallestTimeString
)
//加载配置
DBs.setup()
//这一块我们就不需要再进行查询zk中的offset,直接查询Mysql中的Offset数据
val fromdbOffset:Map[TopicAndPartition,Long]=
DB.readOnly{
implicit session =>
//每个分组下的所有消息
SQL(s"select * from offsets where groupid='${groupid}'")
.map(m=>(TopicAndPartition(
m.string("topic"),m.int("partitions")),m.long("untiloffsets")))
.toList().apply()
}.toMap //最后要toMap一下,因为前面的返回值已经给定
//创建一个InputDStream,然后根据offset读取数据
var kafkaStream:InputDStream[(String,String)]=null
//从MySQL中获取数据,进行判断
if(fromdbOffset.size==0){
//如果程序第一次启动
kafkaStream=KafkaUtils.createDirectStream[String,String,StringDecoder,StringDecoder](ssc,kafkas,topics)
}else{
//如果程序不是第一次启动
//首先获取Topic和Partition、Offset
var checkOffsets=Map[TopicAndPartition,Long]()
//加载kafka的配置
val kafkaCluster = new KafkaCluster(kafkas)
//首先获取kafka中的所有Topic partition offset
val earliesOffsets: Either[Err,
Map[TopicAndPartition, KafkaCluster.LeaderOffset]] =
kafkaCluster.getEarliestLeaderOffsets(fromdbOffset.keySet)
//然后开始进行比较大小,用Mysql中的offset和kafka的offset进行比较
if(earliesOffsets.isRight){
//取到我们需要的Map
val topicAndPartitionOffset:
Map[TopicAndPartition, KafkaCluster.LeaderOffset] =
earliesOffsets.right.get
//比较直接进行比较大小
fromdbOffset.map(owner=>{
//取我们kafka汇总的offset
val topicOffset = topicAndPartitionOffset.get(owner._1).get.offset
//进行比较不允许重复消费,取最大的
if(owner._2>topicOffset){
owner
}else{
(owner._1,topicOffset)
}
})
}
val messageHandler = (mmd:MessageAndMetadata[String,String])=>{
(mmd.key(),mmd.message())
}
kafkaStream= KafkaUtils.createDirectStream[String,String,
StringDecoder,StringDecoder,
(String,String)](ssc,kafkas,checkOffsets,messageHandler)
}
//开始处理数据流,和ZK一样
kafkaStream.foreachRDD(kafkaRDD=>{
//首先获取的数据转换,获取Offset,后面更新的时候使用
val offsetRanges = kafkaRDD.asInstanceOf[HasOffsetRanges].offsetRanges
val lines = kafkaRDD.map(_._2)
lines.foreach(println)
//更新偏移量
DB.localTx(
implicit session =>
//收取所有topic paratition offset
for(os<-offsetRanges){
/*SQL("update offsets set groupid=?,topic=?,partitions=?,untilOffset=?")
.bind(groupid,os.topic,os.partition,os.untilOffset).update().apply()*/
SQL("replace into offsets(groupid ,topic,partitions,untilOffset) values(?,?,?,?)")
.bind(groupid,os,topic,os.partition,os.untilOffset).update().apply()
}
)
})
ssc.start()
ssc.awaitTermination()
}
}
通过这三篇博客的介绍,相信大家对存储Offset也有了一定的理解了吧。当然这三种方式都能存储Offset,所以选择哪种方式其实都一样的,看你喜欢哪种方式就可以选择哪种。
summed up by JiaMingcan
转载请署名:JiaMingcan
原网址: 访问
创建于: 2020-05-13 05:03:08
目录: default
标签: 无
未标明原创文章均为采集,版权归作者所有,转载无需和我联系,请注明原出处,南摩阿彌陀佛,知识,不只知道,要得到
java windows火焰图_mob64ca12ec8020的技术博客_51CTO博客 - 在windows下不可行,不知道作者是怎样搞的 监听SpringBoot 服务启动成功事件并打印信息_监听springboot启动完毕-CSDN博客 SpringBoot中就绪探针和存活探针_management.endpoint.health.probes.enabled-CSDN博客 u2u转换板 - 嘉立创EDA开源硬件平台 Spring Boot 项目的轻量级 HTTP 客户端 retrofit 框架,快来试试它!_Java精选-CSDN博客 手把手教你打造一套最牛的知识笔记管理系统! - 知乎 - 想法有重合-理论可参考 安宇雨 闲鱼 机械键盘 客制化 开贴记录 文本 linux 使用find命令查找包含某字符串的文件_beijihukk的博客-CSDN博客_find 查找字符串 ---- mac 也适用 安宇雨 打字音 记录集合 B站 bilibili 自行搭建 开坑 真正的客制化 安宇雨 黑苹果开坑 查找工具包maven pom 引用地 工具网站 Dantelis 介绍的玩轴入坑攻略 --- 关于轴的一些说法 --- 非官方 ---- 心得而已 --- 长期开坑更新 [本人问题][新开坑位]关于自动化测试的工具与平台应用 机械键盘 开团 网站记录 -- 能做一个收集的程序就好了 不过现在没时间 -- 信息大多是在群里发的 - 你要让垃圾佬 都去一个地方看难度也是很大的 精神支柱 [超级前台]sprinbboot maven superdesk-app 记录 [信息有用] [环境准备] [基本完成] [sebp/elk] 给已创建的Docker容器增加新的端口映射 - qq_30599553的博客 - CSDN博客 [正在研究] Elasticsearch, Logstash, Kibana (ELK) Docker image documentation elasticsearch centos 安装记录 及 启动手记 正式服务器 39 elasticsearch 问题合集 不断更新 6.1.1 | 6.5.1 两个版本 博客程序 - 测试 - bug记录 等等问题 laravel的启动过程解析 - lpfuture - 博客园 OAuth2 Server PHP 用 Laravel 搭建带 OAuth2 验证的 RESTful 服务 | Laravel China 社区 - 高品质的 Laravel 和 PHP 开发者社区 利用Laravel 搭建oauth2 API接口 附 Unauthenticated 解决办法 - 煮茶的博客 - SegmentFault 思否 使用 OAuth2-Server-php 搭建 OAuth2 Server - 午时的海 - 博客园 基于PHP构建OAuth 2.0 服务端 认证平台 - Endv - 博客园 Laravel 的 Artisan 命令行工具 Laravel 的文件系统和云存储功能集成 浅谈Chromium中的设计模式--终--Observer模式 浅谈Chromium中的设计模式--二--pre/post和Delegate模式 浅谈Chromium中的设计模式--一--Chromium中模块分层和进程模型 DeepMind 4 Hacking Yourself README.md update 20211011
Laravel China 简书 知乎 博客园 CSDN博客 开源中国 Go Further Ryan是菜鸟 | LNMP技术栈笔记 云栖社区-阿里云 Netflix技术博客 Techie Delight Linkedin技术博客 Dropbox技术博客 Facebook技术博客 淘宝中间件团队 美团技术博客 360技术博客 古巷博客 - 一个专注于分享的不正常博客 软件测试知识传播 - 测试窝 有赞技术团队 阮一峰 语雀 静觅丨崔庆才的个人博客 软件测试从业者综合能力提升 - isTester IBM Java 开发 使用开放 Java 生态系统开发现代应用程序 pengdai 一个强大的博主 HTML5资源教程 | 分享HTML5开发资源和开发教程 蘑菇博客 - 专注于技术分享的博客平台 个人博客-leapMie 流星007 CSDN博客 - 舍其小伙伴 稀土掘金 Go 技术论坛 | Golang / Go 语言中国知识社区
最新评论