Qwen-Audio 模型包含两个主要组件:
输入数据是成对的音频序列aaa和文本序列xxx,即训练数据是音频和文本的配对。目标是训练模型能够根据给定的音频表示Encoder(a)\text{Encoder}(a)Encoder(a)和之前的文本序列 x<tx_{<t}x<t 来预测下一个文本标记 xtx_txt,最大化下一个文本标记的条件概率 :
Pθ(xt∣x<t,Encoderϕ(a))P_{\theta}(x_t | x_{<t}, \text{Encoder}_{\phi}(a))Pθ(xt∣x<t,Encoderϕ(a))
Qwen-Audio 使用一个 音频编码器 来处理各种类型的音频数据。该音频编码器的初始化基于 Whisper-large-v2 模型,它是一个 32 层的 Transformer 模型,包含两个卷积下采样层作为 stem(即基础层)。
音频数据预处理:
音频编码器输出:
音频编码器处理后的输出是一个向量表示,它捕捉了音频的多维信息。这些输出特征将会作为模型的输入之一,供语言模型使用。
数学公式表示:
Qwen-Audio 中使用的大型语言模型是基于 Qwen-7B 的,该模型是一个 32 层的 Transformer 解码器模型,隐藏层大小为 4096,包含约 7.7 亿个参数。这个语言模型的作用是处理文本序列,生成下一个文本标记。
数学公式表示:
假设当前文本序列是 x<tx_{<t}x<t,模型通过语言模型进行处理,生成下一个文本标记xtx_txt 的条件概率:
Pθ(xt∣x<t,Encoderϕ(a)) P_{\theta}(x_t | x_{<t}, \text{Encoder}_{\phi}(a)) Pθ(xt∣x<t,Encoderϕ(a))
其中:
Qwen-Audio 的训练目标是通过最大化条件概率 Pθ(xt∣x<t,Encoderϕ(a))P_{\theta}(x_t | x_{<t}, \text{Encoder}_{\phi}(a))Pθ(xt∣x<t,Encoderϕ(a)) 来训练模型,使得模型能够根据音频信号和前面的文本序列预测下一个文本标记。
数学公式表示:
对于每个样本 ( (a, x) ),训练目标是最大化下一个文本标记的条件概率:
L=−∑i=1N∑t=1TlogPθ(xt(i)∣x<t(i),Encoderϕ(a(i))) \mathcal{L} = - \sum_{i=1}^N \sum_{t=1}^{T} \log P_{\theta}(x_t^{(i)} | x_{<t}^{(i)}, \text{Encoder}_{\phi}(a^{(i)})) L=−i=1∑Nt=1∑TlogPθ(xt(i)∣x<t(i),Encoderϕ(a(i)))
其中:
音频输入:假设有一个音频片段,包含一句话“这是一只狗”
的语音信号。
文本输入:与该音频片段对应的文本是“这是一只狗”。
换句话说,模型在训练过程中通过最大化条件概率来学习音频和文本之间的关系。具体来说,训练的目标是最大化:
Pθ("狗"∣"这是一只",Faudio) P_{\theta}(\text{"狗"} | \text{"这是一只"}, F_{\text{audio}}) Pθ("狗"∣"这是一只",Faudio)
在音频处理领域,已经开发了多种不同的音频数据集,目的是解决不同的任务。例如,自动语音识别(ASR)、情感识别(SER)、说话人验证(SV)等任务每个都需要不同的数据集。
Qwen-Audio 的目标:
Qwen-Audio 的目标是 联合训练,也就是说,模型在训练时可以同时处理不同类型的任务,并且使得这些任务之间能够相互受益。这样,模型就不再需要频繁地在不同任务之间切换,也能够通过多个任务的协作和共享知识来提高性能。
在多任务训练中,任务之间的协作非常重要。Qwen-Audio 提出的原因如下:
相似任务之间的共享和协作:
低级任务帮助高级任务:
不同的数据集通常存在较大的差异,主要体现在 文本标签 上。例如:
例如:
直接将这些差异较大的数据集混合进行训练,可能导致任务之间的干扰,效果反而不好。为了避免这种干扰,现有的多任务训练方法通常会:
然而,这种方法仍然存在改进空间。
Whisper 是一种多任务训练的格式,通过输入特殊的标记(token)来明确指定任务类型和条件信息。Whisper 在处理 语音识别 和 语音翻译 任务时,使用了标记来指定任务类型:
然而,Whisper 主要关注语音识别和翻译任务。
Qwen-Audio 提出了一个改进的多任务训练框架,其核心目标是通过共享标签来促进相似任务的协作,并确保不同任务的输出格式能够区分开来,避免模型产生“一对多”的映射问题。
转录标签(Transcription Tag):
<|startoftranscripts|>
标签表示开始预测。<|startofanalysis|>
标签。<|startoftranscripts|>
标签,表示任务是转录语音。音频语言标签(Audio Language Tag):
<|zh|>
,英语用 <|en|>
)。<|unknown|>
标签。**例子:**
* 对于英语音频,标签是 `<|en|>`。
* 对于没有语音的音频(如自然声音或音乐),标签是 `<|unknown|>`。
任务标签(Task Tag):
每个音频任务都会指定一个任务标签,以指示任务类型。例如:
<|transcribe|>
:表示语音转录任务。<|translate|>
:表示语音翻译任务。<|caption|>
:表示自动音频描述任务。<|analysis|>
:表示音频分析任务。<|question-answer|>
:表示音频问答任务。**例子:**
* 任务是 **音频转录**,则标签为 `<|transcribe|>`。
* 任务是 **音频问答**,则标签为 `<|question-answer|>`,并且附上对应的 **问题**。
文本语言标签(Text Language Tag):
<|en|>
;如果是中文文本,标签为 <|zh|>
。时间戳标签(Timestamps Tag):
<|timestamps|>
标签。对于没有时间戳预测需求的任务,则使用 <|notimestamps|>
标签。**例子:**
* 对于语音识别任务,使用 `<|timestamps|>` 标签来启用细粒度时间戳预测(如单词级别的时间戳)。
* 如果只是普通的语音识别任务,没有时间戳需求,则使用 `<|notimestamps|>` 标签。
输出指令(Output Instruction):
<|startoftranscripts|>
标签和 <|translate|>
标签,它们共同学习音频中语言信息的转录和翻译能力。数据流动:
<|transcribe|>
, <|translate|>
, 等)开始特定任务。监督微调是基于 多任务预训练(Multitask Pretraining) 的基础上,通过 指令驱动的微调技术 来改善模型对人类意图的对齐能力,从而使得模型能生成更符合需求的输出。
Qwen-Audio-Chat 是 Qwen-Audio 的一种 交互式聊天模型,它的核心目的是让模型能够处理多轮对话和音频输入。为了实现这一目标,使用了指令驱动的微调技术,让模型能够理解和回应用户的请求,生成更符合对话语境的回答。
在监督微调阶段,Qwen-Audio 会做以下几件事:
创建任务演示:
使用 GPT-3.5 来生成问题和答案:
创建音频对话数据集:
为了有效处理多音频对话和多个音频输入,论文中提出了一种新的标签方法:
id
对应音频输入对话的顺序。这样模型能够区分不同音频的来源,知道每段音频是在哪个对话轮次中产生的。为了构建对话数据集,模型使用 ChatML 格式进行指令微调。这个格式通过使用特殊标记(tokens)来划定对话的起始和结束:
<im_start>
和 <im_end>
用于标记对话的开始和结束。假设正在与 Qwen-Audio-Chat 模型进行对话,以下是数据流动:
用户输入(音频):
"Speaker 1: What does the speaker say?"
模型处理:
"The speaker says in English, 'Won’t you draw up, gentlemen.'"
用户输入(文本):
模型生成回答:
通过这种方式,Qwen-Audio-Chat 模型能够处理用户输入的音频,并生成相应的文本回答。
在 监督微调 阶段,Qwen-Audio-Chat 处理的输入不仅限于纯文本,还包括 音频输入,这使得模型能够同时理解音频和文本,并且处理多轮对话。指令微调的训练数据集包含了 音频指令数据 和 纯文本指令数据,允许模型无缝地处理来自不同模态的输入。
以下是模型如何接受输入和生成输出的一个示例:
<im_start>user
Audio 1: <audio>emov-db/141-168-0155.wav</audio> What does the speaker say?<im_end>
<im_start>assistant
The speaker says in English, "Won’t you draw up, gentlemen.".<im_end>
<im_start>user
What’s the mood of the person?<im_end>
<im_start>assistant
Based on the voice, the mood of the person is disgusted.<im_end>
示例解析:
emov-db/141-168-0155.wav
中包含一句话。这种训练方式确保了 Qwen-Audio-Chat 能够在音频输入和文本输入之间进行有效的转换,并生成合理的回答。
Qwen-Audio-Chat 在多个任务上的表现进行了评估,涵盖了诸如 自动语音识别(ASR)、语音到文本翻译(S2TT)、自动音频描述(AAC) 等任务。在所有这些任务中,Qwen-Audio-Chat 都展示了出色的性能。
在论文中提供的评估表格显示了 Qwen-Audio 在多个数据集上的表现,如 LibriSpeech(ASR任务)、CoVoST2(语音翻译任务)等。
Qwen-Audio 引入了一个新的任务,SRWT(带有单词级时间戳的语音识别),模型不仅需要识别语音的转录内容,还需要为每个单词预测时间戳。
SRWT 的目的:
原网址: 访问
创建于: 2025-07-23 20:50:24
目录: default
标签: 无
未标明原创文章均为采集,版权归作者所有,转载无需和我联系,请注明原出处,南摩阿彌陀佛,知识,不只知道,要得到
最新评论