丝袜足j国产在线视频456|亚洲精品白浆高清久久久久久|亚洲熟妇无码专区|丝袜国产污视频在线播放

  • 購(gòu)物 手機(jī)

    僅用4塊GPU、不到3天訓(xùn)練出開(kāi)源版GPT-4o,這是國(guó)內(nèi)團(tuán)隊(duì)最新研究

    2024-09-23 17:48:54 來(lái)源:
    780人閱讀 0條評(píng)論
    導(dǎo)語(yǔ):

    LLaMA-Omni 給出的響應(yīng)在保持簡(jiǎn)潔風(fēng)格的同時(shí)更加詳細(xì)和有幫助,在語(yǔ)音交互場(chǎng)景中的表現(xiàn)優(yōu)于之前的模型。

    LLaMA-Omni能夠接收語(yǔ)音指令,同步生成文本和語(yǔ)音響應(yīng),響應(yīng)延遲低至 226ms,低于 GPT-4o 的平均音頻響應(yīng)延遲 320ms。

    以 ChatGPT 為代表的大型語(yǔ)言模型(LLM)已成為強(qiáng)大的通用任務(wù)解決器,但大多數(shù) LLM 僅支持基于文本的交互,這限制了它們?cè)诓贿m合文本輸入輸出的場(chǎng)景中的應(yīng)用。GPT-4o 的出現(xiàn)使得通過(guò)語(yǔ)音與 LLM 進(jìn)行交互成為可能。然而,開(kāi)源社區(qū)對(duì)于構(gòu)建此類基于 LLM 的語(yǔ)音交互模型仍然缺乏探索。

    實(shí)現(xiàn)與 LLM 進(jìn)行語(yǔ)音交互最簡(jiǎn)單的方法是采用基于自動(dòng)語(yǔ)音識(shí)別(ASR)和語(yǔ)音合成(TTS)模型的級(jí)聯(lián)系統(tǒng),其中 ASR 模型將用戶的語(yǔ)音指令轉(zhuǎn)錄為文本, TTS 模型將 LLM 的響應(yīng)合成為語(yǔ)音。

    然而,由于級(jí)聯(lián)系統(tǒng)依次輸出轉(zhuǎn)錄文本、文本響應(yīng)和語(yǔ)音響應(yīng),整個(gè)系統(tǒng)往往具有較高的延遲。相比之下,一些多模態(tài)語(yǔ)音 - 語(yǔ)言模型將語(yǔ)音離散化為 token 并擴(kuò)展 LLM 的詞表以支持語(yǔ)音輸入和輸出。這種語(yǔ)音 - 語(yǔ)言模型理論上可以直接從語(yǔ)音指令生成語(yǔ)音響應(yīng),無(wú)需生成中間文本,從而實(shí)現(xiàn)極低的響應(yīng)延遲。然而,在實(shí)踐中,由于涉及語(yǔ)音之間復(fù)雜的映射,直接語(yǔ)音到語(yǔ)音的生成通常極具挑戰(zhàn)性。

    為了解決上述問(wèn)題,來(lái)自中國(guó)科學(xué)院計(jì)算技術(shù)研究所、中國(guó)科學(xué)院大學(xué)的研究者提出了一種新型模型架構(gòu) ——LLaMA-Omni,它可以實(shí)現(xiàn)與 LLM 的低延遲、高質(zhì)量交互。

    論文:https://arxiv.org/pdf/2409.06666

    代碼:https://github.com/ictnlp/LLaMA-Omni

    模型:https://huggingface.co/ICTNLP/Llama-3.1-8B-Omni

    論文標(biāo)題:LLaMA-Omni: Seamless Speech Interaction with Large Language Models

    LLaMA-Omni 由語(yǔ)音編碼器、語(yǔ)音適配器、LLM 和流式語(yǔ)音解碼器組成。用戶的語(yǔ)音指令由語(yǔ)音編碼器進(jìn)行編碼,經(jīng)過(guò)語(yǔ)音適配器后輸入到 LLM。LLM 直接從語(yǔ)音指令中解碼文本響應(yīng),無(wú)需首先將語(yǔ)音轉(zhuǎn)錄為文本。語(yǔ)音解碼器是一個(gè)非自回歸(NAR)流式 Transformer,它將 LLM 的輸出表示作為輸入,并使用連接時(shí)序分類(Connectionist Temporal Classification, CTC)來(lái)預(yù)測(cè)與語(yǔ)音響應(yīng)相對(duì)應(yīng)的離散單元序列。

    在推理過(guò)程中,當(dāng) LLM 自回歸生成文本響應(yīng)時(shí),語(yǔ)音解碼器同步生成相應(yīng)的離散單元。為了更好地契合語(yǔ)音交互場(chǎng)景的特點(diǎn),該研究通過(guò)重寫(xiě)現(xiàn)有的文本指令數(shù)據(jù)并進(jìn)行語(yǔ)音合成,構(gòu)建了名為 InstructS2S-200K 的數(shù)據(jù)集。實(shí)驗(yàn)結(jié)果表明,LLaMA-Omni 可以同步生成高質(zhì)量的文本和語(yǔ)音響應(yīng),延遲低至 226ms。

    此外,與 SpeechGPT 等語(yǔ)音 - 語(yǔ)言模型相比,LLaMA-Omni 顯著減少了所需的訓(xùn)練數(shù)據(jù)和計(jì)算資源,從而能夠基于最新的 LLM 高效開(kāi)發(fā)強(qiáng)大的語(yǔ)音交互模型。

    LLaMA-Omni 模型概覽

    如圖 2 所示,LLaMA-Omni 由語(yǔ)音編碼器、語(yǔ)音適配器、LLM 和語(yǔ)音解碼器組成,其中將用戶的語(yǔ)音指令、文本響應(yīng)和語(yǔ)音響應(yīng)分別表示為 X^S、Y^T 和 Y^S。

    語(yǔ)音編碼器

    該研究使用 Whisper-large-v3 (Radford et al., 2023)的編碼器作為語(yǔ)音編碼器 E。Whisper 是一種在大量音頻數(shù)據(jù)上訓(xùn)練的通用語(yǔ)音識(shí)別模型,其編碼器能夠從語(yǔ)音中提取有意義的表征。

    具體來(lái)說(shuō),對(duì)于用戶的語(yǔ)音指令 X^S,編碼后的語(yǔ)音表征由 H = ε(X^S) 給出,其中 H = [h_1, ..., h_N ] 是長(zhǎng)度為 N 的語(yǔ)音表征序列,語(yǔ)音編碼器的參數(shù)在整個(gè)訓(xùn)練過(guò)程中都被凍結(jié)。

    語(yǔ)音適配器

    為了使 LLM 能夠理解輸入語(yǔ)音,LLaMA-Omni 結(jié)合了一個(gè)可訓(xùn)練的語(yǔ)音適配器 A,它將語(yǔ)音表征映射到 LLM 的嵌入空間中。語(yǔ)音適配器首先對(duì)語(yǔ)音表征 H 進(jìn)行下采樣以減少序列長(zhǎng)度。具體來(lái)說(shuō),每 k 個(gè)連續(xù)幀沿特征維度拼接:

    接下來(lái),H′ 通過(guò)具有 ReLU 激活的 2 層感知器,得到最終的語(yǔ)音表征 S:

    大型語(yǔ)言模型

    該研究使用 Llama-3.1-8B-Instruct(Dubey et al., 2024)作為 LLM M,它是目前 SOTA 開(kāi)源 LLM,具有很強(qiáng)的推理能力,并且與人類偏好進(jìn)行了對(duì)齊。prompt 模板 P (?) 如圖 3 所示。

    將語(yǔ)音表征序列 S 填充到對(duì)應(yīng)位置,然后將整個(gè)序列 P (S) 輸入到 LLM 中。最后,LLM 直接根據(jù)語(yǔ)音指令自回歸生成文本響應(yīng) Y^T = [y^T_1 , ..., y^T_M],并使用交叉熵?fù)p失進(jìn)行訓(xùn)練:

    語(yǔ)音解碼器

    為了與文本響應(yīng)同步生成語(yǔ)音響應(yīng),LLaMA-Omni 在 LLM 之后添加了一個(gè)流式語(yǔ)音解碼器 D。它由幾個(gè)標(biāo)準(zhǔn) Transformer 層組成,其架構(gòu)與 LLaMA (Dubey et al., 2024) 相同,每個(gè)層都包含一個(gè)因果自注意力模塊和一個(gè)前饋網(wǎng)絡(luò)。

    語(yǔ)音解碼器以非自回歸方式運(yùn)行,將 LLM 的輸出表示經(jīng)過(guò)上采樣后作為輸入,并生成與語(yǔ)音響應(yīng)相對(duì)應(yīng)的離散單元序列。

    訓(xùn)練

    如圖 2 所示,LLaMA-Omni 采用兩階段訓(xùn)練策略。第一階段訓(xùn)練模型直接根據(jù)語(yǔ)音指令生成文本響應(yīng)的能力。具體來(lái)說(shuō),語(yǔ)音編碼器被凍結(jié),語(yǔ)音適配器和 LLM 使用公式 (3) 中的目標(biāo) L_LLM 進(jìn)行訓(xùn)練。語(yǔ)音解碼器在此階段不參與訓(xùn)練。第二階段訓(xùn)練模型來(lái)生成語(yǔ)音響應(yīng)。在此階段,語(yǔ)音編碼器、語(yǔ)音適配器和 LLM 都被凍結(jié),僅使用公式 (5) 中的目標(biāo) L_CTC 來(lái)訓(xùn)練語(yǔ)音解碼器。

    推理

    語(yǔ)音指令數(shù)據(jù)的構(gòu)建:INSTRUCTS2S-200K

    為了訓(xùn)練 LLaMA-Omni,需要構(gòu)建三元組數(shù)據(jù):語(yǔ)音指令,文本響應(yīng),語(yǔ)音響應(yīng)。

    對(duì)于語(yǔ)音指令數(shù)據(jù)而言,包含三步:指令重寫(xiě)、響應(yīng)生成、語(yǔ)音合成。

    對(duì)于基礎(chǔ)文本指令,作者從 Alpaca 數(shù)據(jù)集中收集了大約 50K 條指令,該數(shù)據(jù)集涵蓋了廣泛的主題。此外,作者從 UltraChat 數(shù)據(jù)集中收集了大約 150K 條指令,該數(shù)據(jù)集主要由有關(guān)世界的問(wèn)題組成。值得注意的是,UltraChat 是一個(gè)大規(guī)模多輪對(duì)話數(shù)據(jù)集,但作者僅選擇了前 150K 條條目并僅使用第一輪指令。最終獲得 200K 語(yǔ)音指令數(shù)據(jù),稱為 InstructS2S-200K。

    實(shí)驗(yàn)結(jié)果

    訓(xùn)練數(shù)據(jù)。作者采用 InstructS2S-200K 數(shù)據(jù)集,其包括 200K 語(yǔ)音指令數(shù)據(jù)。

    模型配置。作者使用 Whisper-large-v3 編碼器作為語(yǔ)音編碼器,使用 Llama-3.1-8B-Instruct 作為 LLM。

    訓(xùn)練。LLaMA-Omni 遵循兩階段訓(xùn)練過(guò)程:在第一階段,作者訓(xùn)練語(yǔ)音適配器和 LLM,批處理大小為 32,共 3 個(gè) epoch;在第二階段,作者訓(xùn)練語(yǔ)音解碼器,使用與第一階段相同的批處理大小、step 數(shù)等。整個(gè)訓(xùn)練過(guò)程在 4 個(gè) NVIDIA L40 GPU 上大約需要 65 小時(shí)。

    在評(píng)估方面,作者從以下方面對(duì)模型進(jìn)行了評(píng)估:

    ChatGPT 得分;

    語(yǔ)音 - 文本對(duì)齊;

    語(yǔ)音質(zhì)量;

    響應(yīng)延遲。

    除此以外,語(yǔ)音 - 語(yǔ)言模型的基線系統(tǒng)包含 SpeechGPT 、 SALMONN (+TTS) 、 Qwen2-Audio (+TTS) 。

    主要結(jié)果

    表 1 給出了 InstructS2S-Eval 基準(zhǔn)測(cè)試主要結(jié)果。

    首先,在 S2TIF 任務(wù)中,從內(nèi)容(content)角度來(lái)看,LLaMA-Omni 相比之前的模型有了顯著提升,這主要是因?yàn)?LLaMA-Omni 是基于最新的 Llama-3.1-8B Instruct 模型開(kāi)發(fā)的,充分利用了其強(qiáng)大的文本指令跟隨能力。

    從風(fēng)格(style)角度來(lái)看,SALMONN 和 Qwen2-Audio 得分較低,因?yàn)樗鼈兪钦Z(yǔ)音 - 文本模型,輸出風(fēng)格與語(yǔ)音交互場(chǎng)景不太對(duì)齊,經(jīng)常產(chǎn)生格式化的內(nèi)容,包含大量冗余解釋。相比之下,SpeechGPT 作為語(yǔ)音 - 語(yǔ)音模型,獲得了更高的風(fēng)格得分。

    LLaMA-Omni 獲得了最高的風(fēng)格得分,這說(shuō)明在 InstructS2S-200K 數(shù)據(jù)集上訓(xùn)練后,模型輸出風(fēng)格已經(jīng)與語(yǔ)音交互場(chǎng)景很好地對(duì)齊。

    對(duì)于 S2SIF 任務(wù),LLaMA-Omni 在內(nèi)容和風(fēng)格得分上也都優(yōu)于之前的模型。這進(jìn)一步證實(shí)了 LLaMA-Omni 能夠以簡(jiǎn)潔、高效的方式通過(guò)語(yǔ)音有效地處理用戶指令。

    此外,在語(yǔ)音和文本響應(yīng)的對(duì)齊方面,LLaMA-Omni 的 ASR-WER 和 ASR-CER 得分最低。相比之下,SpeechGPT 在對(duì)齊語(yǔ)音和文本響應(yīng)方面表現(xiàn)不佳,這可能是因?yàn)樗谴猩晌谋竞驼Z(yǔ)音的。

    級(jí)聯(lián)系統(tǒng)(如 SALMONN+TTS 和 Qwen2-Audio+TTS)的語(yǔ)音 - 文本對(duì)齊也不是最理想的,主要是因?yàn)樯傻奈谋卷憫?yīng)可能包含無(wú)法合成語(yǔ)音的字符。這個(gè)問(wèn)題在 Qwen2-Audio 中尤為明顯,它偶爾會(huì)輸出中文字符,從而導(dǎo)致語(yǔ)音響應(yīng)錯(cuò)誤。

    相比之下,LLaMA-Omni 的 ASR-WER 和 ASR-CER 得分最低,表明生成的語(yǔ)音和文本響應(yīng)之間的對(duì)齊程度更高,進(jìn)一步驗(yàn)證了 LLaMA-Omni 在同時(shí)生成文本和語(yǔ)音響應(yīng)方面的優(yōu)勢(shì)。

    語(yǔ)音質(zhì)量和響應(yīng)延遲之間的權(quán)衡

    為了更好地理解 Ω 的影響,作者對(duì)系統(tǒng)延遲、語(yǔ)音和文本響應(yīng)之間的對(duì)齊以及不同 Ω 設(shè)置下生成的語(yǔ)音質(zhì)量進(jìn)行了探索。

    如表 2 所示,當(dāng) Ω 設(shè)置為 10 時(shí),系統(tǒng)的響應(yīng)延遲低至 226ms,甚至低于 GPT-4o 的平均音頻延遲 320ms。

    綜合來(lái)看,可以根據(jù)不同的場(chǎng)景調(diào)整 Ω 的值,以實(shí)現(xiàn)響應(yīng)延遲和語(yǔ)音質(zhì)量之間的權(quán)衡。

    解碼時(shí)間

    表 3 列出了不同模型在 S2TIF 和 S2SIF 任務(wù)上的平均解碼時(shí)間。

    LLaMA-Omni 直接提供簡(jiǎn)潔的答案,從而顯著縮短解碼時(shí)間,平均每條指令僅為 1.49 秒。

    LLaMA-Omni 同時(shí)輸出文本和語(yǔ)音響應(yīng),并采用非自回歸架構(gòu)生成離散單元,總生成時(shí)間僅增加 1.28 倍,體現(xiàn)出 LLaMA-Omni 在解碼速度上的優(yōu)勢(shì)。

    案例研究

    為了直觀的了解不同模型的響應(yīng)差異,作者在表 4 中提供了一個(gè)示例。

    可以觀察到 Qwen2-Audio 的響應(yīng)相當(dāng)冗長(zhǎng),并且包含換行符和括號(hào)等無(wú)法合成語(yǔ)音的元素。

    SALMONN 的響應(yīng)也有點(diǎn)長(zhǎng)。

    SpeechGPT 的響應(yīng)風(fēng)格更適合語(yǔ)音交互場(chǎng)景,但其響應(yīng)所包含的信息量較少。

    相比之下,LLaMA-Omni 給出的響應(yīng)在保持簡(jiǎn)潔風(fēng)格的同時(shí)更加詳細(xì)和有幫助,在語(yǔ)音交互場(chǎng)景中的表現(xiàn)優(yōu)于之前的模型。


    責(zé)任編輯:李元志

    點(diǎn)贊數(shù) 推薦 0
    收藏?cái)?shù) 收藏 0

    關(guān)鍵詞

    • 評(píng)論
    • 評(píng)論
    以下網(wǎng)友言論不代表佰佰安全網(wǎng)觀點(diǎn) 發(fā)表
    為更好的為公眾說(shuō)明安全知識(shí)的重要性,本站引用了部分來(lái)源于網(wǎng)絡(luò)的圖片插圖,無(wú)任何商業(yè)性目的。適用于《信息網(wǎng)絡(luò)傳播權(quán)保護(hù)條例》第六條“為介紹、評(píng)論某一作品或者說(shuō)明某一問(wèn)題,在向公眾提供的作品中適當(dāng)引用已經(jīng)發(fā)表的作品”之規(guī)定。如果權(quán)利人認(rèn)為受到影響,請(qǐng)與我方聯(lián)系,我方核實(shí)后立即刪除。

    相關(guān)閱讀

    今日關(guān)注

    佰佰原創(chuàng)

    最新資訊