阿里云大模型上新！AI神器「通義聽悟」公測中：長視頻一秒總結(jié)，還能自動做筆記、翻字幕-今頭條

又一個接入大模型能力的組會神器實用工具，開啟免費公測啦！

背后大模型，是阿里的通義千問。至于為什么說是組會神器嘛——

注意看，這是我的B站導師李沐老師，他正在帶同學們精讀一篇大模型論文。

(資料圖)

不巧就在這時，老板催我抓緊搬磚。我只好默默摘下耳機，點開名為“通義聽悟”的插件，然后切換頁面。

你猜怎么著？雖然我人不在“組會”現(xiàn)場，但聽悟已經(jīng)幫我完整記錄下了組會內(nèi)容。

甚至還幫我一鍵總結(jié)出了關(guān)鍵詞、全文摘要和學習要點。

簡單來說，這個剛剛接入大模型能力的“通義聽悟”，是一個大模型版的聚焦音視頻內(nèi)容的工作學習AI助手。

跟以往的錄音轉(zhuǎn)寫工具不同，它不只是能把錄音、視頻轉(zhuǎn)成文字這么簡單。能一鍵總結(jié)全文不說，總結(jié)不同發(fā)言人觀點也能做到：

甚至還能當實時字幕翻譯來用：

看上去，不僅開組會好使，對于經(jīng)常要處理一大堆錄音、熬夜跟各種國外發(fā)布會的量子位來說，也實屬日常工作新神器。

我們趕緊第一時間深入測試了一波。

通義聽悟上手實測

音頻內(nèi)容的整理和分析，最基礎也是最重要的，就是轉(zhuǎn)寫的準確性。

Round 1，我們先上傳一個時長在10分鐘左右的中文視頻，看看聽悟與同類工具相比，在準確性方面表現(xiàn)如何。

基本上，AI處理這種中等長度音視頻的速度很快，大概不到2分鐘就能轉(zhuǎn)寫完成。

先來看看聽悟的表現(xiàn)：

在這個200字左右的段落中，聽悟只出現(xiàn)了兩處錯誤：強 → 墻，都好處 → 恰到好處。像原子核、電荷、斥力這些物理名詞，聽悟都能弄明白。

我們用同一段視頻在飛書妙記上也進行了測試?；締栴}也不大，但相比聽悟，飛書多了兩處錯誤，把其中一處“原子”寫成了“園子”，把“斥力”聽成了“勢力”。

有意思的是，聽悟犯的錯，飛書也一比一復刻了。看來這口鍋還得量子位某說話吞字的up主來背（手動狗頭）。

訊飛聽見，倒是分辨出了前兩位選手沒有識別出來的“恰到好處”。但訊飛聽見基本上把“墻”全部都轉(zhuǎn)寫成了“強”，還出現(xiàn)了“強的糖?！边@種神奇的搭配。另外，三位選手中，只有訊飛聽見把“電磁力”聽成了“電子力”。

總體來說，中文的識別對這些AI工具來說難度不大。那么在英文材料面前，它們又會表現(xiàn)如何？

我們上傳了一段馬斯克的最新訪談，內(nèi)容是他與OpenAI過去的恩怨糾葛。

還是先來看聽悟給出的結(jié)果。在馬斯克的這一段回答中，聽悟沒有分辨出拉里·佩奇的名字，除此之外基本都能識別正確。

值得一提的是，聽悟能夠直接將英文轉(zhuǎn)寫結(jié)果翻譯成中文，并將雙語對照顯示，翻譯質(zhì)量也相當不錯。

飛書妙記則成功聽出了拉里·佩奇的名字，不過和聽悟一樣，由于馬斯克整體語速較快并且有一些口語化的表達，存在一些小錯誤，比如把“stay at his house”寫成了“say this house”。

訊飛聽見這邊，人名、連讀細節(jié)處理得都不錯，不過同樣存在被馬斯克的口語化表達誤導的情況，比如把“l(fā)ong into the evening”當成了“l(fā)onging to the evening”。

如此看來，在基礎能力語音識別方面，AI工具們都已經(jīng)達到了很高的準確率，在極高的效率面前，一些小問題已經(jīng)瑕不掩瑜。

那么，我們將難度再升一級，Round 2，來測試測試它們對1小時左右長視頻的總結(jié)能力。

測試視頻是一段40分鐘的圓桌討論，主題是中國AIGC新機遇。參與圓桌討論的共有5人。

聽悟這邊，從轉(zhuǎn)寫完成到AI提取關(guān)鍵詞、給出全文摘要，一共花了不到5分鐘的時間。

結(jié)果是醬嬸的：

不僅給出了關(guān)鍵詞，圓桌討論的內(nèi)容也總結(jié)得很到位，并且還給視頻劃分了關(guān)鍵點。

對比人類編輯摘錄的話題要點，我嗅到了一絲危機……

值得一提的是，針對不同嘉賓的發(fā)言，聽悟都能給出對應的發(fā)言總結(jié)。

同樣的題目拋給飛書妙記。目前，在內(nèi)容總結(jié)方面，飛書妙記還只能給出關(guān)鍵詞。

會議紀要需要手動在轉(zhuǎn)寫文字上標注。

訊飛聽見基于星火認知大模型，也有能夠分析文件內(nèi)容的產(chǎn)品正在內(nèi)測，不過需要填寫申請，排隊等待。（有內(nèi)測資格的小伙伴歡迎分享體驗~）

在基礎的訊飛聽見中，目前沒有類似的總結(jié)功能。

看來這一輪測試：

不過要說在本次實測中，通義聽悟最令人感覺驚喜的，其實是一個“小”設計：

Chrome插件功能。

無論是看英文視頻，看直播，還是上課開會，點開聽悟插件，就能實現(xiàn)音視頻的實時轉(zhuǎn)錄和翻譯。

就像開頭所展示的那樣，拿來當實時字幕用，延遲低，翻譯快，還有雙語對照功能，同時，錄音和轉(zhuǎn)寫文字都能一鍵保存下來，方便后續(xù)使用。

媽媽再也不用擔心我啃不下來英文視頻資料了。

另外，我還有個大膽的想法……

開組會的時候打開聽悟，開會兒小差再也不用怕被導師突然抽查了。

目前，聽悟已經(jīng)和阿里云盤打通，存放在云盤中的音視頻內(nèi)容可以一鍵轉(zhuǎn)寫，在線播放云盤視頻時還能自動顯示字幕。并且在企業(yè)版本中，AI整理后的音視頻文件將來還可以在內(nèi)部快速分享。

聽悟官方還透露，接下來，聽悟還會持續(xù)上新大模型能力，比如直接抽取視頻內(nèi)的PPT截圖、針對音視頻內(nèi)容可以直接向AI提問……

關(guān)鍵是，公測福利現(xiàn)在人人可薅，每天登陸即可自動獲得2小時轉(zhuǎn)寫時長，阿里云官方微博、微信及各大平臺社區(qū)還會發(fā)放大量20小時轉(zhuǎn)寫口令碼，并且時長均可疊加，一年內(nèi)有效。

勤快點的羊毛大師，攢出100小時以上的免費時長不是夢（手動狗頭）。

背后技術(shù)：大語言模型+語音SOTA

其實，在公測之前，通義聽悟就已經(jīng)在阿里內(nèi)部精心打磨過了。

去年年底，也有量子位讀者拿到了聽悟內(nèi)測體驗卡，當時版本中，已經(jīng)有離線語音/視頻轉(zhuǎn)寫和實時轉(zhuǎn)寫的功能。

這次公測，聽悟主要是接入了通義千問大模型的摘要及對話能力。具體而言，是以通義千問大模型為基座，融合了研發(fā)團隊在推理、對齊和對話問答等方面的研究成果。

首先，如何準確抽取關(guān)鍵信息，是這類神器提升工作效率的關(guān)鍵。這就需要借助大模型的推理能力。

阿里AI團隊在2022年提出了基于大語言模型的知識探測與推理利用框架Proton（Probing Turning from Large Language Models）。相關(guān)論文發(fā)表在KDD2022和SIGIR2023等國際頂會上。

該框架的核心思路在于，探測大模型的內(nèi)部知識，以思維鏈為載體進行知識流動和利用。

在通用常識推理CommonsenseQA2.0、物理常識推理PIQA、數(shù)值常識推理Numbersense三大榜單上，Proton曾先后取得第一。

在TabFact（事實驗證）榜單上，Proton憑借知識分解和可信思維鏈技術(shù)，首次實現(xiàn)了超越人類的效果。

其次，為了確保摘要內(nèi)容和格式符合用戶預期，在對齊方面，聽悟還用上了ELHF，即基于人類反饋的高效對齊方法。

該方法僅需少量高質(zhì)量人工反饋樣本，就能實現(xiàn)對齊。在模型效果主觀評測中，ELHF能使模型勝率提高20%。

在此之外，聽悟背后的研發(fā)團隊，還發(fā)布了首個中文超大規(guī)模文檔對話數(shù)據(jù)集Doc2Bot。該團隊提升模型問答能力的Re3G方法，已經(jīng)入選ICASSP 2023：該方法通過Retrieve（檢索）、Rerank（重排序）、Refine（精調(diào)）和Generate（生成）四個階段，能提升模型對用戶問題的理解、知識檢索和回復生成能力，在Doc2Dial和Multi Doc2Dial兩大文檔對話榜單中取得第一。

除了大模型能力，聽悟還是阿里語音技術(shù)的集大成者。

其背后的語音識別模型Paraformer，來自阿里達摩院，首次在工業(yè)級應用層面解決了端到端識別效果與效率兼顧的難題：

不僅在推理效率上較傳統(tǒng)模型提升10倍，剛推出時還“屠榜”多個權(quán)威數(shù)據(jù)集，刷新語音識別準確率SOTA。在專業(yè)第三方全網(wǎng)公共云中文語音識別評測SpeechIO TIOBE白盒測試中，目前，Paraformer-large仍是準確率最高的中文語音識別模型。

Paraformer是單輪非自回歸模型，由編碼器、預測器、采樣器、解碼器和損失函數(shù)這五個部分組成。

通過對預測器的創(chuàng)新設計，Paraformer實現(xiàn)了對目標文字個數(shù)及對應聲學隱變量的精準預測。

另外，研究人員還引入了機器翻譯領(lǐng)域中瀏覽語言模型（GLM）的思路，設計了基于GLM的采樣器，增強了模型對上下文語義的建模。

同時，Paraformer還使用了數(shù)萬小時、覆蓋豐富場景的超大規(guī)模工業(yè)數(shù)據(jù)集進行訓練，進一步提升了識別準確率。

而準確的多人討論發(fā)言人區(qū)分，則得益于達摩院的CAM++說話人識別基礎模型。該模型采用基于密集型連接的時延網(wǎng)絡D-TDNN，每一層的輸入均由前面所有層的輸出拼接而成，這種層級特征復用和時延網(wǎng)絡的一維卷積，可以顯著提高網(wǎng)絡的計算效率。

在行業(yè)主流的中英文測試集VoxCeleb和CN-Celeb上，CAM++均刷新了最優(yōu)準確率。