<em id="tpxk4"></em>
    1. <button id="tpxk4"><object id="tpxk4"></object></button>
    2. <tbody id="tpxk4"></tbody>

        當前位置:首頁 > 新聞中心 > 科研動態

      科研動態

      自動化所22篇論文被2023神經信息處理系統大會(NeurIPS)接收

    3. 發表日期:2023-10-20 【 【打印】【關閉】
    4.   NeurIPS全稱神經信息處理系統大會(Conference on Neural Information Processing Systems),是機器學習和計算神經科學領域的頂級國際會議。本文將介紹自動化所團隊在NeurIPS 2023中收錄的22篇論文。 

        01. 基于ODE的無模型強化學習方法用于POMDPs 

        ODE-based Recurrent Model-free Reinforcement Learning for POMDPs 

        作者:趙烜樂,張篤振,韓立元,張鐵林,徐波 

        神經常微分方程(ODEs)被廣泛認可為建模物理機制的標準,有助于在未知的物理或生物環境中進行近似推斷。在部分可觀測的環境中,如何從原始觀察中推斷不可見信息是困擾智能體的一大挑戰。通過使用具有緊湊上下文的循環策略,基于上下文的強化學習提供了一種靈活的方式,從歷史轉換中提取不可觀察的信息。為了幫助智能體提取更多與動態相關的信息,我們提出了一種新穎的基于ODE的循環模型,結合無模型強化學習框架,以解決部分可觀察的馬爾可夫決策過程。我們通過部分可觀察的連續控制和元強化學習任務實驗證明了方法的有效性。此外,由于ODE能夠建模不規則采樣的時間序列,因此本研究提出的方法對不規則觀測具有魯棒性。 

          

        02. 脈沖驅動Transformer 

        Spike-driven Transformer 

        作者:姚滿、胡珈魁、周昭坤、袁粒、田永鴻、徐波、李國齊 

        本文提出了首個脈沖驅動TransformerSpike-driven Transformer),整個網絡中只有稀疏加法。所提出的Spike-driven Transformer具有四個獨特性質:(1)事件驅動,當Transformer的輸入為零時不觸發計算;(2)二進制脈沖通信,所有與脈沖矩陣相關的矩陣乘法都可以轉化為稀疏加法;(3)所設計的自注意力機制在token和通道維度上都具有線性復雜度;(4)脈沖形式的Query、Key、Value矩陣之間的運算為掩碼和加法??傊?,所提出的網絡中只有稀疏加法運算。為實現這一目標,本文設計了一種新穎的脈沖驅動自注意力(Spike-Driven Self-Attention, SDSA)算子,算子中僅利用掩碼和加法進行運算,而不進行任何乘法,因此其能耗比原始自注意力算子低87.2倍。此外,為確保網絡中所有神經元間傳遞的信號為二進制脈沖,本文重新排列了網絡中所有的殘差連接。實驗結果表明,Spike-driven TransformerImageNet-1K上可以達到77.1% top-1精度,這是SNN領域內的最佳結果。 

      1. Spike-driven Transformer架構圖

       

      2. Spike-driven Self-attention算子 

        論文鏈接: https://arxiv.org/abs/2307.01694 

        代碼鏈接: https://github.com/BICLab/Spike-Driven-Transformer 

          

        03. 動態組合模型來應對數據分布的變化 

        OneNet: Enhancing Time Series Forecasting Models under Concept Drift by Online Ensembling 

        作者:張一帆,文青松,王雪,陳緯奇,張彰,王亮,金榕,譚鐵牛 

        概念漂移(concept drift)是時序數據常見的一個問題,即未來的數據展現出不同于過去的模式。在這些情況下,從頭重新訓練模型可能會非常耗時。因此,在線訓練深度預測模型,通過增量更新預測模型來捕捉環境中不斷變化的動態是非常必要的。本文提出了OneNet,其思想十分簡單,采用了兩個不同的模型,一個模型專注于建模時間維度上的相關性,另一個模型則專注于建??缱兞恐g的依賴關系。這兩個模型都在訓練過程中使用相同的訓練數據進行獨立訓練。在測試時,OneNet將強化學習方法引入傳統的在線凸規劃框架中,允許動態調整權重以線性組合兩個模型。這樣,OneNet可以同時利用這兩種模型的優勢,既能處理概念漂移,又能提高預測精度。 

       

        04. 揭示分子表示學習的神經尺度率 

        Uncovering Neural Scaling Laws of Molecular Representation Learning 

        作者:陳丁碩,朱彥樵,張介宇,杜沅豈,李志勛,劉強,吳書,王亮 

        近年來,分子表示學習(MRL)被證實可以有效助力藥物和材料發現的多種下游任務,例如分子虛擬篩選和逆向設計。其中,以模型設計為導向的研究受到研究者們的廣泛關注,但從數據的視角出發,分子的數量和質量如何影響分子表示學習還是一個開放性的問題。 

        本文我們以數據為中心的角度深入研究了MRL的神經尺度率,其中涉及了四個關鍵維度:(1)數據模態,(2)數據集分割方式,(3)預訓練的干預,以及(4)模型容量。我們的研究證實了數據量和分子表示學習性能在這些維度上均滿足冪律關系。此外,我們揭示了提高MRL學習效率的潛在途徑。為了提高現有的冪律學習效率,我們將七種主流的數據修剪策略應用于分子數據并對其性能進行了基準測試。本工作強調了以數據為中心探究MRL的重要性,并強調了未來相關研究的可能方向。 

       

        05. 圖結構學習基準庫 

        GSLB: The Graph Structure Learning Benchmark 

        作者:李志勛,王亮,孫鑫,羅逸凡,朱彥樵,陳丁碩,羅穎韜,周相鑫,劉強,吳書,王亮,Jeffrey Xu Yu 

        本篇論文提出了首個圖結構學習基準庫(GSLB),其包含16個圖結構學習算法和20個常用的圖數據集。在本文中,我們從有效性,魯棒性,復雜度三個維度系統地研究了圖結構學習的性質。本文在節點級別和圖級別任務中全面地評估現有圖結構學習方法,分析他們在魯棒學習當中的效果,以及對各算法的復雜度進行了研究。并且,為了促進可復現研究,我們開發了一個易于使用的庫來對不同的圖結構學習算法進行訓練、評估和可視化。我們的大量實驗結果顯示了圖結構學習的能力,并且解釋了其在不同場景的任務中的潛在優勢,為后續的研究提供了見解和思路。 

       

        相關鏈接:https://github.com/GSL-Benchmark/GSLB 

          

        06. 回波超越點云:在多模態數據融合中釋放雷達原始數據的潛力 

        Echoes Beyond Points: Unleashing the Power of Raw Radar Data in Multi-modality Fusion 

        作者:劉洋、王峰、王乃巖、張兆翔 

        毫米波雷達,由于其低廉的成本以及對惡劣天氣的強魯棒性,如今已成為自動駕駛系統中必備的傳感器組件。然而,由于毫米波雷達產生的點云十分系數,加之方位角和仰角分辨率較差,因此基于雷達的檢測算法性能通常表現不佳。此外,為了減少虛警目標,毫米波點云的生成算法只保留了峰值信號,但這對于深度融合的使用可能是次優的。在本文中,我們提出了一種名為 EchoFusion 的新方法來跳過現有的雷達信號處理流程,直接將雷達原始數據與其他傳感器相結合。具體來說,我們在鳥瞰圖 (BEV)空間以一種新的融合范式將雷達中獲取的頻譜特征與其他傳感器融合。通過這種方法,我們的方法可以利用來自雷達回波的豐富的距離和速度信息和圖像中豐富的語義信息,進而在RADIal數據集上超越了所有現有的方法,并達到了接近激光雷達的性能。Camera-Ready版本的論文以及代碼將很快公開。 

        文章鏈接:https://arxiv.org/pdf/2307.16532.pdf 

          

        07. SheetCopilot: 借助大語言模型讓軟件生產力更上一層樓 

        SheetCopilot: Bringing Software Productivity to the Next Level through Large Language Models 

        作者:李鴻鑫,蘇靖然,陳韞韜,李青,張兆翔 

        本文作者提出了一種利用語言模型實現復雜軟件操控的全新框架——SheetCopilot,并在典型辦公軟件ExcelGoogleSheets上進行測試。本工作將表格操控的核心功能抽象為一組虛擬 API,用于生成解決方案,作為 LLM 與軟件之間交互的橋梁。為了實現高效閉環控制,SheetCopilot 根據表格狀態規劃每一個步驟,且借助軟件錯誤反饋進行回溯??紤]到語言模型的輸入窗口有限,每次規劃都從外置知識庫中提取候選API的文檔,既降低輸入處理用時,又提升了成功率。本文還提出一個高質量評測基準,涉及表格操作的幾乎所有典型任務(公式、制圖、透視表、排序篩選等)。 

        實驗結果顯示,SheetCopilot僅需約10 步組合操作即可在上千行數十列的多張表格中快速完成任務。以GPT-4 為后端模型時,SheetCopilot符合任務要求的解決方案占比最高且效率最優,GPT-3.5-Turbo緊隨其后,Claude最次但也接近 GPT-3.5-Turbo。與將用戶指令翻譯成晦澀的VBA 代碼并在Excel上執行的方法對比,SheetCopilot不僅取得了出色的成功率,生成的解決方案也通俗易懂。這意味著 SheetCopilot讓不會編程的用戶能以日常交流的方式指揮計算機完成繁雜的工作。 

      1. SheetCopilot完成表格操作任務的示意圖

       

      2. 以不同語言模型為后端,SheetCopilot221個表格操作任務上的成功率和效率

        項目主頁: https://sheetcopilot.github.io/ 

        文章鏈接: http://arxiv.org/abs/2305.19308 

          

        08. 預訓練視覺Transformer的新方法——重建丟棄位置 (DropPos) 

        DropPos: Pre-Training Vision Transformers by Reconstructing Dropped Positions 

        作者:王淏辰,樊峻菘,王玉璽,宋開友,王彤,張兆翔 

        視覺Transformer對輸入圖像塊的順序非常不敏感,因此亟需一種能夠增強視覺轉換器位置感知能力的預訓練模式。為了解決這個問題,我們提出了DropPos,旨在重建在模型前向過程中隨機丟棄的位置。DropPos的設計十分簡單:首先,在標準的前向過程中,我們隨機丟棄大量的位置編碼;然后使模型僅根據視覺外觀,對每個圖像塊的實際位置進行預測。該任務被建模為一個簡單的分類任務。為了避免平凡解,我們只保留了部分可見圖像塊,從而增加了這項代理任務的難度。此外,考慮到沒有必要重建視覺外觀相似的不同圖像塊的精確位置的情況,我們提出了位置平滑和注意重建策略來松弛這一分類問題。在廣泛的下游測試中,DropPos的表現優于有監督的預訓練,并與最先進的自監督替代方法相比取得了具有競爭力的結果。這表明,像 DropPos這樣顯示鼓勵空間推理能力,確實有助于提高視覺Transformer的位置感知能力。 

        相關鏈接: 

         https://arxiv.org/pdf/2309.03576.pdf 

        https://github.com/Haochen-Wang409/DropPos 

          

        09. 基于多模態查詢的開放世界目標檢測 

        Multi-modal Queried Object Detection in the Wild 

        作者:許逸凡,張夢丹,傅朝友,陳珮嫻,楊小汕,李珂,徐常勝 

        我們提出了基于多模態查詢的目標檢測(MQ-Det),首個同時支持文本描述和視覺示例查詢的開放世界目標檢測器。MQ-Det是一種高效的架構和預訓練策略設計,可以同時利用高泛化性的文本描述和高細粒度的視覺示例來對圖像中的目標進行查詢檢測,即多模態查詢。MQ-Det將視覺示例查詢整合到現有的基于語言查詢的檢測器中,并提出了一種即插即用的門控感知器模塊來將視覺信息插入文本描述。為了解決凍結檢測器帶來的學習惰性問題,我們提出了一種以視覺為條件的掩碼語言預測策略。MQ-Det的簡單而有效的架構和訓練策略設計與目前大多數基于語言查詢的目標檢測器兼容,因此具備廣泛的適用性。實驗結果表明,多模態查詢能夠大幅度推動開放世界目標檢測。例如,MQ-Det通過多模態查詢在基準數據集LVIS上將目前最先進的開集檢測器GLIP提升了約7.8% AP,而無需進行任何下游微調;同時,其將13個小樣本下游任務平均提高了6.3% AP。完成以上這些提升僅需要在GLIP基礎上進行額外的3%的調制訓練時間。 

        論文鏈接: https://arxiv.org/abs/2305.18980 

        代碼鏈接: https://github.com/YifanXu74/MQ-Det 

          

        10. 基于全局指導視頻解碼器的連續非自回歸視頻生成方法 

        GLOBER: Coherent Non-autoregressive Video Generation via GLOBal Guided Video DecodER 

        作者:孫銘真,王衛寧,秦子涵,孫家輝,陳思涵,劉靜 

        視頻生成需要同時具備全局一致性和局部真實性。本文提出了一種新穎的非自回歸方法 GLOBER,首先生成全局特征以獲取綜合性的全局引導,然后基于全局特征合成視頻幀以生成連貫的視頻。具體而言,我們提出了一個視頻自編碼器,其中視頻編碼器將視頻編碼成全局特征,而建立在擴散模型上的視頻解碼器以非自回歸方式解碼全局特征并合成視頻幀。為了實現最大的靈活性,我們的視頻解碼器通過標準化的幀索引來解碼時間信息,從而能夠自由合成任意子視頻片段。此外,我們引入了一種新穎的對抗損失,以提高合成視頻幀之間的全局一致性和局部真實性。最后,我們采用基于擴散的視頻生成器來擬合視頻編碼器輸出的全局特征的分布,從而執行視頻生成任務。大量實驗證明了我們提出的方法的有效性和高效性,且本方法在多個基準數據集中取得了新的最優性能。 

        相關鏈接: http://arxiv.org/abs/2309.13274 

          

        11. VAST:一個視覺-音頻-字幕-文本 全模態基礎模型和數據集  

        VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset 

        論文作者:陳思涵,李翰東,汪群博,趙子嘉,孫銘真,朱欣鑫,劉靜 

        從語言大模型走向多模態大模型已成為大模型的重要發展方向。當前多模態模型與數據大多局限于視覺和文本兩個模態,限制了其更為廣泛的應用場景。為此,我們構建了國際首個具有圖像、視頻、音頻、字幕和文本的大規模全模態數據集VAST-27M,并基于此訓練了國際首個可以處理上述各種模態或模態組合的全模態預訓練基礎模型VAST,打通了不同模態之間的語義鴻溝,在包括跨模態檢索、描述、問答等在內的22個公開評測任務上取得了當前最優性能。 

        相關鏈接: https://github.com/TXH-mercury/VAST. 

          

        12. 一種面向復雜時空因果關系的多模態視頻跟蹤評估基準 

        A Multi-modal Global Instance Tracking Benchmark (MGIT): Better Locating Target in Complex Spatio-temporal and Causal Relationship 

        作者:胡世宇,張岱凌,武美奇,豐效坤,李旭宸,趙鑫,黃凱奇 

        因果推理是人類決策中的重要能力之一,如人類在觀看長時視頻時可以準確定位復雜場景中的目標位置。然而,目前算法仍缺乏這種能力,現有跟蹤算法雖然可以在短視頻序列中持續定位目標,但在高挑戰性的長視頻序列中卻缺乏魯棒性。為評估智能體長時因果推理能力,本文構建了一種面向復雜時空因果關系的多模態視頻跟蹤評估基準MGIT,主要創新如下:(1)構建了一個長時視頻文本雙模態數據集,該數據包含150段總計203萬幀的長視頻序列,單段時長為現有基準的5-22倍;此外,每段視頻均包含一套參考人類認知結構的層級化多粒度語義標簽,總計7.8萬詞。(2)設計了一套多模態跟蹤任務評測機制并對現有算法進行評估。實驗結果表明現有跟蹤算法缺乏長文本處理能力和模態對齊能力,無法進行長時因果推理,與人類的跟蹤能力仍有較大差距。綜上,本工作提供了高質量的實驗環境和評測系統,能幫助研究者從多模態的視角去理解視頻推理能力,并為算法的設計和評估提供支持。 

      1. 多模態單目標跟蹤基準MGIT構建框架

       

      2. 多模態單目標跟蹤基準MGIT統計信息 

        相關鏈接: http://videocube.aitestunion.com/ 

          

        13. 基于自動分組機制的高效合作型多智能體強化學習 

        Automatic Grouping for Ef?cient Cooperative Multi-Agent Reinforcement Learning 

        作者:臧一凡,何金岷,李凱,傅浩波,付強,興軍亮,程健 

        自然系統中常見的分組現象對于提高團隊合作效率而言至關重要。本文提出一種分組學習的多智能體強化學習方法GoMARL,在沒有任何先驗知識的條件下學習自動分組來實現智能體之間的高效合作。不同于直接學習聯合動作價值和個體動作價值之間復雜關系的方法,本文以小組作為橋梁建模智能體之間的關聯,通過鼓勵小組內和小組間的配合來提高整個團隊的工作效率。具體而言,本文將聯合動作價值分解為小組價值的組合,指導智能體以更細粒度的方式改進策略。GoMARL運用一種自動分組機制來生成動態組別和相應的小組動作價值,并進一步提出一種用于策略學習的分層控制,驅動同一組中的智能體學習相似的策略,不同組的智能體學習多樣化的策略。本文在星際微操任務和谷歌足球場景的實驗中驗證了GoMARL的高效性,并通過消融實驗和組件分析展示分組在提升算法性能方面的重要性。 

          

        14. 面向高效準確Winograd卷積的全量化方法 

        Towards Efficient and Accurate Winograd Convolution via Full Quantization 

        作者:陳天奇,許偉翔,陳維漢,王培松,程健 

        Winograd算法是一種通過域變換來減少計算量的快速卷積實現。通過對Winograd卷積量化,降低其計算精度,可以進一步加速卷積神經網絡,但這同樣面臨性能損失。針對這一問題,本文通過實驗發現量化會導致Winograd變換過程的不一致性,并提出以輸出對齊為監督信號對變換矩陣統一優化。另外,本文首次對Winograd的域變換過程進行全量化,并通過實驗和理論分析發現量化瓶頸在于輸出變換過程。本文因此提出了一種可分解的量化系數,該方法更好的兼顧了硬件友好和量化損失。 

       

          

        15. ZoomTrack:用于高效視覺跟蹤的目標感知非均勻尺寸調整 

        ZoomTrack : Target-aware Non-uniform Resizing for Efficient Visual Tracking 

        作者:寇宇同,高晉,李椋,王剛,胡衛明,王以政,李兵 

        最近,由于輸入尺寸更小或特征提取骨干更輕,Transformer使面向速度的跟蹤器能夠以高速接近最先進(SOTA)的性能,盡管它們仍然大大落后于相應的面向性能的版本。在本文中,我們證明了在較小輸入尺寸的基礎上實現高速跟蹤的同時縮小甚至抹平這一性能差距是可能的。為此,我們非均勻地調整了裁剪圖像的大小,使其輸入尺寸更小,而目標更可能出現的區域的分辨率卻更高,反之亦然。由此可以解決兩難的問題:既要關注更大的視野,又要在較小的輸入尺寸下保留更多的目標原始信息。我們的非均勻尺寸調整可以通過二次編程(QP)有效解決,并自然地集成到大多數基于剪裁的局部跟蹤器中。在五個具有挑戰性的數據集上對兩種Transformer跟蹤器(即 OSTrack TransT)進行的綜合實驗表明,我們的方法具有一致的性能提升。特別是,將我們的方法應用于面向速度的 OSTrack 版本,在 TNL2K 上的 AUC 甚至比面向性能的對應版本高出 0.6%,同時運行速度提高了 50%,節省了 55% 以上的 MAC。 

          

        16. 基于上下文物體和關系學習的3D指代目標檢測 

        Exploiting Contextual Objects and Relations for 3D Visual Grounding 

        作者:楊力,原春鋒,張子琦,祁仲昂,許龑,劉偉,單瀛,李兵,楊偉平,胡衛明 

        3D指代目標檢測是根據自然語言輸入從三維場景中識別出視覺目標的任務。這項任務對于使機器人能夠理解并與真實環境交互起著至關重要的作用。然而,由于需要捕獲三維上下文信息才能從復雜的三維場景中分辨出目標物體,這項任務極具挑戰性。同時,缺乏上下文物體和關系的標注進一步加劇了困難。在本文中,我們提出了一種新穎的檢測模型 CORE-3DVG,通過對上下文物體和關系進行顯式的學習來應對這些挑戰。我們的方法通過三個連續的模塊化網絡來實現3D指代目標檢測,包括一個文本引導的物體檢測網絡、一個關系匹配網絡和一個目標推理網絡。在訓練過程中,我們引入了偽標簽自生成策略和弱監督方法,以建立對無標注的上下文物體和關系的顯式學習。所提出的技術通過對上下文物體和關系的學習,使推理網絡能夠更好地關注到三維場景中所指代目標。我們在具有挑戰性的Nr3D、Sr3DScanRefer數據集上驗證了我們的方法,取得了最先進的性能。 

          

        17. Bullying10K: 一個大規模神經形態數據集用于隱私保護的暴力識別 

        Bullying10K: A Large-Scale neuromorphic Dataset towards Privacy-Preserving Bullying Recognition 

        作者:董一廷,李楊,趙東城,申國斌,曾毅 

        日常生活中暴力行為的普遍性對個人的身體和精神健康構成了重大威脅。在公共場所使用監控攝像頭已被證明在主動地阻止和預防此類事件中是有效的。但由于其廣泛部署,出現了關于隱私侵犯的擔憂。為了解決這個問題,我們利用動態視覺傳感器(DVS)攝像頭來檢測暴力事件并保護隱私,因為它捕捉像素亮度的變化,而不是靜態圖像。我們構建了Bullying10K數據集,包括來自現實生活場景的各種動作、復雜的運動和遮擋。它為評估不同任務提供了三個基準:動作識別、時間動作定位和姿態估計。Bullying10K通過提供10,000個事件段,總共120億次事件和255GB的數據,平衡了暴力檢測和個人隱私的保護,并對神經形態數據集提出了挑戰,將成為訓練和開發保護隱私的視頻系統的寶貴資源。Bullying10K為這些領域的創新方法開辟了新的可能性。 

       

        相關鏈接: 

        https://figshare.com/articles/dataset/Bullying10k/19160663 

        https://www.brain-cog.network/dataset/Bullying10k/ 

          

        18. ALIM: 針對噪聲部分標簽學習調整標簽重要性機制 

        ALIM: Adjusting Label Importance Mechanism for Noisy Partial Label Learning 

        作者:徐名宇,連政,馮磊,劉斌,陶建華 

        噪聲部分標簽學習(噪聲PLL)是弱監督學習的一個重要分支。與 PLL 中的真實標簽必須隱藏在候選標簽集中不同,噪聲 PLL 放寬了這一限制,并允許真實標簽可能不在候選標簽集中。為了解決這個具有挑戰性的問題,大多數現有工作嘗試檢測噪聲樣本并估計每個噪聲樣本的真實標簽。然而,檢測錯誤是不可避免的。這些錯誤會在訓練過程中累積并持續影響模型優化。為此,我們提出了一種具有理論解釋的噪聲 PLL 的新穎框架,稱為調整標簽重要性機制(ALIM。它的目的是通過權衡初始候選集和模型輸出來減少檢測錯誤的負面影響。ALIM 是一種插件策略,可以與現有 PLL 方法集成。多個基準數據集上的實驗結果表明,我們的方法可以在噪聲 PLL 上實現最先進的性能。 

        相關鏈接:https://github.com/zeroQiaoba/ALIM 

          

        19.VRA:針對分布外檢測的變分修飾激活方法 

        VRA: Variational Rectified Activation for Out-of-distribution Detection 

        作者:徐名宇,連政,劉斌,陶建華 

        分布外 (OOD) 檢測對于在開放世界中構建可靠的機器學習系統至關重要。研究人員提出了各種策略來減少模型對 OOD 數據的過度自信。其中,ReAct是處理模型過度自信的典型且有效的技術,它截斷高激活以增加分布內和OOD之間的差距。盡管其結果很有希望,但這種技術是最好的選擇嗎?為了回答這個問題,我們利用變分方法來尋找最優操作,并驗證了 OOD 檢測中抑制異常低和高激活以及放大中間激活的必要性,而不是像 ReAct 那樣只關注高激活。這促使我們提出一種名為變分修飾激活(VRA的新技術,該技術使用分段函數模擬這些抑制和放大操作。多個基準數據集的實驗結果表明,我們的方法優于現有的事后策略。同時,VRA兼容不同的評分函數和網絡架構。 

       

        相關鏈接:https://github.com/zeroQiaoba/VRA 

          

        20. Dual Mean-Teacher: 一種無偏的半監督視聽定位框架 

        Dual Mean-Teacher: An Unbiased Semi-Supervised Framework for Audio-Visual Source Localization 

        作者:郭雨欣,馬時杰,蘇虎,王智清,趙鈺浩,鄒偉 

        視聽定位任務(AVSL)旨在根據音頻片段在對應的視頻幀內定位發聲物體?,F有方法主要基于視聽對應的無監督對比學習,然而在沒有bounding-box標注的情況下,它們的定位性能普遍較差,存在無法定位小物體,定位邊界十分模糊,以及無法識別發聲物體不在畫面內等問題。本文首次將半監督框架引入視聽定位任務,提出了第一個基于偽標簽機制的AVSL半監督學習框架——Dual Mean-TeacherDMT),它由兩個teacher-student結構組成。具體來說,兩個teacher模型通過預測的一致性來篩選穩定樣本,濾除off-screen等噪聲樣本,并利用交集方式共同校正偽標簽,從而生成無偏的高質量偽標簽并不斷進行更新,促進模型性能快速提升。實驗證明,DMT能夠充分利用有限的標注數據,有效校正bias,大幅提升定位性能,定位準確性和細粒度顯著提升。在僅有3%標注比例下,模型在Flickr-SoundNetVGG-SoundSource數據集上的CIoU指標為90.4%48.8%,比現有SOTA方法分別提高了8.9%9.6%。最后,我們將本框架總結為一套學習范式,將其擴展到現有 AVSL方法并大幅提高它們的性能,從而證實了本框架的有效性。 

        

        21. 維持軌跡多樣性:促進集成策略在連續控制任務中的探索 

        Keep Various Trajectories: Promoting Exploration of Ensemble Policies in Continuous Control 

        作者:李超,龔晨,何強,侯新文 

        深度強化學習(DRL)與集成方法的結合已被證明在解決復雜的順序決策問題上非常有效。這一成功主要歸功于利用多個模型,增強了策略的穩健性和價值函數估計的準確性。然而,迄今為止,對當前集成強化學習方法成功經驗的分析還很有限。我們的新分析揭示了以前的集成深度強化學習算法的采樣效率可能受到了不夠多樣化的子策略的限制。受到這些發現的啟發,我們的研究引入了一種新的集成強化學習算法,稱為“Trajectories-awarE Ensemble exploratioN”TEEN)。TEEN的主要目標是在促進更多樣化的軌跡的同時最大化預期回報。通過大量實驗,我們證明了TEEN不僅增加了集成策略的樣本多樣性,與僅使用子策略相比,還改善了集成強化學習算法的性能。平均而言,在經過測試的代表性環境中,TEEN的性能比基線集成深度強化學習算法提高了41%。 

          

        22. 零射人工智能與人類協作的高效端到端訓練方法 

        An Efficient End-to-End Training Approach for Zero-Shot Human-AI Coordination 

        作者:閆雪,郭家賢,婁行舟,張海峰,汪軍,杜雅麗 

        零射人工智能與人類協作的目標是開發一個能夠與人類協作而不依賴于人類數據的智能體。目前的兩階段基于種群的方法需要多樣化的相互不同的策略集,以模擬多樣化的人類行為。這種策略集的必要性嚴重限制了計算效率。為了解決這個問題,我們提出了E3T,一種用于零射人工智能與人類協作的高效端到端訓練方法。E3T采用了自身策略和隨機策略的混合來構建隊友策略,使隊友既具備協調能力又具備多樣性。通過這種方式,自身智能體可以在無需預先訓練隊友策略集的情況下,與這種混合的隊友策略進行端到端訓練,從而顯著提高了訓練效率。此外,我們提出了一個隊友建模模塊,用于從歷史背景中預測隊友的行動。有了預測的隊友行動,自身策略可以在測試時根據人類的不同行為模式進行調整和采取相應的行動。在Overcooked環境上的實證結果表明,我們的方法在保持與基于種群的基線相當或更高性能的同時,顯著提高了訓練效率。 

        演示視頻可在以下網址查看: 

        https://sites.google.com/view/e3t-overcooked 

        1. E3T訓練框架圖解。(a)是經典的self-play訓練方式。(bE3T將隊友策略建模為自身策略和隨機策略的融合。隊友建模模塊根據歷史數據預測隊友行動。 

       

       

      18禁网站_无码看黄_波多野结衣一区_亚洲国产永久免费
      <em id="tpxk4"></em>
      1. <button id="tpxk4"><object id="tpxk4"></object></button>
      2. <tbody id="tpxk4"></tbody>

        <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <文本链> <文本链> <文本链> <文本链> <文本链> <文本链>