主頁 >  其他 > CVPR 2023 | RCF:完全無監督的視頻物體分割

CVPR 2023 | RCF:完全無監督的視頻物體分割

2023-07-13 08:55:13 其他

 

圖片  

TLDR: 視頻分割一直是重標注的一個task,這篇CVPR 2023文章研究了完全不需要標注的視頻物體分割,僅使用ResNet,RCF模型在DAVIS16/STv2/FBMS59上提升了7/9/5%,文章里還提出了不需要標注的調參方法,代碼已公開可用,

圖片

Paper title: Bootstrapping Objectness from Videos by Relaxed Common Fate and Visual Grouping

arXiv: https://arxiv.org/abs/2304.08025

作者機構:UC Berkeley, MSRA, UMich

Project page: https://rcf-video.github.io/

Code and models: https://github.com/TonyLianLong/RCF-UnsupVideoSeg

視頻物體分割真的可以不需要人類監督嗎? 

視頻分割一直是重標注的一個task,可是要標出每一幀上的物體是非常耗時費力的,然而人類可以輕松地分割移動的物體,而不需要知道它們是什么類別,為什么呢?

Gestalt定律嘗試解釋人類是怎么分割一個場景的,其中有一條定律叫做Common Fate,即移動速度相同的物體屬于同一類別,比如一個箱子從左邊被拖到右邊,箱子上的點是均勻運動的,人就會把這個部分給分割出來理解,然而人并不需要理解這是個箱子來做這個事情,而且就算是嬰兒之前沒有見過箱子也能知道這是一個物體,

圖片

運用Common Fate來分割視頻

 

這個定律啟發了基于運動的無監督分割,然而,Common Fate并不是物體性質的可靠指標:關節可動 (articulated) /可變形物體 (deformable objects) 的一些part可能不以相同速度移動,而物體的陰影/反射 (shadows/reflections) 始終隨物體移動,但并非其組成部分,

舉個例子,下面這個人的腿和身子的運動是不同的(Optical Flow可視化出來顏色不同),這很常見,畢竟人有關節嘛 (articulated),要是這個處理不了的話,很多視頻都不能分割了,然而很多baseline是處理不了這點的(例如AMD+和OCLR),他們把人分割成了幾個部分,

圖片

還有就是影子和反射,比如上面這只天鵝,它的倒影跟它的運動是一致的(Optical Flow可視化顏色一樣),所以之前的方法認為天鵝跟倒影是一個物體,很多視頻里是有這類現象的(畢竟大太陽下物體都有個影子嘛),如果這個處理不了的話,很多視頻也不能分割了,    

那怎么解決?放松,Relax.   

長話短說,那我們的方法是怎么解決這個問題的呢?無監督學習的一個特性是利用神經網路自己內部的泛化和擬合能力進行學習,既然Common Fate有自己的問題,那么我們沒有必要強制神經網路去擬合Common Fate,于是我們提出了Relaxed Common Fate,通過一個比較弱的學習方式讓神經網路真正學到物體的特性而不是noise,

具體來說,我們的方法認為物體運動由兩部分組成:物體總體的piecewise-constant motion (也就是Common Fate)和物體內部的segment motion,比如你看下圖這個舞者,他全身的運動就可以被理解成piecewise-constant motion來建模,手部腿部這些運動就可以作為residual motion進行擬合,最后合并成一個完整的flow,跟RAFT生成的flow進行比較來算loss,我們用的RAFT是用合成資料(FlyingChairs和FlyingThings)進行訓練的,不需要人工標注,

圖片

Relaxed Common Fate   

首先我們使用一個backbone來進行特征提取,然后通過一個簡單的full-convolutional network獲得Predicted Masks $\hat{M}$(下圖里的下半部分),和一般的分割框架是一樣的,也可以切換成別的框架,

那我們怎么優化這些Masks呢?我們先提取、合并兩幀的特征,放入一個residual flow prediction head來獲得Residual Flow $\hat{R}$ (下圖里的上半部分),  

然后我們對RAFT獲得的Flow用Predicted Masks $\hat{M}$進行Guided Pooling,獲得一個piecewise-constant flow,再加上預測的residual flow,就是我們的flow prediction了,最后把flow prediction和RAFT獲得的Flow的差算一個L1 norm Loss進行優化,以此來學習segmentation,

在測驗的時候,只有Predicted Masks $\hat{M}$ 是有用的,其他部分是不用的,  

圖片

這里的Residual Flow會盡量初始化得小一些,來鼓勵先學piecewise-constant的部分(有點類似ControlNet),再慢慢學習residual部分,     

引入Appearance資訊來幫助無監督視頻分割  

光是Relaxed Common Fate就能在DAVIS上相對baseline提5%了,但這還不夠,前面說Relaxed Common Fate的只用了motion而沒有使用appearance資訊,

讓我們再次回到上面這個例子,這個舞者的手和身子是一個顏色,然而AMD+直接把舞者的手忽略了,下面這只天鵝和倒影明明在appearance上差別這么大,卻在motion上沒什么差別,如果整合appearance和motion,是不是能提升分割質量呢?

圖片

因此我們引入了Appearance 來進行進一步的監督,在學習完motion資訊之后,我們直接把取得的Mask進行兩步優化:一個是low-level的CRF refinement,強調顏色等細節一致的地方應該屬于同一個mask(或背景),一個是semantic constraint,強調Unsupervised Feature一直的地方應該屬于同一個mask,

把優化完的mask再和原mask進行比較,計算L2 Loss,再更新神經網路,這樣訓練的模型的無監督分割能力可以進一步提升,具體細節歡迎閱讀原文,

圖片

無監督調參

很多無監督方法都需要使用有標注的資料集來調參,而我們的方法提出可以利用前面說的motion和appearance的一致性來進行調參,簡單地說,motion學習出的mask在appearance上不一致代表這個引數可能不是最優的,具體方法是在Unsupervised Feature上計算Normalized Cuts (但是不用算出最優值),Normalized Cuts越小越代表分割效果好,原文里面對此有詳細描述,

方法效果   

無論是否有Post-processing,我們的方法在三個視頻分割資料集上都有很大提升,在STv2上更是提升了12%,

圖片

Ablation可以看出Residual pathway (Relaxed Common Fate)的貢獻是最大的,其他部分總計貢獻了11.9%的增長,

圖片

Visualizations

圖片

圖片

總結

 

這篇CVPR 2023文章研究了完全不需要標注的視頻物體分割,通過Relaxed Common Fate來利用motion資訊,再通過改進和利用appearance資訊來進一步優化,RCF模型在DAVIS16/STv2/FBMS59上提升了7/9/5%,文章里還提出了不需要標注的調參方法,代碼和模型已公開可用,

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/557189.html

標籤:其他

上一篇:用ChatGPT搭建代碼知識庫,提升開發效率

下一篇:返回列表

標籤雲
其他(162510) Python(38275) JavaScript(25532) Java(18295) C(15242) 區塊鏈(8275) C#(7972) AI(7469) 爪哇(7425) MySQL(7299) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5876) 数组(5741) R(5409) Linux(5347) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4616) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2439) ASP.NET(2404) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) HtmlCss(2002) .NET技术(1988) 功能(1967) Web開發(1951) C++(1942) python-3.x(1918) 弹簧靴(1913) xml(1889) PostgreSQL(1884) .NETCore(1863) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 網閘典型架構簡述

    網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......

    uj5u.com 2020-09-10 02:00:44 more
  • 如何從xshell上傳檔案到centos linux虛擬機里

    如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......

    uj5u.com 2020-09-10 02:00:47 more
  • 一、SQLMAP入門

    一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......

    uj5u.com 2020-09-10 02:00:50 more
  • Metasploit 簡單使用教程

    metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......

    uj5u.com 2020-09-10 02:00:53 more
  • 游戲逆向之驅動層與用戶層通訊

    驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......

    uj5u.com 2020-09-10 02:00:56 more
  • 北斗電力時鐘(北斗授時服務器)讓網路資料更精準

    北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......

    uj5u.com 2020-09-10 02:01:03 more
  • 【CTF】CTFHub 技能樹 彩蛋 writeup

    ?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......

    uj5u.com 2020-09-10 02:04:05 more
  • 02windows基礎操作

    我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......

    uj5u.com 2020-09-10 02:04:18 more
  • 03.Linux基礎操作

    我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......

    uj5u.com 2020-09-10 02:04:30 more
  • 05HTML

    01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......

    uj5u.com 2020-09-10 02:04:36 more
最新发布
  • CVPR 2023 | RCF:完全無監督的視頻物體分割

    TLDR: 視頻分割一直是重標注的一個task,這篇CVPR 2023文章研究了完全不需要標注的視頻物體分割。僅使用ResNet,RCF模型在DAVIS16/STv2/FBMS59上提升了7/9/5%。文章里還提出了不需要標注的調參方法。代碼已公開可用。 Paper title: Bootstrap ......

    uj5u.com 2023-07-13 08:55:13 more
  • 用ChatGPT搭建代碼知識庫,提升開發效率

    ChatGPT 是一種強大的自然語言處理模型。在作業中,我們可以借助其卓越的自然語言生成能力,快速檢索代碼資訊,使程式員們能更加專注于業務邏輯的實作和優化。然而,由于它的知識庫僅覆寫至 2021 年 9 月前的資訊,一些新的技術檔案無法被查詢到,例如我們公司前端經常使用的開源框架 TDesign。本... ......

    uj5u.com 2023-07-13 08:54:46 more
  • 用ChatGPT搭建代碼知識庫,提升開發效率

    ChatGPT 是一種強大的自然語言處理模型。在作業中,我們可以借助其卓越的自然語言生成能力,快速檢索代碼資訊,使程式員們能更加專注于業務邏輯的實作和優化。然而,由于它的知識庫僅覆寫至 2021 年 9 月前的資訊,一些新的技術檔案無法被查詢到,例如我們公司前端經常使用的開源框架 TDesign。本... ......

    uj5u.com 2023-07-13 08:48:40 more
  • 給程式員準備的“蜜糍”--SOD框架簡介

    以前有一個著名的國產化妝品“*大寶SOD密*”,**SOD框架**雖然跟它沒有什么關系,但是名字的確受到它的啟發,因為SOD框架就是給程式員準備的“蜜糍”(一種含有蜂蜜的糍粑),簡單靈活且非常容易“上手”。 ......

    uj5u.com 2023-07-13 08:22:50 more
  • 集成測驗最全詳解,看完必須懂了

    集成測驗(Integration Testing),也叫組裝測驗或聯合測驗。在單元測驗的基礎上,將所有模塊按照設計要求(如根據結構圖)組裝成為子系統或系統,進行集成測驗。 ......

    uj5u.com 2023-07-13 08:22:44 more
  • 資料結構-鏈表帶哨兵

    ## 一.鏈表帶哨兵 ```java import java.util.Iterator; import java.util.function.Consumer; //帶哨兵 public class shuju02 implements Iterable {//整體 private Node he ......

    uj5u.com 2023-07-13 08:22:38 more
  • 量子糾纏:超越時空的連接

    量子糾纏是一種特殊的量子態,它涉及到兩個或多個量子系統之間的緊密聯系。當這些系統處于糾纏態時,它們之間的狀態無法獨立地描述,即使它們被物理上分離開來。量子糾纏是量子力學中的非局域現象,可以超越時空的距離,為我們提供了一種超越經典物理的聯系方式。 ......

    uj5u.com 2023-07-13 08:22:31 more
  • 后端性能測驗的型別

    ## 性能測驗的型別 性能測驗:確定軟體產品性能的測驗。 ![image](https://img2023.cnblogs.com/blog/3174021/202307/3174021-20230712162602710-1541606934.png) ### 負載測驗(load testing) ......

    uj5u.com 2023-07-13 08:22:16 more
  • SRS之StateThreads學習

    最近在看SRS的原始碼。SRS是基于協程開發的,底層使用了StateThreads。所以為了充分的理解SRS原始碼,需要先學習一下StateThreads。這里對StateThreads的學習做了一些總結和記錄。 ......

    uj5u.com 2023-07-13 08:22:05 more
  • LEA: Improving Sentence Similarity Robustness to Typos Using

    # LEA: Improving Sentence Similarity Robustness to Typos Using Lexical Attention Bias 論文閱讀 KDD 2023 [原文地址](https://arxiv.org/abs/2307.02912) ## Introd ......

    uj5u.com 2023-07-13 08:21:46 more