TLDR: 視頻分割一直是重標注的一個task，這篇CVPR 2023文章研究了完全不需要標注的視頻物體分割，僅使用ResNet，RCF模型在DAVIS16/STv2/FBMS59上提升了7/9/5%，文章里還提出了不需要標注的調參方法，代碼已公開可用，

Paper title: Bootstrapping Objectness from Videos by Relaxed Common Fate and Visual Grouping

arXiv: https://arxiv.org/abs/2304.08025

作者機構：UC Berkeley, MSRA, UMich

Project page: https://rcf-video.github.io/

Code and models: https://github.com/TonyLianLong/RCF-UnsupVideoSeg

視頻物體分割真的可以不需要人類監督嗎？

視頻分割一直是重標注的一個task，可是要標出每一幀上的物體是非常耗時費力的，然而人類可以輕松地分割移動的物體，而不需要知道它們是什么類別，為什么呢？

Gestalt定律嘗試解釋人類是怎么分割一個場景的，其中有一條定律叫做Common Fate，即移動速度相同的物體屬于同一類別，比如一個箱子從左邊被拖到右邊，箱子上的點是均勻運動的，人就會把這個部分給分割出來理解，然而人并不需要理解這是個箱子來做這個事情，而且就算是嬰兒之前沒有見過箱子也能知道這是一個物體，

運用Common Fate來分割視頻

這個定律啟發了基于運動的無監督分割，然而，Common Fate并不是物體性質的可靠指標：關節可動 (articulated) /可變形物體 (deformable objects) 的一些part可能不以相同速度移動，而物體的陰影/反射 (shadows/reflections) 始終隨物體移動，但并非其組成部分，

舉個例子，下面這個人的腿和身子的運動是不同的（Optical Flow可視化出來顏色不同），這很常見，畢竟人有關節嘛 (articulated)，要是這個處理不了的話，很多視頻都不能分割了，然而很多baseline是處理不了這點的（例如AMD+和OCLR），他們把人分割成了幾個部分，

還有就是影子和反射，比如上面這只天鵝，它的倒影跟它的運動是一致的（Optical Flow可視化顏色一樣），所以之前的方法認為天鵝跟倒影是一個物體，很多視頻里是有這類現象的（畢竟大太陽下物體都有個影子嘛），如果這個處理不了的話，很多視頻也不能分割了，

那怎么解決？放松，Relax.

長話短說，那我們的方法是怎么解決這個問題的呢？無監督學習的一個特性是利用神經網路自己內部的泛化和擬合能力進行學習，既然Common Fate有自己的問題，那么我們沒有必要強制神經網路去擬合Common Fate，于是我們提出了Relaxed Common Fate，通過一個比較弱的學習方式讓神經網路真正學到物體的特性而不是noise，

具體來說，我們的方法認為物體運動由兩部分組成：物體總體的piecewise-constant motion （也就是Common Fate）和物體內部的segment motion，比如你看下圖這個舞者，他全身的運動就可以被理解成piecewise-constant motion來建模，手部腿部這些運動就可以作為residual motion進行擬合，最后合并成一個完整的flow，跟RAFT生成的flow進行比較來算loss，我們用的RAFT是用合成資料（FlyingChairs和FlyingThings）進行訓練的，不需要人工標注，

Relaxed Common Fate

首先我們使用一個backbone來進行特征提取，然后通過一個簡單的full-convolutional network獲得Predicted Masks $\hat{M}$（下圖里的下半部分），和一般的分割框架是一樣的，也可以切換成別的框架，

那我們怎么優化這些Masks呢？我們先提取、合并兩幀的特征，放入一個residual flow prediction head來獲得Residual Flow $\hat{R}$ （下圖里的上半部分），

然后我們對RAFT獲得的Flow用Predicted Masks $\hat{M}$進行Guided Pooling，獲得一個piecewise-constant flow，再加上預測的residual flow，就是我們的flow prediction了，最后把flow prediction和RAFT獲得的Flow的差算一個L1 norm Loss進行優化，以此來學習segmentation，

在測驗的時候，只有Predicted Masks $\hat{M}$ 是有用的，其他部分是不用的，

這里的Residual Flow會盡量初始化得小一些，來鼓勵先學piecewise-constant的部分（有點類似ControlNet），再慢慢學習residual部分，

引入Appearance資訊來幫助無監督視頻分割

光是Relaxed Common Fate就能在DAVIS上相對baseline提5%了，但這還不夠，前面說Relaxed Common Fate的只用了motion而沒有使用appearance資訊，

讓我們再次回到上面這個例子，這個舞者的手和身子是一個顏色，然而AMD+直接把舞者的手忽略了，下面這只天鵝和倒影明明在appearance上差別這么大，卻在motion上沒什么差別，如果整合appearance和motion，是不是能提升分割質量呢？

因此我們引入了Appearance 來進行進一步的監督，在學習完motion資訊之后，我們直接把取得的Mask進行兩步優化：一個是low-level的CRF refinement，強調顏色等細節一致的地方應該屬于同一個mask（或背景），一個是semantic constraint，強調Unsupervised Feature一直的地方應該屬于同一個mask，

把優化完的mask再和原mask進行比較，計算L2 Loss，再更新神經網路，這樣訓練的模型的無監督分割能力可以進一步提升，具體細節歡迎閱讀原文，

無監督調參

很多無監督方法都需要使用有標注的資料集來調參，而我們的方法提出可以利用前面說的motion和appearance的一致性來進行調參，簡單地說，motion學習出的mask在appearance上不一致代表這個引數可能不是最優的，具體方法是在Unsupervised Feature上計算Normalized Cuts （但是不用算出最優值），Normalized Cuts越小越代表分割效果好，原文里面對此有詳細描述，