Facebook介紹ICCV2017收錄論文,其中五分之一都有何愷明的名字(附下載鏈接)
原標題:Facebook介紹ICCV2017收錄論文,其中五分之一都有何愷明的名字(附下載鏈接)
雷鋒網 AI 科技評論按:本周,全球的計算機視覺專傢們即將齊聚威尼斯參加 ICCV (International Conference on Computer Vision)2017,展示計算機視覺和相關領域的最新研究進展。ICCV由IEEE主辦,與計算機視覺模式識別會議(CVPR)和歐洲計算機視覺會議(ECCV)並稱計算機視覺方向的三大頂級會議。CVPR每年召開一次,而ECCV和ICCV在世界范圍內每年間隔召開。ICCV論文錄用率很低,也符合它頂級會議的地位。
今年ICCV中,Facebook有15篇論文被收錄,同時Facebook的研究員們也會參與多個workshop和tutotial。總體情況而言,ICCV 2017 共收到2143篇論文投稿,其中621篇被選為大會論文,錄用比例29%。下面是Facebook此次收錄的論文列表,按照不同的研究主題分組。(雷鋒網 AI 科技評論發現,何愷明有多達三篇論文被收錄;而谷歌的李飛飛也參與瞭一篇Facebook的論文)
語義和圖像分割
Mask R-CNN
作者:何愷明,Georgia Gkioxari, Piotr Dollar, Ross Girshick
論文簡介:這篇論文介紹瞭一個新型系統,它可以預測圖像中的每一個像素屬於哪一類中的哪一個物體。也就是說,這個系統不僅可以勾畫出圖中羊的輪廓並告訴你它們是羊(這一步屬於語義分割),同時還能告訴你圖像中的哪些部分對應著哪一隻羊(實例分割)。Mask R-CNN是最早成功達到這類目標的系統之一。Facebook CTO Mike Schroepfer今年早些時候就在 F8 的主題演講中展示瞭幾個Mask R-CNN的應用例子。
雷鋒網 AI 科技評論之前寫過這篇論文的解析文章,參見 Mask R-CNN實例分割通用框架,檢測,分割和特征點定位一次搞定
Predicting Deeper into the Future of Semantic Segmentation
向著語義分割的未來做更深遠的預測
作者:Pauline Luc, Natalia Neverova, Camille Couprie, Jakob Verbeek, Yann LeCun
論文簡介:這篇論文中,作者們開發瞭一個深度學習模型,它可以從給定的一幀來自視頻的畫面嘗試預測下一幀會發生什麼。換句話說,它在嘗試猜測視頻中的未來會如何。這篇論文表明,得到的模型可以提升計算機視覺系統在語義分割之類的任務中的表現。
Segmentation-Aware Convolutional Networks Using Local Attention Masks
運用局部註意力遮罩的分割敏感的卷積網絡
作者:Adam W. Harley, Konstantinos G. Derpanis, Iasonas Kokkinos
論文簡介:隨著卷積層不斷向後推進,卷積神經網絡中的單個神經元要觀察的圖像區域也越來越大。這會帶來局部性非常差、並且模糊的響應,就是因為神經元要觀察的圖像范圍太大瞭。在這篇論文中,作者們讓每個神經元隻關註部分感興趣的區域,從而讓神經元的響應變得更明確。
Dense and Low-Rank Gaussian CRFs Using Deep Embeddings
使用深度嵌入的密集、低排序高斯CRF算法
作者:Siddhartha Chandra, Nicolas Usunier, Iasonas Kokkinos
論文簡介:雖然卷積神經網絡可以準確地把圖像中的像素分為不同的類別(比如汽車,飛機等等),但臨近區域的分類結果卻經常不一致,一個物體的一半可能會被識別為“床”,另一半則可能被識別為“沙發”。這篇論文提出瞭一種方法,連接瞭所有像素的分類結果,形成連續一致的預測結果,同時還保持瞭很高的效率。
物體識別 Focal Loss for Dense Object Detection
密集物體檢測中的焦距損失
作者:Tsung-Yi Lin, Pr油煙處理機出租iya Goyal, Ross Girshick, 何愷明, Piotr Dollár
論文簡介:這篇論文中介紹瞭一個用於物體識別的新系統。它和現有頂尖的物體識別方案采用瞭不同的技術路徑。目前多數其它系統都由多個階段組成,每個階段都由不同的模型實現,這篇論文中設計瞭一個模型在一個階段中解決整個物體識別問題。這種方法的簡單性極其誘人,因為這讓這個系統的實現和使用都簡單瞭許多。
雷鋒網 AI 科技評論之前寫過這篇論文的解析文章,參見 兩屆CVPR最佳論文得主何愷明新作:應對樣本的不平衡分佈,刷新密集物體檢測表現上限
Low-shot Visual Recognition by Shrinking and Hallucinating Features
通過縮放和變幻進行小樣本視覺識別
作者:Bharath Hariharan, Ross Girshick
論文簡介:一般來說,物體檢測系統都要先用需要識別物體的照片進行訓練,每個類別都需要數以千計的照片。這篇論文針對的問題是如何在僅僅看過一種新物體的很少幾張樣本後就能對它進行識別。它使用的方法是產生更多的要學習的物體的樣本(縮放和變幻)。
Transitive Invariance for Self-supervised Visual Representation Learning
具有變換不變性的自我監督視覺表征識別
作者:Xiaolong Wang, 何愷明, Abhinav Gupta
論文簡介:這篇論文的目標是為物體檢測學習更好的模型,途徑是觀察視頻中的物體外觀如何變化。比如,視頻中一輛汽車開過,在不同的幀中展示瞭汽車不同的側面。由於已知視頻中的每一幀都展示的是同一輛車,用這些信息學習的模型就可以更好地理解同一個物體在不同視角下的樣子。然後就可以用得到的模型改善物體檢測的效果。
圖像分類 Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization
Grad-CAM:通過基於梯度的本地化展示深度網絡的視覺解釋
作者:Ramprasaath R. Selvaraju, Michael Cogswell, Abhishek Das, Ramakrishna Vedantam, Devi Parikh, Dhruv Batra
論文簡介:多數現代圖像分類系統都基於卷積神經網絡的結構。這些網絡的表現當然很不錯,但是它們也還在很大程度上是“黑盒子”。這篇論文介紹瞭一種新的方法可以揭開這個黑盒子,把圖片中能夠讓系統識別出結果的區域用特定的方式進行可視化。
Learning Visual N-Grams from Web Data
從網絡數據學習視覺N維信息
作者:Ang Li, Allan Jabri, Armand Joulin, Laurens van der Maaten
論文簡介:多數圖像識別系台中靜電機租賃統都是用人工標註的大規模圖像數據庫訓練的,當中這個標註過程又枯燥又無法擴展。這篇論文中開發瞭一個圖像識別系統,它是用5千萬張圖像和對應的用戶評論訓練的,不需要人工標註。這個系統可以識別物體、地標,以及數個單詞長的場景,比如“金門大橋”或者“自由女神像”。
視覺和語言綜合應用 Inferring and Executing Programs for Visual Reasoning
用於視覺推理的推斷和執行程序
作者:Justin Johnson, Bharath Hariharan, Laurens van der Maaten, Judy Hoffman, 李飛飛, C. Lawrence Zitnick, Ross Girshick
論文簡介:這篇論文討論瞭這樣一個視覺推理任務:給定一張圖像,要讓模型回答“綠色盒子前面的那個東西是什麼形狀?”模型的工作方式是使用一個“模塊化網絡”,這個網絡會把問題轉換成一個簡單的計算機程序,然後用神經網絡實現其中的每一個指令。這篇論文還展示瞭一個新的數據集用於視覺推理,名為“CLEVR-Humans”
Learning Cooperative Visual Dialog Agents with Deep Reinforcement Learning
用深度強化學習訓練合作視覺對話機器人
作者:Abhishek Das, Satwik Kottur, Jos. M. F. Moura, Stefan Lee, Dhruv Batra
論文簡介:這篇論文中,作者們開發瞭一個聊天機器人,它能回答關於圖像的問題。你可以問它“那個女人的傘是什麼顏色的”這樣的問題。如果圖像中有兩個女人,這個聊天機器人會問你:“哪個女人?”你答復它:“黑色頭發的那個”,然後聊天機器人會告訴你:“傘是藍色的。”離真正解決這類問題還有很遠的距離,但這是這個領域的首項研究,對這個問題做出努力。
Learning to Reason: End-to-End Module Networks for Visual Question Answering
學習推理:用於視覺問題回答的端到端模型網絡
作者:Ronghang Hu, Jacob Andreas, Marcus Rohrbach, Trevor Darrell, Kate Saenko
論文簡介:這篇論文介紹瞭一種用於回答“紫色的圓柱體左側的球是什麼顏色”這類問題的新方法。在新方法中,問題會首先被轉換為一個小型計算機程序;然後程序中的每個指令都會由一個神經網絡來執行。程序生成器和程序執行器都是從成對的圖像和問題中學習的。
Speaking the Same Language: Matching Machine to Human Captions by Adversarial Training
講一樣的話:通過對抗性訓練讓機器符合人類生成的標題
作者:Rakshith Shetty, Marcus Rohrbach, Lisa Anne Hendricks, Mario Fritz, Bernt Schiele
論文簡介:這篇論文要處理的問題是圖像標題的自動生成,也就是說,用自然語言描述一副圖像。主要的技術創新是,它嘗試讓系統生成的標題更像是人類生成的。
圖像生成 Unsupervised Creation of Parameterized Avatars
無監督創作參數化漫畫照片
作者:Lior Wolf, Yaniv Taigman, Adam Polyak
論文簡介:這篇論文中開發瞭一個新的系統,它可以基於一張正常的臉部照片,生成一個看起來很像你的漫畫照片。主要的技術創新是,系統是以一種無監督的方法訓練的。這意味著它並不是用成對的臉部照片和對應的漫畫照片訓練的,它拿到的隻有整整一組人臉照片和另一組漫畫的照片。系統會自動學習如何找到人臉照片和漫畫照片之間的對應關系。
3D視覺 Deltille Grids for Geometric Camera Calibration
用於幾何相機矯正的Deltille網格
作者:Hyowon Ha, Michal Perdoch, Hatem Alismail, In So Kweon, Yaser Sheikh
論文簡介:物體的三維模型在很多場景下都會用到,比如虛擬顯示VR中。在一個圓頂一樣的空間內佈置上百個相機,讓它們同時拍一張照片,就可以建立出一個三維模型。這些相機都需要先進行校準,這樣如果系統知道所有相機的確切位置,它就可以把所有的照片都進行合並,生成這個物體的三維模型。在過去的幾十年中,相機的校準工作都是通過拍一張標準標定板完成的。這篇文章中的成果表明,如果拍攝一張帶有三角形區域的標定板,相機可以被校準得更加準確。
論文下載 為瞭方便國內的小夥伴們閱讀,我們已經把這15篇論文從Facebook官網搬運並打包,下載地址 https://pan.baidu.com/s/1missH9e
其它ICCV活動
除瞭以上的收錄論文外,Facebook還會參加以下的多個Tutorial和Workshop
Instance-Level Visual Recognition Tutorial(何愷明會去這個,有同學想要去現場堵他的嗎?)
Closing the Loop between Vision and Language Workshop
Generative Adversarial Networks tutorial
Role of Simulation in Computer Vision workshop
Workshop on Web-Scale Vision and Social Media
Workshop on Computer Vision for Virtual Reality
COCO + Places Workshop
PoseTrack Chal新竹靜電機租賃lenge Workshop
ICCV2017期間,雷鋒網 AI 科技評論也會繼續發出更多相關報道,請繼續關註。返回搜狐,查看更多
責任編輯:
聲明:本文由入駐搜狐號的作者撰寫,除搜狐官方賬號外,觀點僅代表作者本人,不代表搜狐立場。
閱讀 ()
AUGI SPORTS|重機車靴|重機車靴推薦|重機專用車靴|重機防摔鞋|重機防摔鞋推薦|重機防摔鞋
AUGI SPORTS|augisports|racing boots|urban boots|motorcycle boots
留言列表