一週AI最火論文 | 給你的AI模型一張名片，谷歌發佈MCT

嗚啦啦啦啦啦啦啦大家好，本週的AI Scholar Weekly欄目又和大家見面啦！
AI ScholarWeekly是AI領域的學術專欄，致力於為你帶來最新潮、最全面、最深度的AI學術概覽，一網打盡每週AI學術的前沿資訊。
每週更新，做AI科研，每週從這一篇開始就夠啦！

本週關鍵詞：遷移學習、Deepfake、聯合學習

本週最佳學術研究

Google AI：用於AI模型透明化的Model Card Toolkit

Google最近發佈了Model Card Toolkit（MCT），該工具包旨在為開發人員、監管人員和下游用戶提供透明化的AI模型。Google表示，模型透明度在影響人們生活的各個領域（從醫療保健到個人理財再到就業）都發揮著重要作用。

Google過去公開發布了Model Cards來公開特定的模型架構，併為一些用例深入分析了有助於確保其最佳性能的因素。

MCT基於Google的Model Cards框架來報告模型的來源、使用情況和評估結果，並旨在通過收集必要信息和協助用戶創建界面，來為第三方創建Model Cards帶來便利。

Google正在共享MCT以簡化所有ML從業人員Model Cards的創建過程。

內存有效的終端設備學習

這項工作提出了一種微小遷移學習方法（Tiny-Transfer-Learning（TinyTL））以實現內存有效的終端設備學習，旨在使預訓練的模型在邊緣設備新收集的數據上表現良好。

現有遷移學習方法固定了架構，基本上是通過細微調整權重以適合不同的目標數據集。不同的是，TinyTL固定了權重，通過調整特徵提取器的架構並學習內存有效的精簡殘差模塊和偏差，來適應不同的目標數據集。因此，TinyTL不需要存儲中間激活值，而這正是終端設備學習的主要存儲瓶頸。

在基準遷移學習數據集上進行的大量實驗一致表明了TinyTL的有效性和存儲效率，這為高效的終端設備機器學習鋪平了道路。

用於Deepfakes創建和檢測的深度學習方法

Deepfake算法能偽造圖像和視頻而生成大量虛假內容，人眼無法將它們與真實的圖像和視頻區分開來，因此開發能夠自動檢測和評估數字視覺媒體真實性的算法至關重要。

本文對deepfakes的創建算法和最新文獻中更為重要的deepfakes的檢測方法進行了調查。研究人員針對挑戰、研究趨勢以及深層偽造技術的發展方向進行了詳細討論，可以為你在這個領域的工作和研究提供幫助。

通過回顧deepfakes的背景和最新的檢測方法，本文提供了對該技術的全面概述並促進了新的更穩健的方法的開發，來應對日益嚴峻的偽造現象。

語音編碼器表徵的自我監督學習

自我監督學習作為一種學習大量未標記數據中知識的有效方法，近年來發展迅速。但是，最近的方法經常通過制定單個輔助任務來學習，例如對比預測\自迴歸預測或蒙版重建。

在本文中，一組研究人員提出了一種自我監督的語音預訓練方法，稱為“變形編碼器表徵法”（TERA）。與以前的技術不同，TERA使用多目標輔助任務對大量未標記的語音進行變壓器編碼器的預訓練。

該模型通過從變化後的副本中重建聲幀來學習，研究人員在其中使用隨機策略沿三個維度進行變化：時間，通道和幅度。TERA可用於提取語音表示或與下游模型（包括音素分類，說話者識別和語音識別）進行微調。

TERA通過改善表面特徵的方法在這些任務上實現了強大的性能。此外，研究人員表明，這一新方法可以輕鬆地轉移到未在預訓練中使用的另一個數據集。

友好的聯合學習研究框架

本文提出了一個名為Flower的新的聯合學習（FL）框架，該框架支持在移動和無線設備上實施FL模型的實現和試驗。FL（也稱為協作學習）是一種機器學習（ML）技術，可跨多個分散的邊緣設備或保存本地數據樣本的服務器訓練算法。FL專為應用於移動設備以及連接這些設備的無線鏈接而設計。

該研究描述了Flower的設計原理和實現細節，以及將其與基於雲的移動客戶端集成的幾個示例。研究人員認為，這將是FL移動應用中真正改變者。

Flower通過Apache 2.0 License2的開放源代碼，希望它能幫助研究社區快速試驗以FL為重點的研究問題，並且社區成員將進一步擴展框架以支持新的通信協議和移動客戶端。

其他爆款論文

Google推出了ScaNN開源軟件，可進行有效的矢量相似度搜索：
https://github.com/google-research/google-research/tree/master/scann

致力於改善現有的CNN，高效的深度CNN Dropout：
https://arxiv.org/pdf/1904.03392v5.pdf

一種新穎的樣式轉移算法，可從特徵中完全提取特徵：
https://arxiv.org/abs/2007.13010v1

逼真的室內場景數據集的端到端開放框架：OpenRooms：
https://arxiv.org/pdf/2007.12868v1.pdf

學習資源

與MIT和Microsoft的專家一起探索數據可視化，並獲得機器學習入門課程：
https://www.edx.org/course/data-science-essentials

哈佛的免費數據科學課程：講座、視頻、實驗課：
http://cs109.github.io/2015/pages/videos.html

AI大事件