已完结小说排行榜,好看的历史书籍推荐,我欲封天txt下载

在建立機器學習應用后，需要確保它足夠安全

軟件行業(yè)已經(jīng)非常清楚地顯示了，如果你不注意安全性的話，將會發(fā)生什么。

2019年2月28日

編者注：您是否正在尋找在自己公司中使用AI的機會？不要錯過2019年6月18日至21日在北京舉行的AI會議。

在最近的一篇文章中我們描述了構建可持續(xù)的機器學習實踐需要做些什么。 “可持續(xù)”一詞是指那些不僅僅停留于POC（概念證明）或實驗類的項目。可持續(xù)實踐意味著和組織的使命融為一體的項目：組織的生死存亡依賴這些項目。這些項目由穩(wěn)定的工程師團隊構建并提供支持，同時管理團隊也提供支持，該團隊了解機器學習是什么、為什么重要、以及它能夠做到什么。最后，可持續(xù)的機器學習意味著，盡可能多方面的產(chǎn)品開發(fā)流程被自動化了。這些流程不僅僅包括構建模型，還包括清理數(shù)據(jù)，構建和管理數(shù)據(jù)管線，測試等等。機器學習將深入滲透到我們的組織，人類無法在沒有工具的幫助下對它們進行管理。世界各地的公司都意識到，安全對于他們的軟件項目至關重要。沒有人想成為下一個索尼，下一個Anthem，或下一個Equifax。不過，就算我們清楚如何使傳統(tǒng)軟件更安全（即使我們經(jīng)常不這樣做），機器學習的引入帶來一系列新問題。任何可持續(xù)的機器學習實踐都必須解決機器學習所獨有的安全問題。我們沒有為傳統(tǒng)軟件做到這一點，我們現(xiàn)在付出了代價。沒有人愿意再付出更多代價。如果我們從處理傳統(tǒng)軟件的安全問題方法論中學到一點，那就是我們需要未雨綢繆，而不是亡羊補牢。正如Joanna Bryson所寫，“網(wǎng)絡安全和人工智能是不可分割的?！?/p>

任何組織機構中，都不可能只存在單一的機器學習應用和模型，會存在許多——成千上萬個應用和模型，他們不斷地被自動生成和更新。在低功耗的邊緣設備（edge devices）上運行的機器學習模型，運行的范圍從手機，到裝配線/工具/電器上，甚至家居、建筑結構中的微型傳感器，都增加了需要監(jiān)控的模型數(shù)量。5G移動服務的出現(xiàn)顯著增加了移動設備的網(wǎng)絡帶寬，這使得將機器學習放在網(wǎng)絡邊緣更具吸引力。我們預計到數(shù)十億計的機器上，每臺機器都可能在運行數(shù)十個模型。在這種規(guī)模下，我們不能假設我們還有手動處理安全問題的能力。我們需要工具來幫助人類負責安全問題。我們需要盡可能多地自動化流程，但不要過度自動化，給人類最后的決策權。

在《將機器學習模型轉化為真實產(chǎn)品和服務時得到的經(jīng)驗教訓》一文中，David Talby寫道，“人們在機器學習方面犯的最大錯誤就是認為這些模型就像任何其他類型的軟件一樣?！?模型開發(fā)不僅僅是軟件開發(fā)。模型具備唯一性 – 相同的模型不能兩次部署；任何模型的準確性一旦投入生產(chǎn)環(huán)境，精度就會在持續(xù)下降；而且，代表真實用戶及其行為的訓練數(shù)據(jù)和實時數(shù)據(jù)之間的差距是巨大的。在許多方面，建模任務直到模型投入生產(chǎn)才真正開始，這時候模型才開始接受真實環(huán)境下的數(shù)據(jù)。

不幸的是，軟件開發(fā)與機器學習具備一個相同特征：對安全性的關注仍然缺乏。安全性往往被傾向于放在低優(yōu)先級的位置。它得到了一些口頭承諾，但是一旦項目截止日期臨近，它就被棄置一旁。在軟件方面，這已經(jīng)在“快速行動，破除舊框架”的心態(tài)中形成了習慣。如果您正在快速構建代碼，那么您不會花時間編寫干凈整潔的代碼，更不用說考慮攻擊者了。你可能不會“破除舊框架”，但你愿意建立支離破碎的的系統(tǒng)，Daniel Miessler寫道，按時交付不安全產(chǎn)品的好處超過了缺點。你可能很幸運，您創(chuàng)建的漏洞可能永遠不會被發(fā)現(xiàn)。但是如果安全專家從一開始就不是開發(fā)團隊的一部分，如果安全性是最后一分鐘才需要加上的東西，如果你依靠運氣行事，這不是一個好的態(tài)度。機器學習并不例外，而且除了按時交付產(chǎn)品的壓力更大，安全問題也不容易理解，攻擊者的群體面更大，被攻擊的目標價值更大，那些構建機器學習的公司還沒開始處理這些問題。

機器學習系統(tǒng)會遇到什么樣的攻擊，以及它們需要防御什么？對于所有類型的攻擊，我們多年來一直在努力解決，但是機器學習中仍然存在許多獨有的漏洞。這是對機器學習攻擊的簡要分類：

數(shù)據(jù)下毒，也被稱為將壞數(shù)據(jù)（“對抗性數(shù)據(jù)”）注入訓練數(shù)據(jù)。我們在真實場景下已經(jīng)多次見過這種情況。微軟的Tay是一個實驗性的聊天機器人，很快被和它聊天的人教壞，大放關于種族主義和反猶太主義的厥詞。通過將種族主義內(nèi)容插入數(shù)據(jù)流，這些人有效地控制了Tay的行為。在YouTube，F(xiàn)acebook，Twitter，甚至Google搜索等頻道中出現(xiàn)“虛假新聞”的情況類似：一旦發(fā)布了假新聞，用戶就像蒼蠅一樣被吸引，推薦算法“學會了”向更多人推薦這種內(nèi)容。 Danah Boyd論證了，這些事件需要被視為安全問題，為機器學習應用提供的數(shù)據(jù)被故意的、惡意的進行污染，不是單獨算做是惡作劇或算法錯誤。

任何不斷訓練自己的機器學習系統(tǒng)在數(shù)據(jù)下毒面前都很脆弱。這些應用程序的范圍可以從客戶服務聊天機器人（你能想象一個呼叫中心機器人表現(xiàn)得像Tay那樣嗎？）到推薦引擎（可能制定房地產(chǎn)行業(yè)貸款屏蔽列表）甚至醫(yī)療診斷（修改推薦的藥物劑量）。為了防止數(shù)據(jù)中毒，您需要對訓練數(shù)據(jù)進行強有力的掌控。這樣的控制，就算不是不可能，也很難實現(xiàn)。提高搜索引擎排名的“黑帽搜索引擎優(yōu)化”也只能算是一個一般性的（并且仍然廣泛存在）數(shù)據(jù)中毒的例子。 Google無法控制傳入的數(shù)據(jù)，傳入的數(shù)據(jù)就是網(wǎng)絡上的所有內(nèi)容。他們唯一的辦法是不斷調(diào)整他們的搜索算法，讓濫用數(shù)據(jù)下毒者得到懲罰。類似地，機器人爬蟲和釣魚大軍操縱社交媒體，傳播反對派、疫苗接種、新納粹主義等各種觀點。

逃避監(jiān)控，簡單來說是對輸入數(shù)據(jù)進行微妙的改變，導致機器學習系統(tǒng)分類錯誤。再一次，我們在真實世界和實驗室都看到了這一點。 CV Dazzle使用化妝和發(fā)型作為“干擾面部識別技術的偽裝術?！逼渌芯宽椖勘砻?，通過改變圖像中的單個像素可以干擾圖像分類：船變成汽車，馬成為青蛙。或者，就像人類一樣，圖像分類器可能會錯誤的把不屬于某個上下文的物體識別出來，例如房間里的大象。認為計算機視覺系統(tǒng)以與人類相似的方式“理解”他們看到的東西是錯誤的。他們沒有意識到上下文信息，他們對“什么是正?！睕]有預期; 他們只是在進行高概率的模式匹配。研究人員報告了自然語言處理中的類似漏洞，其中以不會混淆人類研究人員的方式改變單詞甚至字母，導致機器學習誤解了整個短語。

雖然這些例子經(jīng)常是有趣的，但值得思考現(xiàn)實世界的一系列后果：有人可能會使用這些技巧來操控自動駕駛汽車的行為嗎？具體實現(xiàn)方式可能是這樣：我在一個停止標志上留下了一個標記 – 也許是在頂部貼上一片綠色不干膠便箋。這是否會使自動駕駛汽車認為停車標志是一個空中飛行的番茄，如果汽車這么認為了，那車會停下來嗎？這種對停車標志的改變并不一定要真實的使人類觀察者都覺得像番茄，它只需要將圖像改變得處于讓模型剛好傾向作出“番茄”判斷的邊緣。既沒有上下文，也沒有常識能讓機器學習意識到番茄不會出現(xiàn)在半空中。貨運無人機是否會因為誤解周圍環(huán)境而被操縱改變成一種武器？答案幾乎是肯定的。不要將這些例子視為只存在于學術中而不引起重視。在實驗室中改變了幾個像素的停止標志，可能與在狩獵季節(jié)用于目標練習的停止標志沒有什么不同。

模仿攻擊試圖欺騙模型誤識別某人或某物。目標通常是獲得無權訪問系統(tǒng)的授權。例如，攻擊者可能想欺騙銀行誤讀支票上的金額。從水杯，甚至高分辨率照片獲得的指紋可用于欺騙指紋認證系統(tǒng)。 South Park在一集中反復使用“Alexa”和“OK Google”字樣來釣魚Alexa和Google Home用戶，從而觸發(fā)觀眾的設備，這些設備無法區(qū)分節(jié)目聲音和真實聲音。下一代模仿攻擊將是“DeepFake”視頻，讓真實存在的人在視頻中閱讀某些指定的文字。

逆向工程意味著使用API 收集有關模型的信息，并使用該信息對其進行攻擊。逆向工程也可以意味著使用API 從模型中獲取私有信息，比如可能通過檢索數(shù)據(jù)并對其進行去匿名化進行信息獲取。在《秘密分享者：測量神經(jīng)網(wǎng)絡無意中的記憶并提取秘密》中，作者表明機器學習模型傾向于記住他們所有的訓練數(shù)據(jù)，并且可以從模型中提取受保護的信息。保護信息的常用方法不起作用; 該模型仍包含一些本該是秘密的可提取信息。差分隱私 – 以不改變其統(tǒng)計特性的方式將無關數(shù)據(jù)小心地插入數(shù)據(jù)集的做法，有一定前景，但成本很高。作者指出，訓練速度大幅度降低。此外，了解并能夠實現(xiàn)差分隱私的開發(fā)人員數(shù)量實在有限。

雖然這些聽起來像學術方面的顧慮，但事實并非如此：編寫腳本來探測機器學習應用并非難事。此外，Michael Veale等人寫道，逆向攻擊會引發(fā)法律問題。在GDPR下，如果受保護的數(shù)據(jù)被模型記住，那些模型是否受到與個人數(shù)據(jù)相同的監(jiān)管？在這種情況下，開發(fā)人員必須根據(jù)要求，從模型中，而不僅僅從訓練數(shù)據(jù)集中，刪除個人信息。銷售包含模型的產(chǎn)品將非常困難，甚至自動模型生成等技術也可能成為問題。同樣，作者指出差分隱私是一個方向，但謹慎地說，很少有公司具備正確部署具備差分隱私模型的專業(yè)知識。

其他漏洞與其他攻擊

這種漏洞的簡要分類并不能完整列出機器學習在該領域將面臨的所有其他問題。其中許多漏洞很容易被利用。您可以探索亞馬遜，了解您的產(chǎn)品和哪些產(chǎn)品被一起推薦，從而可能找出您真正的競爭對手，發(fā)現(xiàn)值得攻擊的對象。您甚至可以利用亞馬遜推薦引擎系統(tǒng)工作的方式進行逆向工程，進而使用這些知識來影響系統(tǒng)作出的推薦。

在該領域已經(jīng)觀察到了更復雜的攻擊。其中一種攻擊，涉及到在亞馬遜賣家的網(wǎng)站上放置虛假評論，這樣一來當賣家刪除評論時，亞馬遜會因為賣家進行評論操縱從而封禁賣家。這是對機器學習的攻擊嗎？攻擊者欺騙人類受害者去觸犯亞馬遜的規(guī)則。但最終，機器學習系統(tǒng)被欺騙了，它采取了本可能避免的不正確行動（封禁受害者）。

“谷歌保齡球”意味著創(chuàng)建大量鏈接到競爭對手的網(wǎng)站，希望谷歌的排名算法將懲罰競爭對手購買批量鏈接。它與“虛假評價”攻擊相似，只是它不需要人工中介 —— 它是一種對分析入站鏈接算法的直接攻擊。

廣告是最早采用機器學習的行業(yè)之一，也是最早的受害者之一。點擊欺詐業(yè)已失控，機器學習社區(qū)不愿談論（或不知道）這個問題 – 即便是這樣，隨著在線廣告越來越依賴于機器學習，欺詐者將學習如何直接攻擊模型，使他們試探性的攻擊顯得合法。如果點擊數(shù)據(jù)不可靠，那么根據(jù)該數(shù)據(jù)構建的模型以及這些模型生成的任何結果或建議都是不可靠的。點擊欺詐和針對推薦系統(tǒng)、趨勢分析進行的許多攻擊本質上是相似的。一旦部署了“新聞造假”工具，通過一些自動點擊就可以輕松實現(xiàn)這一目標。然后，推薦引擎接管了數(shù)據(jù)處理，生成推薦結果，進而產(chǎn)生更多的點擊。任何自動化的事物都容易受到攻擊，自動化讓這些攻擊能夠大規(guī)模發(fā)生。

從汽車到無人機的各種自動駕駛工具的出現(xiàn)，又帶來了另一系列威脅。如果自動駕駛車輛上的機器學習系統(tǒng)容易受到攻擊，那么可以想象一輛汽車或卡車可以用作謀殺武器。無人機也是如此，無論是武器化的軍用無人機還是消費級無人機都是如此。軍方已經(jīng)知道無人機很脆弱了; 在2011年，伊朗捕獲了美國的無人機，可能是通過欺騙GPS信號做到的。我們預計會看到針對“智能”消費者健康設備和專業(yè)醫(yī)療設備的攻擊，其中的許多設備是我們已知“很脆弱”的。

采取行動

僅僅責備，或者僅僅思考攻擊可能發(fā)生的方向都無濟于事。可以采取哪些措施來保護機器學習模型呢？首先，我們可以從傳統(tǒng)軟件開始。不安全軟件的最大問題不是我們不了解安全性; 是軟件供應商和軟件用戶本身從不采取保護自己所需的基本步驟。在超級聰明的黑客面前，我們很容易感到手無寸鐵，但現(xiàn)實是，像Equifax這樣的網(wǎng)站成為受害者的原因，是因為他們沒有采取基本的預防措施，例如安裝軟件更新。那么，機器學習開發(fā)人員需要做什么？

安全審計是一個很好的起點。您需要保護哪些資產(chǎn)？它們在哪里，它們有多脆弱？誰有權訪問這些資源，誰實際需要訪問權限？如何最大限度地減少對關鍵數(shù)據(jù)的訪問？例如，運輸系統(tǒng)需要客戶地址，但不需要信用卡信息; 支付系統(tǒng)需要信用卡信息，但不需要完整的購買歷史記錄。這些數(shù)據(jù)可以在單獨的隔離數(shù)據(jù)庫中存儲和管理嗎？除此之外，還有基本的保障措施能用嗎（比如2FA，雙因素身份驗證）把Equifax出錯歸咎于不更新軟件是很容易的，但幾乎所有軟件系統(tǒng)都依賴于數(shù)百甚至數(shù)千個外部數(shù)據(jù)庫。您有什么策略來確保它們已更新，并且更新不會破壞正在運行的系統(tǒng)？

與傳統(tǒng)軟件一樣，機器學習系統(tǒng)應使用監(jiān)控系統(tǒng)生成警報，以便在發(fā)生異?；蚩梢墒录r通知員工。其中一些監(jiān)控系統(tǒng)已經(jīng)使用機器學習進行異常檢測 – 這意味著監(jiān)控軟件本身可能受到攻擊。

滲透測試是互聯(lián)網(wǎng)領域的常見做法：您的安全人員（或高級一些，安全顧問人員）會攻擊您的站點以發(fā)現(xiàn)其漏洞。攻擊模擬是滲透測試的擴展，向您展示“攻擊者如何針對您公司實現(xiàn)攻擊目標。” 他們在尋找什么？他們怎么做到的？您是否可以通過輸入下毒的數(shù)據(jù)來控制系統(tǒng)？

通過生成“對抗性圖像”來測試計算機視覺系統(tǒng)的工具已經(jīng)出現(xiàn)，例如Cleverhans和IBM的ART。我們開始看到描述針對語音識別系統(tǒng)的對抗性攻擊的論文。對抗性輸入是某種更普遍問題的一個特例。大多數(shù)機器學習開發(fā)人員認為他們的訓練數(shù)據(jù)與他們的系統(tǒng)在現(xiàn)實世界中將面臨的數(shù)據(jù)類似。這是一個過渡理想化的最佳案例。如果您的所有面部都光線充足，聚焦良好且膚色較淺的個體，則可以輕松構建面部識別系統(tǒng)。工作系統(tǒng)需要處理各種圖像，包括模糊，聚焦不良，光線不足的圖像，以及具有深色皮膚的個體。

安全驗證是人工智能研究的一個新領域，仍處于起步階段。安全驗證會詢問諸如模型是否可以提供一致結果，或者輸入中的微小變化是否會導致輸出的大幅變化等問題。如果機器學習完全像傳統(tǒng)軟件一樣，我們預計攻擊者和維護者之間的斗爭會不斷升級; 更好的防御將導致更復雜的攻擊，這將導致新一代的防御。我們永遠不可能說模型是“可驗證是安全的”。但重要的是要知道，模型已經(jīng)通過了測試，并且它對所有已知的攻擊都表現(xiàn)得意料之中的可靠。

模型可解釋性已成為機器學習研究的重要領域。理解為什么模型做出特定的決策是很重要的，原因有幾個，其中最重要的是它使人們在使用機器學習時心理上覺得舒適。當然，這種“舒適”可能具有欺騙性。但是能夠探尋模型做出特定決定的原因，可以使人更容易看出它們何時受到了損害。在開發(fā)過程中，可解釋性可以測試對抗樣本愚弄模型的容易程度，不管是圖像分類模型還是信用評分應用中使用的模型。除了知道模型輸出外，可解釋性還會告訴我們原因，并幫助我們構建更強大，更不容易受操縱的模型，理解模型作出決策的原因應該有助于我們理解其局限性和弱點。同時，可以想象，可解釋性將使發(fā)現(xiàn)弱點和攻擊方向變得更容易。如果要向流入模型的數(shù)據(jù)下毒，它只能幫助了解模型如何對數(shù)據(jù)做出響應。

在“機器學習中的深度自動化”一文中我們討論了數(shù)據(jù)血緣關系和溯源的重要性，以及跟蹤它們的工具。無論您是否自己開發(fā)模型，數(shù)據(jù)血緣關系和源頭出處都很重要。雖然有許多云平臺可以自動進行模型構建甚至部署，但最終您的公司要對模型行為負責。這種責任的負面影響包括從降低利潤到法律責任的一切。如果您不知道數(shù)據(jù)來自何處以及如何修改數(shù)據(jù)，您也就無從得知您的數(shù)據(jù)是否已損壞或者被污染 —— 不管這是由意外還是由惡意行為引起的。

“數(shù)據(jù)集的數(shù)據(jù)表”提出了一組關于數(shù)據(jù)集來源，數(shù)據(jù)收集方式，采樣偏差和其他基本信息的標準問題。給定記錄數(shù)據(jù)集屬性的規(guī)范，應該很容易測試和檢測突發(fā)和意外的數(shù)據(jù)更改。如果攻擊者破壞了您的數(shù)據(jù)，您應該能夠檢測到并預先糾正它; 如果沒有預見到這一點，那么稍后應該在審計中進行糾正。

制定這樣的數(shù)據(jù)表是一個良好的開端，但僅此而已。我們用于跟蹤數(shù)據(jù)血緣關系和數(shù)據(jù)來源出處的任何工具都需要自動化。如果依賴于手動跟蹤和審計，模型和數(shù)據(jù)集的數(shù)量就會多到無法處理。

在保持開放性和消除對抗攻擊影響間找到平衡點

在某些領域，用戶和監(jiān)管機構將越來越傾向于使用那些“能夠為如何制定自動化決策和建議提供簡單解釋”的機器學習服務和產(chǎn)品。但我們已經(jīng)看到，過多的信息可能導致某些多方博弈模式出現(xiàn)（如SEO領域中的情況）。披露多少信息取決于具體的應用，行業(yè)領域和管轄范圍。

這種平衡行為開始出現(xiàn)在機器學習和相關領域，這些領域涉及研究人員的工作（他們傾向于將工作開源），他們面對的是攻擊未公開漏洞的那些對手。是否要“暫時保密”研究結果的爭議是數(shù)字媒體取證領域一直在討論的問題。在2018年的一篇文章中Hany Farid指出：“除非有必要提倡向每個人推廣一項解決方案，如果某個特定項目沒有學生參與的話，我會把新技術暫停一年左右發(fā)表。這種策略總能讓我在我們的對手不知情的情況下，進行一些分析?！?/p>

隱私和安全正在合流

開發(fā)人員還需要了解和使用保護隱私的機器學習技術，例如差分隱私，同態(tài)加密，安全多方計算和聯(lián)合學習。差分隱私是少數(shù)幾種保護用戶數(shù)據(jù)“逆向運行”模型并從中提取私有數(shù)據(jù)的技術之一。同態(tài)加密允許系統(tǒng)直接對加密數(shù)據(jù)進行計算，而無需解密。聯(lián)合學習允許單個節(jié)點計算模型的一部分，然后將它們的部分發(fā)送回來組合以構建完整的模型; 不必轉移個人用戶的數(shù)據(jù)。 Google 已經(jīng)在使用聯(lián)合學習來改善Android用戶輸入法補全建議。然而，這些技術中的一些是緩慢的（在某些情況下，非常慢），并且需要大多數(shù)公司沒有的專業(yè)知識。而且您經(jīng)常需要結合使用這些技術來實現(xiàn)隱私。可以想象，未來的自動化模型構建工具將結合這些技術，最大限度地減少對局部專業(yè)知識的需求。

實時數(shù)據(jù)

機器學習應用越來越多地與實時數(shù)據(jù)交互，使構建安全可靠系統(tǒng)的任務變得復雜。像排序引擎這樣簡單的應用必須在用戶做出新選擇時不斷更新。一些公司正在引入包含實時用戶行為的個性化和推薦模型。圍繞虛假信息的戰(zhàn)役是實時發(fā)生的，因此檢測虛假信息需要能動態(tài)更新的知識庫，檢測模型和緩解問題的模型也要進行實時更新。創(chuàng)建和傳播虛假信息的不良行為者不斷變得越來越復雜，使這些信息更難以檢測，基于文本的內(nèi)容尤為如此。自動文本生成的最新發(fā)展意味著“假新聞”的創(chuàng)建可以自動化。機器學習可以檢測潛在的錯誤信息，但是目前，人們需要驗證和拒絕錯誤的信息。機器學習可以幫助人類，向人類提供支持，但人類本身必須存在于數(shù)據(jù)管線循環(huán)中。

強化學習的應用經(jīng)常與實時數(shù)據(jù)相互作用，研究人員非常清楚需要構建安全可靠的強化學習應用。對于像自動駕駛這樣的應用，只要出現(xiàn)故障就是災難性的；而與此同時，失效樣本的匱乏使得有效訓練系統(tǒng)變得更加困難。

組織和文化

在傳統(tǒng)的軟件開發(fā)中，我們終于了解到安全專家必須從一開始就成為開發(fā)團隊的一員。安全需要成為組織文化的一部分。機器學習也是如此：從一開始，合并安全專家和領域專家就很重要，他們了解系統(tǒng)可能會被濫用的方式。正如Facebook前任首席安全官Alex Stamos所說，“當你做出重大的設計決策時，[為安全性]負責是必要的?！睓C器學習項目的每個階段都必須考慮安全性：初始設計，構建數(shù)據(jù)管線，收集數(shù)據(jù)，創(chuàng)建模型和部署系統(tǒng)。不幸的是，正如Stamos指出的那樣，實際上很少有團隊以這種方式搭建。

結論

無論公司們相信什么，大多數(shù)公司都處于采納機器學習的早期階段。具有與谷歌，F(xiàn)acebook，亞馬遜或微軟相當能力的公司寥寥無幾; 在這一點上，大多數(shù)人仍在做一些早期的實驗和概念證明。思想和努力還沒被投入進安全性的領域。也許那也是公平的：僅僅是一個產(chǎn)品演示，需要安全嗎？

也許并不需要，但這個問題值得我們仔細思考歷史。安全性是一個局部性問題，因為現(xiàn)代計算機網(wǎng)絡的發(fā)明者認為沒有必要考慮。他們曾經(jīng)建立了ARPAnet：一個永遠不會超過幾百個站點的學術研究網(wǎng)絡。沒有人預料到公共互聯(lián)網(wǎng)的產(chǎn)生。然而，即使在互聯(lián)網(wǎng)的原型上，我們在80年代就有了莫里斯蠕蟲，并在70年代就存在垃圾郵件。我們對任何技術所做的一件事就是濫用它。基于忽視濫用技術這一現(xiàn)實，我們進入了一場永無止境的競賽：不可能贏，不可能退出，卻容易成為輸家。

即使我們?yōu)樵缙诨ヂ?lián)網(wǎng)的問題網(wǎng)開一面，毫無疑問的是，我們已經(jīng)生活在一個“安全問題至關重要”的世界里。毫無疑問，機器學習的應用會經(jīng)常在人們不知情或不同意的情況下接觸（實際上是侵入）他們的生活。是時候高度重視機器學習的安全性了。

我們相信對機器學習系統(tǒng)的攻擊將變得更加頻繁和復雜。這就是安全博弈的本質：在一場復雜程度不斷增加的博弈中，攻擊會被防御反擊，反過來又被更復雜的攻擊所抵消。我們已經(jīng)列出了幾種攻擊，但請記住，我們還處于早期階段。我們的例子并非詳盡無遺，當然還有許多漏洞尚無人想到。這些漏洞將不可避免地被發(fā)現(xiàn); 網(wǎng)絡犯罪是一項相當有利可圖的國際業(yè)務，壞人甚至包括政府組織。

與此同時，賭注越來越高。我們只是開始為高度脆弱的網(wǎng)絡設備，比如物聯(lián)網(wǎng)（IoT）付出代價。雖然安全社區(qū)已經(jīng)意識到這些問題，但很少有跡象表明設備制造商正在解決這些問題。物聯(lián)網(wǎng)設備變得越來越強大，5G網(wǎng)絡有望將高帶寬，低延遲連接擴展到網(wǎng)絡邊緣。我們已經(jīng)在手機中使用機器學習; 機器學習會延伸到嵌入我們墻壁中的那些接近于微處理器的芯片嗎？已有語音活動探測器可以僅依靠微瓦級別的功耗運行; 正如Twitter上的某些人所指出的，未來一代產(chǎn)品很可能僅依靠聲波產(chǎn)生的能量就能運行。而且已經(jīng)有智能麥克風，我們極少懷疑它們。在這種規(guī)模上部署不安全的“智能設備”并不是一場一觸即發(fā)的災難，這是一場已經(jīng)發(fā)生的災難。

我們從機器學習中獲得了很多收益，我們將繼續(xù)把它壓榨到極限從中獲取價值; 但如果沒有解決安全問題，我們將不得不承擔后果。軟件行業(yè)已經(jīng)非常清楚地證明了，當你不注意安全性時會發(fā)生什么。隨著機器學習滲透到我們的生活中，代價將無可避免地變得更高。

相關資源：

“機器學習中的深度自動化”
“管理機器學習中的風險”
Siwei Lyu談“虛假媒體信息興起帶來的技術，社會和文化挑戰(zhàn)”
Andrew Burt關于“機器學習如何影響信息安全”
“將機器學習模型轉化為真實的產(chǎn)品和服務時所獲得的經(jīng)驗教訓”
“機器學習對軟件開發(fā)而言意味著什么”
“為未來的AI應用構建工具”
“什么是機器學習工程師？”

Ben Lorica

Ben Lorica是O’Reilly Media公司的首席數(shù)據(jù)科學家，同時也是Strata數(shù)據(jù)會議和O’Reilly人工智能會議的內(nèi)容日程主管。他曾在多種場景下應用商業(yè)智能、數(shù)據(jù)挖掘、機器學習和統(tǒng)計分析技術，這些場景包括直銷、消費者與市場研究、定向廣告、文本挖掘和金融工程。他的背景包括在投資管理公司、互聯(lián)網(wǎng)初創(chuàng)企業(yè)和金融服務公司就職。

Mike Loukides

Mike Loukides是O’Reilly傳媒負責內(nèi)容策略的副總裁。他編輯了很多非Windows編程的廣受好評的技術書籍。特別是他對編程語言、Unix和其上的應用、系統(tǒng)和網(wǎng)絡管理感興趣。Mike是《系統(tǒng)性能調(diào)優(yōu)》和《Unix上的強大工具》的作者之一。近年來，關注于數(shù)據(jù)和數(shù)據(jù)分析領域、分析語言（如R）、數(shù)學、Octave以及思考如何讓書籍更加社交化。

This article originally appeared in English: "You created a machine learning application. Now make sure it’s secure".