在這篇文章中,我分享了在2018年3月進(jìn)行的加利福尼亞州Strata數(shù)據(jù)會議上所發(fā)表演講,提供了和“公司如何在數(shù)據(jù)隱私變得關(guān)鍵的時代如何搭建數(shù)據(jù)分析產(chǎn)品”相關(guān)的幻燈片和筆記,它提供了一些建議。自從我發(fā)表演講以來,很多事情已經(jīng)發(fā)生了變化:有關(guān)Facebook的隱私政策的文章很多,其首席執(zhí)行官在美國國會面前作證兩次,而且我已經(jīng)停用了我基本處于休眠狀態(tài)的Facebook帳戶。 最終的結(jié)果是,人們對數(shù)據(jù)隱私的認(rèn)知極大的提高,并承認(rèn),這個問題的影響范圍遠(yuǎn)遠(yuǎn)超出了少數(shù)公司或少數(shù)人。
首先,我從列出一些有關(guān)數(shù)據(jù)隱私的觀察開始闡述這個話題:
- 我們傾向于在安全漏洞的語境下討論數(shù)據(jù)隱私,但在許多情況下隱私侵權(quán)涉及被授予數(shù)據(jù)訪問權(quán)限的人。
- 我們的連接設(shè)備越來越多,這意味著我們最敏感的數(shù)據(jù)正在被收集和販賣,參見智能家居的這篇文章。
- 實(shí)際上世界各地的監(jiān)管機(jī)構(gòu)正以不同的方式解決數(shù)據(jù)隱私問題。更進(jìn)一步地,許多公司在歐盟開展業(yè)務(wù),出臺的通用數(shù)據(jù)保護(hù)法規(guī)( GDPR )將就“如何搭建和設(shè)計數(shù)據(jù)服務(wù)和產(chǎn)品”這一點(diǎn)上對全球的機(jī)構(gòu)造成影響。
這讓我想到了本演講的主題:在數(shù)據(jù)隱私成為了一個重要問題的時代,我們該如何搭建分析服務(wù)和產(chǎn)品? 對數(shù)據(jù)平臺進(jìn)行架構(gòu)設(shè)計和搭建,是我們許多人所關(guān)注的核心問題。 我們早就認(rèn)識到數(shù)據(jù)安全和數(shù)據(jù)隱私是我們數(shù)據(jù)平臺所必需的功能,但我們?nèi)绾螌Ψ治鲞M(jìn)行限制?

一旦我們安全地獲取數(shù)據(jù)到本地,我們接下來會以兩種主要方式繼續(xù)使用它:(1)做出更好的決策(商業(yè)智能)和(2)以實(shí)現(xiàn)某種形式的自動化(機(jī)器學(xué)習(xí))。 事實(shí)證明,有一些新工具可用于構(gòu)建能夠保護(hù)隱私的數(shù)據(jù)分析產(chǎn)品。 讓我們快速概覽一下您今天可能要嘗試的一些東西。
商業(yè)智能和分析
對于大多數(shù)公司而言, 商業(yè)智能意味著SQL數(shù)據(jù)庫。 你可以在保護(hù)隱私的同時運(yùn)行SQL查詢嗎? 已經(jīng)存在使用硬件孤島在敏感數(shù)據(jù)上進(jìn)行商業(yè)智能決策的系統(tǒng),并且有一些原型系統(tǒng),允許您查詢或使用加密數(shù)據(jù) (一位朋友最近向我展示了HElib,一種同態(tài)加密的開源、快速的實(shí)現(xiàn) )。 讓我來介紹優(yōu)步與加州大學(xué)伯克利分校RISE實(shí)驗(yàn)室最近的合作成果。

他們對在優(yōu)步執(zhí)行的數(shù)百萬個SQL查詢的聯(lián)合分析導(dǎo)致了一個系統(tǒng)的產(chǎn)生,該系統(tǒng)允許分析師提交查詢,在滿足最新差分隱私要求的條件下獲得結(jié)果 (差分隱私形式化地保證了能夠提供穩(wěn)健的隱私保障)。 正如我上面提到的, 隱私侵犯可能涉及被授予訪問數(shù)據(jù)權(quán)限的人。 這個新的優(yōu)步/ RISE實(shí)驗(yàn)室系統(tǒng)意味著,分析師可以被授予訪問數(shù)據(jù)庫的權(quán)限,以進(jìn)行基于SQL查詢的標(biāo)準(zhǔn)分析,同時維持了數(shù)據(jù)隱私。 他們的系統(tǒng)是開源的,可以與任何SQL數(shù)據(jù)庫一起使用,并且它已經(jīng)在Uber的試驗(yàn)性部署中開始被使用了(參見論文和代碼)。
這將針對那些依賴SQL數(shù)據(jù)庫做出的報告來保護(hù)商業(yè)智能。不過,有可能構(gòu)建一個既能保護(hù)隱私,又能收集數(shù)百萬用戶的實(shí)時數(shù)據(jù)的系統(tǒng)嗎? 回答是肯定的:在最近Apple和Google的發(fā)布中,詳細(xì)描述了如何設(shè)計分析工具,以幫助他們理解“用戶如何和設(shè)備進(jìn)行交互”。例如,Apple和Google的分析師可以運(yùn)行查詢,以幫助他們收集輸入法的統(tǒng)計信息,以及瀏覽器上的行為。

蘋果在一篇非常詳盡的博客文章中描述了他們的系統(tǒng):
我們的系統(tǒng)的設(shè)計是,“可以選擇性加入”以及“透明”。 在用戶明確選擇上報使用信息之前,不會對數(shù)據(jù)進(jìn)行任何記錄或傳輸任何數(shù)據(jù)。 在用戶的設(shè)備上,數(shù)據(jù)是使用本地模型中的事件級差分隱私進(jìn)行了隱私保護(hù)的。這里的事件,舉例來說,可能是用戶鍵入的emoji表情符號。 此外,我們限制每個用例傳輸?shù)乃接谢录臄?shù)量。 到服務(wù)器的傳輸每天在加密通道上進(jìn)行一次,沒有設(shè)備標(biāo)識符。 記錄到達(dá)限制訪問服務(wù)器,其中IP標(biāo)識符立即被丟棄,并且多個記錄之間的任何關(guān)聯(lián)也被丟棄。 此時,我們無法區(qū)分,例如,表情符號記錄和Safari Web域記錄是否來自同一用戶。 處理記錄以計算統(tǒng)計數(shù)據(jù)。 然后,這些匯總統(tǒng)計信息將在內(nèi)部與Apple的相關(guān)團(tuán)隊共享。
微軟等其他公司正在開發(fā)涉及其他智能設(shè)備的類似系統(tǒng)?。
機(jī)器學(xué)習(xí)
對于機(jī)器學(xué)習(xí)而言,讓我先聚焦于最近涉及深度學(xué)習(xí)的工作(目前最熱門的機(jī)器學(xué)習(xí)方法)。 2015年德克薩斯大學(xué)和康奈爾大學(xué)的研究人員表明,人們可以“設(shè)計、實(shí)施和評估一個實(shí)用系統(tǒng),使多方能夠共同學(xué)習(xí)一個給定目標(biāo)的準(zhǔn)確的神經(jīng)網(wǎng)絡(luò)模型,而無需共享他們的輸入數(shù)據(jù)集?!?span id="ws0oaigkoc" class="Apple-converted-space">? 一種潛在的應(yīng)用是,一些醫(yī)療機(jī)構(gòu)在無需向機(jī)構(gòu)外部人員共享數(shù)據(jù)的條件下,希望構(gòu)建、學(xué)習(xí)一個更加準(zhǔn)確的聯(lián)合模型。

2016年,Google采用了這種“共享模型”概念,并將其擴(kuò)展到邊緣設(shè)備! 他們將其用于設(shè)備上的智能回復(fù)和他們的移動端視覺識別接口等產(chǎn)品。這個新產(chǎn)品被他們稱之為“聯(lián)合學(xué)習(xí)”,能夠?qū)⒂?xùn)練數(shù)據(jù)分發(fā)到移動設(shè)備上,再把本地計算的更新進(jìn)行匯總,學(xué)習(xí)一個共享模型。

前兩個例子涉及學(xué)習(xí)一個共享的(單)模型,而不共享數(shù)據(jù)。 在某些情況下,您可能需要高度個性化的模型,或者您可能天然擁有(人口學(xué)/使用上的)你的用戶群體,這個群體可以從專門調(diào)整過的模型中受益。 這些情景是斯坦福大學(xué)、CMU和南加州大學(xué)研究人員近期工作的重點(diǎn):他們使用多任務(wù)學(xué)習(xí)的思想來訓(xùn)練個性化的深度學(xué)習(xí)模型。 在多任務(wù)學(xué)習(xí)中,目標(biāo)是考慮同時擬合獨(dú)立而相關(guān)的模型。

結(jié)束語:一些思考
我主要想傳達(dá)的信息是,無論是對于商業(yè)智能而言,還是對于機(jī)器學(xué)習(xí)而言保護(hù)隱私的分析是非常可能實(shí)現(xiàn)的,也您今天應(yīng)該考慮做的一件事之一 。這不僅是為您的用戶做的正確的事情,隨著GDPR上線隱私成為您的數(shù)據(jù)產(chǎn)品中所必需要包含的東西:
從本質(zhì)上講, 隱私設(shè)計要求在系統(tǒng)設(shè)計開始時具備數(shù)據(jù)保護(hù)能力,而非作為一個可添加的模塊。
最后一件要強(qiáng)調(diào)的是:我非常關(guān)注的兩個技術(shù)趨勢是自動化(AI)和去中心化(區(qū)塊鏈,密碼學(xué),等等)。 有些人積極地致力于重建關(guān)鍵服務(wù) —— 身份管理,數(shù)據(jù)存儲,支付,數(shù)據(jù)交換,社交媒體 ——? 以及將它們從中心化的系統(tǒng)中移除。 我相信,數(shù)據(jù)科學(xué)和大數(shù)據(jù)社區(qū)能夠居其位謀其政,為自動化和去中心化兩個方面同時做出貢獻(xiàn)。 我們的社區(qū)花了數(shù)年時間致力于將重要的組件推向生產(chǎn)環(huán)境,這些組件包括機(jī)器學(xué)習(xí)和分布式系統(tǒng),它們將繼續(xù)作為未來平臺的核心而存在。
相關(guān)內(nèi)容
- “我們需要建立機(jī)器學(xué)習(xí)工具來強(qiáng)化機(jī)器學(xué)習(xí)工程師的能力”
- “人工智能的倫理”
- 您的數(shù)據(jù)正在被操縱:danah boyd探討了系統(tǒng)如何被游戲化,數(shù)據(jù)是多么脆弱易受攻擊,以及我們需要做些什么來構(gòu)建技術(shù)抗體
- “現(xiàn)在是時候在晚餐桌上進(jìn)行關(guān)于數(shù)據(jù)倫理的討論了”
- 受數(shù)據(jù)困擾:Maciej Ceglowski提出了能夠采納可執(zhí)行的數(shù)據(jù)存儲上限的場景。
Ben Lorica
Ben Lorica是O’Reilly Media的首席數(shù)據(jù)科學(xué)家和數(shù)據(jù)主題內(nèi)容策略的主管。他已經(jīng)在多個領(lǐng)域里(包括直銷市場、消費(fèi)者和市場研究、精準(zhǔn)廣告、文本挖掘和金融工程)進(jìn)行了商業(yè)智能、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和統(tǒng)計分析的工作。他之前曾效力于投資管理公司、互聯(lián)網(wǎng)創(chuàng)業(yè)企業(yè)和金融服務(wù)公司。

