在勞倫斯伯克利國(guó)家實(shí)驗(yàn)室的超級(jí)計(jì)算中心,我領(lǐng)導(dǎo)國(guó)家能源研究科學(xué)計(jì)算中心(NERSC)的數(shù)據(jù)和分析小組。在這個(gè)角色上,我追蹤需要大數(shù)據(jù)分析來(lái)解決的前沿科學(xué)問(wèn)題。超過(guò)6000個(gè)用戶使用了NERSC的超級(jí)計(jì)算平臺(tái)來(lái)解決各類(lèi)科學(xué)問(wèn)題,從天文學(xué)到有機(jī)生物學(xué),從分子一直到亞原子物理。典型的數(shù)據(jù)集從十萬(wàn)兆字節(jié)到帕字節(jié)不等。
盡管NERSC已經(jīng)有先進(jìn)的計(jì)算和存儲(chǔ)資源可以處理復(fù)雜邏輯,但是真正的挑戰(zhàn)是在于選擇可擴(kuò)展的分析方法和軟件框架。在本文中,我的科研合作者和我評(píng)論了在科學(xué)數(shù)據(jù)分析中最難的一些問(wèn)題,希望能夠邀請(qǐng)更多的數(shù)據(jù)科學(xué)社區(qū)參加到正在發(fā)展中的的科學(xué)研究工作中。
問(wèn)題一:為宇宙中所有的天體創(chuàng)建目錄

智利帕拉納爾天文臺(tái)所與銀河系,這是世界上最先進(jìn)的地面天文觀測(cè)站 來(lái)源:歐洲南方天文臺(tái)/約翰·科洛西莫,F(xiàn)lickr
每一天,世界各地的天文望遠(yuǎn)鏡都在進(jìn)行“巡天”以收集圖像數(shù)據(jù)集。這些數(shù)據(jù)集包含關(guān)于大量恒星、星系和類(lèi)星體等宇宙天體的位置和結(jié)構(gòu)的有價(jià)值信息。不幸的是,這些數(shù)據(jù)集不便于科學(xué)家們進(jìn)行訪問(wèn)或者共享。
由勞倫斯伯克利國(guó)家實(shí)驗(yàn)室的天體物理學(xué)家、統(tǒng)計(jì)學(xué)家和計(jì)算機(jī)科學(xué)家組成的團(tuán)隊(duì)為了尋求這一他們認(rèn)為科學(xué)界最大的圖模型問(wèn)題的解決方案,正在開(kāi)發(fā)一個(gè)全新的、完全可生成的宇宙模型,稱為“塞萊斯”(Celeste)。通過(guò)對(duì)龐大的圖形模型使用復(fù)雜的變分推理(一個(gè)高可擴(kuò)展的算法)以及分布式蒙特卡洛馬爾科夫鏈推理(MCMC-Markov Chain Monte Carlo),塞萊斯項(xiàng)目旨在為所有在可見(jiàn)宇宙中的天體創(chuàng)建統(tǒng)一的目錄。這意味著從500萬(wàn)億字節(jié)的圖像數(shù)據(jù)或是約一萬(wàn)億像素?cái)?shù)據(jù)中推理O(1000億)數(shù)量級(jí)的參數(shù)。
主要合作者:大衛(wèi)·施萊格爾(David Schlegel,勞倫斯伯克利國(guó)家實(shí)驗(yàn)室),喬恩?麥考利夫(Jon McAuliffe,加州大學(xué)伯克利分校),以瑞恩·亞當(dāng)斯(Ryan Adams,哈佛大學(xué))
問(wèn)題二:確定宇宙學(xué)的基本常量

由NyX code產(chǎn)生的宇宙模擬,用來(lái)在大規(guī)模并行計(jì)算器上進(jìn)行大規(guī)模宇宙學(xué)模擬 來(lái)源:由普拉伯特(Prabhat)和博倫·洛林(Burlen Loring)完成的數(shù)據(jù)可視化,勞倫斯伯克利國(guó)家實(shí)驗(yàn)室,經(jīng)許可使用
如今宇宙中的物質(zhì)結(jié)構(gòu)自從宇宙大爆炸開(kāi)始便受到將物質(zhì)牽引到一起的重力的引力作用以及暗物質(zhì)的“負(fù)壓力”膨脹的影響。為了理解宇宙的組成(例如,那里有多少物質(zhì),以及暗物質(zhì)是由什么組成的),宇宙學(xué)家研究了從天文調(diào)查中得出的星系分布。隨后,他們的觀察結(jié)果與涉及幾萬(wàn)億粒子的理論模擬的預(yù)測(cè)結(jié)果進(jìn)行了比較。但是,這里就有一個(gè)分析問(wèn)題:由于數(shù)據(jù)集的大小從30到300萬(wàn)億字節(jié)不等,用于特征化物質(zhì)結(jié)構(gòu)的統(tǒng)計(jì)數(shù)據(jù)計(jì)算起來(lái)太過(guò)密集,他們包含了星系的集群、2度關(guān)聯(lián)計(jì)算以及3度關(guān)聯(lián)計(jì)算。
最近我們開(kāi)發(fā)了BD-CATS系統(tǒng),這是一個(gè)數(shù)據(jù)集群算法DBSCAN的高可擴(kuò)展版本,它可以在超級(jí)計(jì)算平臺(tái)上完整聚集數(shù)萬(wàn)億粒子數(shù)據(jù)集。BD-CATS正在幫助理解在等離子物理(關(guān)于帶電粒子和流體與電場(chǎng)和磁場(chǎng)相互作用的研究)中粒子加速背后的機(jī)制,并在宇宙學(xué)的數(shù)據(jù)聚合能力方面呈現(xiàn)出優(yōu)越的性能。
主要合作者:黛比·巴德(Debbie Bard,勞倫斯伯克利國(guó)家實(shí)驗(yàn)室),澤里亞·盧基奇(Zarija Lukic,勞倫斯伯克利國(guó)家實(shí)驗(yàn)室),莫斯托法·帕特瓦里(Mostofa Patwary,英特爾)
問(wèn)題三:特征化變化氣候中的極端天氣

CAM5 0.25度模擬中水蒸氣的可視化圖形 來(lái)源:由普拉伯特(Prabhat)和邁克爾·魏納(Michael Wehner)完成的數(shù)據(jù)可視化,勞倫斯伯克利國(guó)家實(shí)驗(yàn)室,經(jīng)許可使用
氣候變化問(wèn)題是人類(lèi)最為緊迫的問(wèn)題之一。在NERSC,我們對(duì)于研究未來(lái)全球變暖會(huì)如何影響氣候的各種方式均深感興趣(遠(yuǎn)遠(yuǎn)不止是平均海平面上升和全球平均溫度上升)。我們還感興趣的是,在極端天氣事件的統(tǒng)計(jì)數(shù)據(jù)中檢測(cè)是否將會(huì)有氣候變化。比如颶風(fēng),在未來(lái)我們認(rèn)為颶風(fēng)會(huì)變得更弱還是更強(qiáng)?我們認(rèn)為四級(jí)和五級(jí)颶風(fēng)會(huì)更頻繁的登陸嗎?天氣數(shù)據(jù)分析中的一個(gè)很大的挑戰(zhàn)性問(wèn)題是涉及到因果推理:我們是否可以識(shí)別異常事件并將它們和一些機(jī)制建立因果關(guān)系?這些機(jī)制在未來(lái)會(huì)怎樣變化?
通過(guò)分析大量數(shù)據(jù)集來(lái)識(shí)別極端天氣模式與視頻數(shù)據(jù)中的語(yǔ)音檢測(cè)相類(lèi)似,我們不僅需要處理一百萬(wàn)個(gè)網(wǎng)格點(diǎn),每個(gè)點(diǎn)又有一大堆變量。解決這樣的挑戰(zhàn)需要我們開(kāi)發(fā)出高可擴(kuò)展的模式識(shí)別能力,讓我們可以挖掘100萬(wàn)億字節(jié)到1帕字節(jié)的大規(guī)模時(shí)空數(shù)據(jù)集。我們已經(jīng)成功應(yīng)用了MapReduce框架(在極端天氣分析工具包(Toolkit for Extreme Climate Analysis)中實(shí)現(xiàn)),并且正在積極探索使用深度學(xué)習(xí)來(lái)解決這一問(wèn)題。
主要合作者:普拉伯特(Prabhat,勞倫斯伯克利國(guó)家實(shí)驗(yàn)室),邁克爾·魏納(Michael Wehner,勞倫斯伯克利國(guó)家實(shí)驗(yàn)室),威廉·德魯·科林斯(William D. Collins,勞倫斯伯克利國(guó)家實(shí)驗(yàn)室)
問(wèn)題四:從科學(xué)文獻(xiàn)中抽取知識(shí)

位于紐約約克高地的沃森系統(tǒng),由IBM公司開(kāi)發(fā)來(lái)源:由Clockready提供于公共維基多媒體
在互聯(lián)網(wǎng)的時(shí)代,對(duì)于我們來(lái)說(shuō)在一瞬間發(fā)布、交流以及共享結(jié)果變得十分平凡。然而,對(duì)海量信息的便捷訪問(wèn)帶來(lái)了獨(dú)有的問(wèn)題:對(duì)于個(gè)人而言,對(duì)在一般科學(xué)以及特定主題的最新進(jìn)展進(jìn)行追蹤變得難以管理。此外,所有的信息來(lái)源并不是同等可信的,我們需要在得出重要的結(jié)論之前考慮的信息的數(shù)量和質(zhì)量。最后,科學(xué)界迫切需要對(duì)科學(xué)文獻(xiàn)進(jìn)行自動(dòng)整理、挖掘和質(zhì)量評(píng)估。
與這個(gè)問(wèn)題關(guān)聯(lián)的數(shù)據(jù)分析的挑戰(zhàn)很大程度上與處理出版物中的非結(jié)構(gòu)化數(shù)據(jù)有關(guān)。比如說(shuō)文本、表格、圖表、圖像、原理圖、等式以及引用。每一個(gè)科學(xué)領(lǐng)域都有一個(gè)約定的分類(lèi)法,可能編寫(xiě)成文也可能沒(méi)有。因此,關(guān)鍵的挑戰(zhàn)是要從出版物中根據(jù)主題(比如說(shuō)疾病或者療法)抽取科學(xué)實(shí)體,以知識(shí)圖譜的形式建立實(shí)體之間的關(guān)系,并且基于多條線索為實(shí)體和關(guān)系進(jìn)行加權(quán)。最后,支持基于知識(shí)圖譜反饋的流利問(wèn)答功能,并要具有相當(dāng)置信度和關(guān)聯(lián)推理,這將對(duì)改進(jìn)更廣泛的科學(xué)界的生產(chǎn)力十分關(guān)鍵。許多有發(fā)展前景的技術(shù)眼下正在開(kāi)發(fā)之中:IBM 沃森系統(tǒng)慶祝了廣為人知的勝利,它在Jeopardy!(一個(gè)美國(guó)人機(jī)智能問(wèn)答)大賽中戰(zhàn)勝了人類(lèi)專家。而由斯坦福開(kāi)發(fā)的DeepDive數(shù)據(jù)管理系統(tǒng)在一些科學(xué)領(lǐng)域展示了令人期待的結(jié)果。未來(lái)隨著這些技術(shù)以及類(lèi)似技術(shù)的更多的定制化開(kāi)發(fā),征服更多的科學(xué)領(lǐng)域只是時(shí)間問(wèn)題。
主要合作者:亞當(dāng)·阿金(Adam Arkin,勞倫斯伯克利國(guó)家實(shí)驗(yàn)室),安納博阿夫·賈恩(Anubhav Jain,勞倫斯伯克利國(guó)家實(shí)驗(yàn)室),普拉伯特(Prabhat,勞倫斯伯克利國(guó)家實(shí)驗(yàn)室)
問(wèn)題五:研究關(guān)于語(yǔ)言生成的大腦皮層機(jī)制

DARPA的基于系統(tǒng)的神經(jīng)技術(shù)新興療法項(xiàng)目旨在通過(guò)開(kāi)發(fā)記錄和分析大腦活動(dòng)的近實(shí)時(shí)神經(jīng)模擬的療法來(lái)降低神經(jīng)性疾病的影響程度 來(lái)源:由馬薩諸塞州總醫(yī)院和德雷珀實(shí)驗(yàn)室在維基公共對(duì)媒體上提供
數(shù)十年間,人類(lèi)一直試圖理解人類(lèi)大腦的神經(jīng)活動(dòng)是如何看似毫不費(fèi)力地生成語(yǔ)音的。大腦的哪一部分功能性組織負(fù)責(zé)計(jì)算并生成語(yǔ)音?功能獨(dú)立的大腦區(qū)域是如何互相溝通來(lái)產(chǎn)生協(xié)調(diào)模式并進(jìn)而產(chǎn)生語(yǔ)音?從語(yǔ)言的組織到發(fā)音在大腦皮層上有哪些交互?在這個(gè)獨(dú)特的人類(lèi)能力上的深入理解對(duì)于語(yǔ)音修復(fù)學(xué)的發(fā)展的是十分重要的,語(yǔ)音修復(fù)學(xué)旨在為失去語(yǔ)音能力的人恢復(fù)該能力。
理解大腦皮層生成語(yǔ)音的過(guò)程要求記錄大面積皮質(zhì)上高時(shí)空分辨率的神經(jīng)活動(dòng)。記錄人類(lèi)的這一活動(dòng)只能通過(guò)侵入性腦電圖技術(shù)來(lái)完成,這使得數(shù)據(jù)非常稀有。我們最初的調(diào)查旨在將大腦活動(dòng)的時(shí)空模式“翻譯”成有意連續(xù)的語(yǔ)音。然而這些數(shù)據(jù)有長(zhǎng)時(shí)間的時(shí)間依賴性、大量的噪聲并且受到樣本數(shù)的限制。當(dāng)前的數(shù)據(jù)集大小約在10兆字節(jié)。此外,將來(lái)自多個(gè)發(fā)言人樣本的數(shù)據(jù)組合起來(lái)是具有挑戰(zhàn)性的,但是也是最后成功的關(guān)鍵所在。
我們使用深度神經(jīng)網(wǎng)絡(luò)在對(duì)感覺(jué)運(yùn)動(dòng)皮質(zhì)上的數(shù)據(jù)基于57個(gè)元音輔音音節(jié)的分類(lèi)上取得了最前沿的結(jié)果。此外,為了實(shí)現(xiàn)一個(gè)混合式連續(xù)分類(lèi)系統(tǒng),我們正在調(diào)研遞歸網(wǎng)絡(luò)。對(duì)于最終為人們開(kāi)發(fā)的發(fā)聲器來(lái)說(shuō),用于語(yǔ)音生成相關(guān)的神經(jīng)分析的計(jì)算組件必須是實(shí)時(shí)的且非常低能耗的。
主要合作者:克里斯·布沙爾(Kris Bouchard,勞倫斯伯克利國(guó)家實(shí)驗(yàn)室),愛(ài)德華·昌(Eddward Chang,加大舊金山分校),彼得·徳內(nèi)斯(Peter Denes,勞倫斯伯克利國(guó)家實(shí)驗(yàn)室)
問(wèn)題六:為生物成像而實(shí)現(xiàn)的谷歌地圖

耐甲氧西林金黃色葡萄球菌(MRSA)以及一個(gè)死人的中性粒細(xì)胞的掃描電子顯微圖 來(lái)源:由NIAID_Flickr在公共維基多媒體上提供
生命是以多尺度的形式組織和持續(xù)的,從單個(gè)蛋白質(zhì)到細(xì)胞器,細(xì)胞,以及微生物群到組織,器官到生物有機(jī)體。捕獲這些數(shù)據(jù)在規(guī)模上有巨大差異,從宏觀和中觀到微觀和納米級(jí),這要求多模態(tài)成像。然而,沒(méi)有一個(gè)單獨(dú)的成像技術(shù)可以捕獲整個(gè)范圍。此外,每一種技術(shù)提供的在不同長(zhǎng)度、時(shí)間、分辨率上有些許互補(bǔ)的數(shù)據(jù)
這一特定問(wèn)題的數(shù)據(jù)分析挑戰(zhàn)包括分割技術(shù)、生物實(shí)體分類(lèi)技術(shù)的開(kāi)發(fā),以及實(shí)現(xiàn)一個(gè)以地圖為中心的數(shù)據(jù)庫(kù)用以執(zhí)行量化分析。這項(xiàng)工作的最終目標(biāo)是整合所有的相關(guān)時(shí)空信息(一個(gè)大小約在100兆字節(jié)到1萬(wàn)億字節(jié)的數(shù)據(jù)集)到一個(gè)通用的坐標(biāo)系,從而得到統(tǒng)計(jì)上有意義的定量的地理信息量(例如計(jì)算一個(gè)形狀的表面積或者體積),并且將生物實(shí)體分類(lèi)到一個(gè)可視化數(shù)據(jù)庫(kù),使得它們可以通過(guò)這些地理信息的模式進(jìn)行查詢。這使得生物學(xué)家可以使用定量的信息,通過(guò)三維結(jié)構(gòu)標(biāo)識(shí)、分子/代謝組成以及核心高分子成分(如蛋白質(zhì))的本地化等,來(lái)區(qū)分不同的疾病的狀態(tài)和發(fā)展情況。
主要合作者:曼弗·雷德奧爾(Manfred Auer,勞倫斯伯克利國(guó)家實(shí)驗(yàn)室),華金·科雷亞(Joaquin Correa,勞倫斯伯克利國(guó)家實(shí)驗(yàn)室)
問(wèn)題七:執(zhí)行極大規(guī)?;蚪M序列拼接

脫氧核糖核酸(DNA)的雙螺旋鏈。 來(lái)源:Pixabay
從頭測(cè)序序列拼接是現(xiàn)在基因?qū)W中最重要的計(jì)算之一。這個(gè)過(guò)程涉及到將短小的、隨機(jī)抽樣的“鳥(niǎo)槍”基因序列轉(zhuǎn)化成一個(gè)連續(xù)的、準(zhǔn)確的復(fù)雜基因組的重構(gòu)。復(fù)雜基因組的重拼接要求大量序列數(shù)據(jù)。因此,由于海量的計(jì)算需求以及拼接大規(guī)?;蚪M和宏基因組的算法復(fù)雜度,從頭拼接已經(jīng)不能跟上洪水般的數(shù)據(jù)(大約在1到10萬(wàn)億字節(jié))的步伐。例如,高重復(fù)度的小麥基因組比人類(lèi)的大五倍,從結(jié)合復(fù)雜度和規(guī)模來(lái)看,這樣的拼接、映射是特別具有挑戰(zhàn)的。
在從頭測(cè)序基因組拼接中,起始處理和數(shù)據(jù)約簡(jiǎn)(K-mer分析法)是受到帶寬約束的,隨后的徳布魯金圖(de Bruijn graph)的構(gòu)造和遍歷是受到延遲約束的,序列對(duì)齊是受到計(jì)算量限制的。許多針對(duì)低直徑圖開(kāi)發(fā)的圖處理技術(shù)不適用于徳布魯金圖,因?yàn)樗蟹浅5偷亩群痛笾睆健N覀兺ㄟ^(guò)HipMer系統(tǒng)來(lái)解決這一挑戰(zhàn)。這是一個(gè)高性能、端對(duì)端的基因序列拼接器,通過(guò)并行地在一個(gè)超級(jí)計(jì)算機(jī)的多集群上同時(shí)執(zhí)行代碼,從而簡(jiǎn)化和加速基因組拼接以及映射。以前需要花費(fèi)數(shù)月的處理過(guò)程,比如拼接整個(gè)人類(lèi)的基因組,現(xiàn)在能在大約8分鐘之內(nèi)完成。
主要合作者:伊萬(wàn)格洛斯·喬格納斯(Evangelos Georganas,加州大學(xué)伯克利分校),艾登·布拉克(Aydin Buluc,加州大學(xué)伯克利分校),丹·洛克薩(Dan Rokhsar,加州大學(xué)伯克利分校),凱西·伊列克(Kathy Yelick,勞倫斯伯克利國(guó)家實(shí)驗(yàn)室)
問(wèn)題八:采用精確的毒理學(xué)

淡水加殼水蚤被用于研究化學(xué)物質(zhì)對(duì)生態(tài)的影響,最近也被用于研究對(duì)人類(lèi)的影響 來(lái)源:由基爾大學(xué)的簡(jiǎn)·米歇爾斯(Jan Michels)博士提供,經(jīng)允許使用
大約80%的新藥因?yàn)椴豢深A(yù)期的對(duì)人體的毒性而失敗。此外,每年有超過(guò)500種的基礎(chǔ)工業(yè)用化學(xué)品被開(kāi)發(fā),其中的大部分將不會(huì)接受任何種類(lèi)的毒性檢測(cè)。毒理學(xué)是一種我們所依賴的科學(xué)原理,來(lái)保護(hù)我們不受癌癥、出生缺陷、心血管以及神經(jīng)退化性疾病的侵害。對(duì)它們的風(fēng)險(xiǎn)評(píng)估仍然依賴于一個(gè)較小集合的模型物種,每種化合物要花費(fèi)超過(guò)五年的時(shí)間以及超過(guò)150萬(wàn)美元。通過(guò)風(fēng)險(xiǎn)評(píng)估,我們了解到了致命劑量,以及在一些情況下的最小致病劑量。但是我們對(duì)于毒理機(jī)制一無(wú)所知。
我們每個(gè)人有獨(dú)特的生活史、遺傳基因、微生物以及生理特征,它們相互作用產(chǎn)生我們個(gè)性化的對(duì)周邊環(huán)境挑戰(zhàn)的易受影響的部分和適應(yīng)恢復(fù)的能力。毒物對(duì)于胎兒的影響與成人完全不同,在一個(gè)基因背景下有效的藥物可能對(duì)于另外一個(gè)人來(lái)說(shuō)極少的劑量都是致命的。
盡管我們不能在每一種遺傳基因背景,甚至是每一種最終的受眾物種上測(cè)試每一種化合物,但是我們可以通過(guò)可得到的、性價(jià)比高的數(shù)據(jù)將毒物與毒理畫(huà)像以及中毒后的分子狀態(tài)關(guān)聯(lián)起來(lái)。我們可以認(rèn)識(shí)個(gè)體易受性的基礎(chǔ),并將我們的易得的疾病和毒性反應(yīng)映射到整個(gè)生命樹(shù)上。利用生物科學(xué)的潛力來(lái)達(dá)到準(zhǔn)確的毒理學(xué)測(cè)試將使得在產(chǎn)品的開(kāi)發(fā)前期就可以進(jìn)行精確的分析和風(fēng)險(xiǎn)評(píng)估,有助于減少開(kāi)發(fā)的開(kāi)銷(xiāo)。
這個(gè)問(wèn)題天生就是一個(gè)計(jì)算問(wèn)題,并對(duì)我們的社會(huì)和星球是一個(gè)巨大的挑戰(zhàn)。我們對(duì)于這一挑戰(zhàn)的最主要的解決方案是分子系統(tǒng)毒理學(xué)(在多物種環(huán)境下暴露生物體):我們以一小群易馴服的生物為模型進(jìn)行測(cè)試,然后使用定量的生物進(jìn)化工具(包括針對(duì)多物種分析的新形式的張量回歸、應(yīng)用量子計(jì)算的路徑發(fā)現(xiàn)、深度學(xué)習(xí)以及基于隨機(jī)森林的回顧學(xué)習(xí)機(jī))來(lái)對(duì)公共祖先和所有的現(xiàn)存物種做出預(yù)測(cè)。這一方案是通過(guò)映射和利用大約18萬(wàn)億字節(jié)的高容量數(shù)據(jù)集來(lái)完成的。在兩年之內(nèi),我們預(yù)期這些數(shù)據(jù)集的大小將會(huì)增長(zhǎng)到1帕字節(jié)。
主要合作者:本·布朗(Ben Brown,勞倫斯伯克利國(guó)家實(shí)驗(yàn)室),約翰·科爾伯恩(John Colbourne,英國(guó)伯明翰大學(xué))以及環(huán)境學(xué)和毒理學(xué)協(xié)會(huì)
問(wèn)題九:尋找新設(shè)計(jì)材料

部分被孔雀石覆蓋的銅礦石和赤銅礦 來(lái)源:由Didier Descouens在公共維基多媒體上提供
技術(shù)創(chuàng)新很大程度上受新材料的發(fā)現(xiàn)所驅(qū)動(dòng)。我們經(jīng)常被給到一組理想中的材料屬性(例如:硬度、透明度、電導(dǎo)率、可承受電壓等),并要求發(fā)現(xiàn)具有這些屬性的材料的挑戰(zhàn)。如今的計(jì)算機(jī)模型可以近似可靠地預(yù)測(cè)材料的屬性,并且有收集了上千種這類(lèi)預(yù)測(cè)的數(shù)據(jù)庫(kù)可供使用。例如,Materials Project?是一個(gè)公開(kāi)可訪問(wèn)的數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)在NERSC收集了成千上萬(wàn)種材料的信息。下一步是分析這一龐大的數(shù)據(jù)集(大約100萬(wàn)億字節(jié)),測(cè)試和發(fā)現(xiàn)新的解釋材料行為的科學(xué)原理,展現(xiàn)復(fù)雜的數(shù)據(jù)(例如,周期性三維水晶),并將發(fā)現(xiàn)和開(kāi)發(fā)新材料所需要的時(shí)間從現(xiàn)在的大約20年減少到很短的時(shí)間。
材料的自動(dòng)化分析要求我們解決兩個(gè)關(guān)鍵問(wèn)題:自動(dòng)化特征學(xué)習(xí)以及高維回歸。一旦這些問(wèn)題被解決了,那么我們可以想像一個(gè)在線系統(tǒng),它能自適應(yīng)地探索材料部分選定的設(shè)計(jì)空間來(lái)決定最有前景的值得模擬和制造的材料。
主要合作者:安納博阿夫·賈恩(Anubhav Jain,勞倫斯伯克利國(guó)家實(shí)驗(yàn)室),克里斯丁·佩爾松(Kristin Persson,勞倫斯伯克利國(guó)家實(shí)驗(yàn)室)
問(wèn)題十:決定物質(zhì)的基本成分

歐洲粒子物理研究的大型強(qiáng)子對(duì)撞機(jī)(LHC)的CMS檢測(cè)器內(nèi)部視圖,大型強(qiáng)子對(duì)撞機(jī)是一個(gè)粒子加速器和碰撞器。人們希望大型強(qiáng)子對(duì)撞機(jī)成為世界上最大的能量最高的粒子加速器。 來(lái)源:由Tighef在公共維基多媒體上提供
高能粒子物理旨在從最基本的亞原子層面了解宇宙的秘密。盡管我們的了解已經(jīng)進(jìn)步了不少,并在最近發(fā)現(xiàn)希格斯玻色子后達(dá)到一個(gè)高峰,但是我們知道仍然有許多關(guān)鍵的未解之謎需要解決,比如暗物質(zhì)的來(lái)源以及重力在萬(wàn)物理論中扮演怎樣的角色。探索這些未解之謎需要最龐大最復(fù)雜的實(shí)驗(yàn)設(shè)施。比如,大亞灣反應(yīng)堆中微子實(shí)驗(yàn)就是這樣一個(gè)例子,它旨在推進(jìn)我們對(duì)于中微子的了解。中微子是由衰減中的放射性元素生成的,比亞原子粒子少一個(gè)電子。另外一個(gè)例子是大型強(qiáng)子對(duì)撞機(jī),它有所有粒子加速器中的最高能量,旨在發(fā)現(xiàn)從未見(jiàn)過(guò)的粒子和相互作用。
這些設(shè)備使用了數(shù)十億管道的模式和異常檢測(cè)器,以納秒的精確度收集數(shù)據(jù),產(chǎn)生了極大規(guī)模的數(shù)據(jù)管道。其數(shù)據(jù)集大小從上百萬(wàn)億字節(jié)到上百帕字節(jié),快速而準(zhǔn)確的分析是很有必要的。這一領(lǐng)域已經(jīng)應(yīng)用“模式檢測(cè)”技術(shù)有一段時(shí)間了,但是用它們直接對(duì)物理事件在原始數(shù)據(jù)的規(guī)模下進(jìn)行分類(lèi)仍然是一個(gè)挑戰(zhàn)。我們目前使用深度神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)新的數(shù)據(jù)的高層次表達(dá)方式。轉(zhuǎn)化后的數(shù)據(jù)將會(huì)被用于快速的數(shù)據(jù)分析,包括信號(hào)和背景源的可視化和特征化。
主要合作者:克雷格·塔爾(Craig Tull,勞倫斯伯克利國(guó)家實(shí)驗(yàn)室),瓦希德·佩姆奇(Wahid Bhimji,勞倫斯伯克利國(guó)家實(shí)驗(yàn)室),彼得·薩多夫斯基(Peter Sadowski,加州大學(xué)歐文分校)
普拉伯特(Prabhat)
普拉伯特在勞倫斯伯克利國(guó)家實(shí)驗(yàn)室以及美國(guó)能源部經(jīng)營(yíng)的國(guó)家能源研究科學(xué)計(jì)算中心(NERSC)帶領(lǐng)數(shù)據(jù)和分析服務(wù)小組。他的研究方向包括數(shù)據(jù)分析(統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí))、數(shù)據(jù)管理(并行讀寫(xiě)、數(shù)據(jù)格式、數(shù)據(jù)模型)、科學(xué)可視化以及高性能計(jì)算。普拉伯特在2001年獲得布朗大學(xué)計(jì)算機(jī)科學(xué)碩士學(xué)位,1999年在印度新德里理工學(xué)院所獲得計(jì)算機(jī)科學(xué)與工程學(xué)士學(xué)位。他目前在加州大學(xué)伯克利分校的地球與行星科學(xué)系就讀博士學(xué)位。

