2016年7月我向朋友David Talby提出了構(gòu)建一個(gè)針對Apache Spark用戶的NLP庫的想法。一年多后,Talby和他的合作者發(fā)布了Spark NLP。在發(fā)布公告、Talby和我撰寫的播客以及最近發(fā)表的對流行的開源NLP庫進(jìn)行比較的博文中,他們介紹了這個(gè)項(xiàng)目背后的動(dòng)機(jī)。(信息披露:我是Databricks的顧問,Databricks是Apache Spark團(tuán)隊(duì)創(chuàng)建的初創(chuàng)公司。)
在該項(xiàng)目兩周年即將來臨之際,我向Talby詢問了主要是誰對該項(xiàng)目感興趣,他慷慨地分享了項(xiàng)目主頁訪問者的地理人口統(tǒng)計(jì)數(shù)據(jù)。
?
圖1 Spark NLP網(wǎng)站訪客的地理人口統(tǒng)計(jì)數(shù)據(jù)。 幻燈片由Ben Lorica制作,數(shù)據(jù)由David Talby友情提供
在該網(wǎng)站的數(shù)千名訪問者中,44%來自美洲,24%來自亞太地區(qū),22%來自歐洲、中東和非洲地區(qū)。
許多訪問者正在轉(zhuǎn)變?yōu)樵擁?xiàng)目的用戶。在我們最近的企業(yè)人工智能應(yīng)用調(diào)查中,不少受訪者表示他們正在嘗試Spark NLP?;赟trata數(shù)據(jù)大會與會者的投票,該項(xiàng)目還獲得了3月份Strata數(shù)據(jù)獎(jiǎng)項(xiàng)中的開源類別的最高獎(jiǎng)。
有許多其他優(yōu)秀的開源NLP庫,它們也擁有大量用戶,如spaCy、OpenNLP、Stanford CoreNLP和NLTK等。但在Spark NLP項(xiàng)目啟動(dòng)時(shí),它顯然是吸引了那些已經(jīng)擁有Spark集群(并且需要可擴(kuò)展的NLP解決方案)的用戶。雖然該項(xiàng)目剛開始是針對于Apache Spark的用戶,但它現(xiàn)在已經(jīng)發(fā)展到通過簡單的API,只需幾行代碼就可以完成工作,并且完全隱藏了Spark。這個(gè)庫的Python API接口現(xiàn)在擁有最多的用戶。安裝Spark NLP對于Python就是使用pip或conda的一行命令的操作,或使用maven、sbt或spark-package在Java或Scala上執(zhí)行的一個(gè)依賴包添加操作。Spark NLP庫的文檔也在不斷增加,還出現(xiàn)了一些公共在線示例,可用于如情感分析、命名實(shí)體識別和拼寫檢查等常見的任務(wù)。文檔的改進(jìn)、易用性以及重要的深度學(xué)習(xí)模型的生產(chǎn)級實(shí)現(xiàn),結(jié)合它的速度、可擴(kuò)展性和準(zhǔn)確性,使得Spark NLP成為需要NLP庫的企業(yè)的一個(gè)不錯(cuò)的選擇方案。
想了解更多關(guān)于Spark NLP的信息,請關(guān)注于2019年9月23至26日在紐約市舉行的Strata數(shù)據(jù)大會上,David Talby和他的同事舉辦的3小時(shí)的教學(xué)輔導(dǎo)課“使用Spark NLP 進(jìn)行大規(guī)模自然語言理解”。最優(yōu)惠價(jià)格截止于6月28日。
相關(guān)內(nèi)容:
Ben Lorica
Ben Lorica是O'Reilly Media,Inc.的首席數(shù)據(jù)科學(xué)家,也是Strata數(shù)據(jù)會議和人工智能會議的日程主管。 他將商業(yè)智能,數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí)和統(tǒng)計(jì)分析應(yīng)用到各種環(huán)境中去,包括直接營銷,消費(fèi)者和市場研究,目標(biāo)廣告,文本挖掘和金融工程。 他的工作背景包括投資管理公司,互聯(lián)網(wǎng)創(chuàng)業(yè)公司和金融服務(wù)公司。

