Ideas
-
MLflow:一種機(jī)器學(xué)習(xí)生命周期管理平臺(tái)
盡管機(jī)器學(xué)習(xí)(ML)可以產(chǎn)生出色的結(jié)果,在實(shí)踐中使用它仍然是很復(fù)雜的。 除了軟件研發(fā)中的常見(jiàn)挑戰(zhàn)外,機(jī)器學(xué)習(xí)開(kāi)發(fā)人員還面...
-
一個(gè)優(yōu)雅地探索相關(guān)性的新可視化方法
一個(gè)古老的詛咒一直縈繞著數(shù)據(jù)分析:我們用來(lái)改進(jìn)模型的變量越多,那么我們需要的數(shù)據(jù)就會(huì)出現(xiàn)指數(shù)級(jí)的增長(zhǎng)。不過(guò),我們通過(guò)...
-
擴(kuò)展Spark ML來(lái)構(gòu)建你自己的模型和變換器類型
盡管Spark ML管道提供了各種各樣的算法,你仍可能想要額外的功能,并且不脫離管道模型。在Spark Mllib中,這算不上什么問(wèn)題,...
-
為大數(shù)據(jù)帶來(lái)交互式的BI
基于Hadoop的SQL一直在被持續(xù)地改進(jìn),但是一個(gè)查詢要等幾分鐘到幾小時(shí)還是非常得正常。在這篇博文里,我們將會(huì)介紹開(kāi)源的分布...
-
Elasticsearch 5.0和ELK/Elastic Stack指南
這篇文章是一步一步的使用指南,介紹了如何結(jié)合使用Elasticsearch和其他ELK技術(shù)棧(現(xiàn)在叫Elastic Stack)來(lái)發(fā)送、解析、存儲(chǔ)...
-
用深度學(xué)習(xí)來(lái)獲取文本語(yǔ)義
詞向量是一種把詞處理成向量的技術(shù),并且保證向量間的相對(duì)相似度和語(yǔ)義相似度是相關(guān)的。這個(gè)技術(shù)是在無(wú)監(jiān)督學(xué)習(xí)方面最成功的...
-
為Spark ML擴(kuò)展結(jié)構(gòu)化流計(jì)算
Spark的新的ALPHA結(jié)構(gòu)化流計(jì)算API已經(jīng)引起了廣泛的興趣。因?yàn)樗袲ataset、DataFrame和SQL的API都引入了流計(jì)算上下文。然而在...
-
從圖像識(shí)別到物體識(shí)別
在增強(qiáng)現(xiàn)實(shí)(AR)與自動(dòng)駕駛的時(shí)代來(lái)臨之際,3D數(shù)據(jù)呈現(xiàn)爆炸式增長(zhǎng)。在不久的將來(lái),處理3D數(shù)據(jù)的算法將應(yīng)用于像機(jī)器人自動(dòng)巡...
-
優(yōu)步在Hadoop上做增量處理的案例
優(yōu)步的任務(wù)是提供“對(duì)每個(gè)人來(lái)說(shuō),在任何地方都可以獲得像自來(lái)水一樣可靠的出行服務(wù)”。為了履行這一承諾,優(yōu)步依賴于在每個(gè)層...
-
用Spark 和DBSCAN對(duì)地理定位數(shù)據(jù)進(jìn)行聚類
機(jī)器學(xué)習(xí),特別是聚類算法,可以用來(lái)確定哪些地理區(qū)域經(jīng)常被一個(gè)用戶訪問(wèn)和簽到而哪些區(qū)域不是。這樣的地理分析使多種服務(wù)成...