91精品国产综合久久四虎久久_国产成人午夜高潮毛片_99er视频精品免费观看_2020亚洲熟女在线观看_日本女优人体写真_国内黄色毛片_年轻的老师中文版在线_丰满女邻居做爰_久久久久久精品成人免费图片

為什么數(shù)據(jù)科學(xué)家不是數(shù)據(jù)工程師
換句話說,為什么科學(xué)和工程仍然是不同的學(xué)科。

“一位科學(xué)家可以發(fā)現(xiàn)一顆新星,但他不能制造一顆。他必須要求工程師為他做這件事?!?/p>

-Gordon Lindsay Glegg, 設(shè)計(jì)中的設(shè)計(jì)(1969)

幾個(gè)月前我寫過數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家之間的差異。 我談到了他們的不同技能和共同的知識(shí)基礎(chǔ)。

一件有趣的事情發(fā)生了:數(shù)據(jù)科學(xué)家開始反擊,認(rèn)為他們實(shí)際上在數(shù)據(jù)工程方面,和數(shù)據(jù)工程師一樣熟練。 這很有趣,因?yàn)閿?shù)據(jù)工程師并沒有拒絕承認(rèn)他們是數(shù)據(jù)科學(xué)家。

因此,過去幾個(gè)月我一直在收集數(shù)據(jù)并觀察數(shù)據(jù)科學(xué)家的自然行為。本文將提供有關(guān)數(shù)據(jù)科學(xué)家不是數(shù)據(jù)工程師的原因的更多信息。

為什么這非常重要?

有些人抱怨數(shù)據(jù)科學(xué)家與數(shù)據(jù)工程師的差別就是頭銜而已。他們認(rèn)為,“頭銜不應(yīng)該阻止人們學(xué)習(xí)或?qū)嵺`新事物?!?我同意,確實(shí)應(yīng)該盡可能多地學(xué)習(xí)。 不過要知道,你的學(xué)習(xí)過程只接觸淺表即可,否則,這會(huì)導(dǎo)致大型數(shù)據(jù)項(xiàng)目失敗。

這一點(diǎn)也為公司的管理層提供了信息。 他們正在招聘數(shù)據(jù)科學(xué)家, 期望他們成為數(shù)據(jù)工程師。

我從很多公司聽過同樣的故事。 故事的情節(jié)都相同:一家公司決定使用數(shù)據(jù)科學(xué),因?yàn)檫@是獲取風(fēng)險(xiǎn)投資資金,高ROI(投資回報(bào)率),在商業(yè)周期中瘋狂吸睛…的方式,當(dāng)然也可能有一些其他原因。 這類決策往往是C-level(CEO,CTO… )或VP(副總裁)級(jí)別的人做出的。我們姑且把這個(gè)高管成為Alice。

這家公司進(jìn)行了詳盡的調(diào)研,以尋找有史以來最好的數(shù)據(jù)科學(xué)家。 讓我們稱這位數(shù)據(jù)科學(xué)家為鮑勃。

鮑勃入職第一天。 愛麗絲走向鮑勃并興奮地告訴他她腦中所規(guī)劃的所有項(xiàng)目。

“那很棒。 這些數(shù)據(jù)管線在哪里,以及你的Spark集群部署在哪?“Bob問道。

愛麗絲回答說:“這就是我們期待你做的事情。 我們聘請(qǐng)你做數(shù)據(jù)科學(xué)?!?/p>

“我不知道任何關(guān)于搭建基礎(chǔ)設(shè)施的知識(shí),”鮑勃說。

愛麗絲疑惑地看著他,“但你是一名數(shù)據(jù)科學(xué)家對(duì)嗎? 這是你應(yīng)該的。”

“不,我都是使用已經(jīng)創(chuàng)建的數(shù)據(jù)管線和數(shù)據(jù)產(chǎn)品?!?/p>

愛麗絲回到她的辦公室,弄清楚發(fā)生了什么。 她盯著一張如圖1一樣的簡(jiǎn)化圖表,并且無法弄清楚Bob為什么不能完成簡(jiǎn)單的大數(shù)據(jù)任務(wù)。

Figure1-42ac4b8503ed9b17c941d48f6c81f147

圖1.數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師的Venn式圖。 杰西安德森的插圖,經(jīng)許可使用

關(guān)注點(diǎn)的核心

在以上互動(dòng)中有兩個(gè)問題:

  • 為什么管理層不了解數(shù)據(jù)科學(xué)家不是數(shù)據(jù)工程師?
  • 為什么一些數(shù)據(jù)科學(xué)家認(rèn)為他們是數(shù)據(jù)工程師?

我將從管理層一邊開始。 稍后,我們將從數(shù)據(jù)科學(xué)家自己的角度進(jìn)行討論。

面對(duì)現(xiàn)實(shí)吧。 數(shù)據(jù)工程并不是人們關(guān)注的焦點(diǎn)。 它并未被宣布為21世紀(jì)最好的工作。 它沒有得到所有的媒體注意力。 會(huì)議并沒有告訴CxO數(shù)據(jù)工程的優(yōu)點(diǎn)。 如果你只看粗略的信息,那就是數(shù)據(jù)科學(xué)和招聘數(shù)據(jù)科學(xué)家。

這一點(diǎn)正在變化。 我們有數(shù)據(jù)工程會(huì)議。市面逐漸認(rèn)識(shí)到對(duì)數(shù)據(jù)工程的需求。 我希望像我寫出的這樣的文章能夠闡明數(shù)據(jù)工程的必要性。 我希望我的工作能夠讓企業(yè)懂得滿足這一關(guān)鍵需求的意義。

認(rèn)可并欣賞

即使一家公司擁有數(shù)據(jù)科學(xué)和數(shù)據(jù)工程團(tuán)隊(duì),對(duì)數(shù)據(jù)工程方面的工作仍然缺乏認(rèn)識(shí)。

你甚至在會(huì)議中看到信任缺失。 數(shù)據(jù)科學(xué)家正在談?wù)撍麄儎?chuàng)造的東西。 我可以看到他們的模型中的大量數(shù)據(jù)工程,但在談話期間從未被強(qiáng)調(diào)過。 我不指望一個(gè)談話能夠面面俱到,但是承認(rèn)“創(chuàng)造的基礎(chǔ)是數(shù)據(jù)工程底層工作”這一點(diǎn)是好的。 管理層和數(shù)據(jù)科學(xué)初學(xué)者錯(cuò)誤的認(rèn)為數(shù)據(jù)科學(xué)家的技能就能可以實(shí)現(xiàn)一切。

如何獲得欣賞

最近,我一直在向數(shù)據(jù)工程師詢問如何成為他們?nèi)镜年P(guān)注點(diǎn)。 他們覺得,當(dāng)數(shù)據(jù)科學(xué)家去展示他們的最新作品時(shí),要么獲得了全體的信任,要么管理層一致把信任票投給他們。 數(shù)據(jù)工程師們的基本問題是:“我怎樣才能讓數(shù)據(jù)科學(xué)家不再因?yàn)槲覀兊墓ぷ鞫@得榮譽(yù)?”

這是我在公司內(nèi)部看到的實(shí)際問題。

管理層沒有意識(shí)到(而且普遍也沒有共識(shí))的一點(diǎn)是,數(shù)據(jù)工程工作涉及數(shù)據(jù)科學(xué)的方方面面。 如果你正在閱讀這篇文章而你正在想:

  • 我的數(shù)據(jù)科學(xué)家是數(shù)據(jù)工程師
  • 我的數(shù)據(jù)科學(xué)家正在創(chuàng)建非常復(fù)雜的數(shù)據(jù)管道
  • 作者一定不知道他在說什么

…你可能在后臺(tái)有一位數(shù)據(jù)工程師沒有得到任何關(guān)注。

與數(shù)據(jù)科學(xué)家在沒有數(shù)據(jù)工程師的情況下撂挑子不干的情況類似,未獲得認(rèn)可和贊賞的數(shù)據(jù)工程師也會(huì)撂挑子不干的。 不要自欺欺人了!與數(shù)據(jù)科學(xué)家一樣,合格的數(shù)據(jù)工程師也有同樣熱門的就業(yè)市場(chǎng)。

數(shù)據(jù)科學(xué)只有在朋友的一些幫助下才會(huì)產(chǎn)生

Figure2-7dadc453228ac1fdfe14ee11d4e43323

圖2.即使是14世紀(jì)的意大利人也知道數(shù)據(jù)工程師的重要性。 圖片來自大都會(huì)博物館,公共領(lǐng)域

你可能聽說過神話中Atlas的故事。他因不得不舉起世界/天空/天球而受到懲罰。 地球只會(huì)以現(xiàn)有的形態(tài)存在是因?yàn)榘⑻乩古e起了它。

類似地,數(shù)據(jù)工程師支撐著數(shù)據(jù)科學(xué)的世界。 托起這個(gè)世界的人,沒有得到太多的關(guān)注或信任,但應(yīng)該有。 公司的所有級(jí)別都應(yīng)該理解數(shù)據(jù)科學(xué)只能通過數(shù)據(jù)工程團(tuán)隊(duì)的工作來實(shí)現(xiàn)。

數(shù)據(jù)科學(xué)家不是數(shù)據(jù)工程師

這讓我們想到了為什么數(shù)據(jù)科學(xué)家認(rèn)為他們是數(shù)據(jù)工程師。

在我們繼續(xù)之前,請(qǐng)注意一些注意事項(xiàng):

  • 我認(rèn)為數(shù)據(jù)科學(xué)家非常聰明,我喜歡和他們一起工作。
  • 我想知道這種情報(bào)是否會(huì)導(dǎo)致更高的智商Dunning-Kruger效應(yīng)。
  • 我所知道的一些最好的數(shù)據(jù)工程師是數(shù)據(jù)科學(xué)家,盡管這個(gè)數(shù)字非常小。
  • 在評(píng)估我們自己的技能時(shí),一直存在高估的情況

Figure3-fc72719498859c6a50ac911952e1d920

圖3.數(shù)據(jù)科學(xué)家感知數(shù)據(jù)工程技能與實(shí)際技能的經(jīng)驗(yàn)圖。 Jesse Andersson的插圖,經(jīng)許可使用

在與數(shù)據(jù)科學(xué)家討論他們的數(shù)據(jù)工程技能時(shí),我發(fā)現(xiàn)他們的自我評(píng)估變化很大。 這是一個(gè)有趣的偏見社會(huì)實(shí)驗(yàn)。 大多數(shù)數(shù)據(jù)科學(xué)家過度評(píng)估了自己的數(shù)據(jù)工程能力。 有些人給出了準(zhǔn)確的評(píng)估,但沒有一個(gè)評(píng)估的評(píng)估低于他們的實(shí)際能力。

此圖表中缺少兩件事:

  • 數(shù)據(jù)工程師的技能水平是多少?
  • 中等復(fù)雜數(shù)據(jù)管線所需的技能水平是多少?

Figure4-489301cb2af38ca5cc96e4958ecf6405

圖4.數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師的數(shù)據(jù)工程技能經(jīng)驗(yàn)圖,他們具有創(chuàng)建中等復(fù)雜數(shù)據(jù)管線所需的技能。 Jesse Andersson的插圖,經(jīng)許可使用

從該圖中,您可以看到所需數(shù)據(jù)工程能力的差異。 事實(shí)上,我對(duì)能夠創(chuàng)建中等復(fù)雜數(shù)據(jù)管線的數(shù)據(jù)科學(xué)家的數(shù)量進(jìn)行了高估。 現(xiàn)實(shí)情況可能是數(shù)據(jù)科學(xué)家實(shí)際只有圖表顯示的一半。

總的來說,它顯示了能夠創(chuàng)建數(shù)據(jù)管線的兩個(gè)群體的大致部分。 是的,一些數(shù)據(jù)工程師無法創(chuàng)建中等復(fù)雜的數(shù)據(jù)管道。 相反,大多數(shù)數(shù)據(jù)科學(xué)家也不能。 這又回到了手頭的業(yè)務(wù)問題:公司機(jī)構(gòu)正在把大數(shù)據(jù)項(xiàng)目交給無法勝任項(xiàng)目的個(gè)人來做。

什么是中等復(fù)雜的數(shù)據(jù)管線?

中等復(fù)雜的數(shù)據(jù)管線比創(chuàng)建數(shù)據(jù)管線的最低要求高出一步。最低限度的一個(gè)例子是使用Spark處理存儲(chǔ)在HDFS / S3中的文本文件。 中等復(fù)雜數(shù)據(jù)管線的一個(gè)示例是使用正確使用的NoSQL數(shù)據(jù)庫(kù)開始優(yōu)化存儲(chǔ),該數(shù)據(jù)庫(kù)使用像Avro這樣的二進(jìn)制格式。

我認(rèn)為數(shù)據(jù)科學(xué)家們認(rèn)為他們簡(jiǎn)單的數(shù)據(jù)管線就是數(shù)據(jù)工程。 現(xiàn)實(shí)情況是,他們談?wù)摰氖莌ello-world級(jí)別的數(shù)據(jù)管線,但現(xiàn)實(shí)需要的是更復(fù)雜的數(shù)據(jù)管線。 過去,數(shù)據(jù)工程師在幕后執(zhí)行了非常困難的數(shù)據(jù)工程,數(shù)據(jù)科學(xué)家沒有必要處理它。

你可能會(huì)想,“好,所以20%的數(shù)據(jù)科學(xué)家實(shí)際上可以做到這一點(diǎn)。 畢竟,我不需要數(shù)據(jù)工程師?!笆紫?,請(qǐng)記住這個(gè)圖表在顯示數(shù)據(jù)科學(xué)家的能力方面已經(jīng)格外開恩了。 請(qǐng)記住,“一般復(fù)雜”仍然是一個(gè)相當(dāng)?shù)偷臉?biāo)準(zhǔn)。 我需要?jiǎng)?chuàng)建另一個(gè)圖表,以顯示數(shù)據(jù)科學(xué)家很少能夠處理復(fù)雜性的下一步。 在這一步,能夠勝任的數(shù)據(jù)科學(xué)家的百分比降至1%或更低。

為什么數(shù)據(jù)科學(xué)家不是數(shù)據(jù)工程師?

有時(shí)我更喜歡看到問題的表現(xiàn)。 有一些例子是關(guān)于數(shù)據(jù)科學(xué)家缺乏數(shù)據(jù)工程技能的經(jīng)驗(yàn)問題的。

大學(xué)和其他課程

數(shù)據(jù)科學(xué)是大學(xué)和在線課程的熱門新課程。 有各種各樣的課,但幾乎所有課都有同樣的問題:它們要么完全缺乏,要么有一個(gè)數(shù)據(jù)工程班。

當(dāng)我看到一所新大學(xué)的數(shù)據(jù)科學(xué)課程宣布時(shí),我會(huì)看一看。 有時(shí),我會(huì)被要求就大學(xué)提出的數(shù)據(jù)科學(xué)課程提出意見。 我給他們同樣的反饋:“你期待的是專家程序員嗎? 因?yàn)閮?nèi)容完全沒涵蓋消耗現(xiàn)有的數(shù)據(jù)管線所需的編程能力或系統(tǒng)知識(shí)?!?/p>

課程大綱通常側(cè)重于所需的統(tǒng)計(jì)學(xué)和數(shù)學(xué)。 這反映了公司和學(xué)者認(rèn)為數(shù)據(jù)科學(xué)應(yīng)該是什么樣子。 現(xiàn)實(shí)世界看起來很不一樣。 這些可憐的學(xué)生只能為這些“不一般”的學(xué)習(xí)內(nèi)容而自生自滅。

我們可以退一步,看看分布式系統(tǒng)碩士學(xué)位課程要求學(xué)習(xí)哪些內(nèi)容。 顯然,數(shù)據(jù)科學(xué)家不需要這種知識(shí)深度,但它有助于展示數(shù)據(jù)科學(xué)教學(xué)中缺少的內(nèi)容,以及數(shù)據(jù)科學(xué)家技能樹里的重大遺漏。 它們存在一些重大缺陷。

數(shù)據(jù)工程不等于 Spark

數(shù)據(jù)科學(xué)家和管理層的一個(gè)常見誤解是數(shù)據(jù)工程只是編寫一些Spark代碼來處理文件。 Spark是批處理計(jì)算一個(gè)很好的解決方案,但它并不是您需要的唯一技術(shù)。 大數(shù)據(jù)解決方案需要10-30種不同的技術(shù)才能協(xié)同工作。

這種想法是大數(shù)據(jù)項(xiàng)目失敗的核心。 管理層認(rèn)為他們有一個(gè)新的銀彈來消除他們所有的大數(shù)據(jù)問題。 現(xiàn)實(shí)遠(yuǎn)比這復(fù)雜得多。

當(dāng)我指導(dǎo)一個(gè)關(guān)于大數(shù)據(jù)的公司時(shí),我會(huì)在公司的所有層面檢查這種誤解是否存在。 如果確實(shí)存在,我要確保討論他們需要的所有技術(shù)。 這消除了誤認(rèn)為大數(shù)據(jù)中有一個(gè)簡(jiǎn)單的按鈕,并且存在一種技術(shù)可以解決所有問題。

代碼來自哪里?

有時(shí)數(shù)據(jù)科學(xué)家會(huì)告訴我數(shù)據(jù)工程是多么容易。 我會(huì)讓他們告訴我他們?nèi)绾我约盀槭裁催@么認(rèn)為。 “我可以從StackOverflow或Reddit獲得我需要的所有代碼。 如果我需要從零開始創(chuàng)建一些東西,我可以在會(huì)議演講或白皮書中復(fù)制某人的設(shè)計(jì)。

對(duì)于非工程師來說,這似乎沒問題。 對(duì)于工程師來說,這會(huì)引發(fā)重大警報(bào)。 姑且不談法律問題,這不是工程是做法。 大數(shù)據(jù)中很少有可以速成的部分。 “hello world”之后的所有內(nèi)容都需要數(shù)據(jù)工程師的復(fù)雜設(shè)計(jì),因?yàn)闆]有一種速成方法來處理它。 從白皮書中復(fù)制您的設(shè)計(jì)可能會(huì)導(dǎo)致設(shè)計(jì)效果不佳或更糟。

我曾與一些數(shù)據(jù)科學(xué)團(tuán)隊(duì)打過交道,他們嘗試過這種照貓畫虎的做法。 它不怎么管用。 這是由于大數(shù)據(jù)的復(fù)雜性飆升以及對(duì)用例的極度關(guān)注。 數(shù)據(jù)科學(xué)團(tuán)隊(duì)通常會(huì)因?yàn)轫?xiàng)目超出其數(shù)據(jù)工程能力而選擇放棄。

簡(jiǎn)而言之,“我可以從stackoverflow復(fù)制代碼”或“我可以修改已經(jīng)編寫的內(nèi)容”和“我可以從頭開始創(chuàng)建這個(gè)系統(tǒng)”之間存在很大差異。

就個(gè)人而言,我擔(dān)心數(shù)據(jù)科學(xué)團(tuán)隊(duì)將成為大量技術(shù)債務(wù)的來源,這些技術(shù)債務(wù)會(huì)壓制組織中的大數(shù)據(jù)生產(chǎn)力。 當(dāng)它被發(fā)現(xiàn)時(shí),技術(shù)債務(wù)將如此之高,以至于糾正它可能已經(jīng)無能為力了(只能推倒重來)。

生產(chǎn)系統(tǒng)中用了最久的代碼是什么?

數(shù)據(jù)科學(xué)家的核心差異在于他們的深度。 這種深度以兩種方式顯示。 他們?cè)谏a(chǎn)系統(tǒng)中的用了最久的代碼是什么(或者這些代碼是否真正在生產(chǎn)系統(tǒng)中存在過)?以及他們寫過的最長(zhǎng),最大或最復(fù)雜的程序是什么?

這不意味著誰(shuí)的技巧更好,誰(shuí)更牛。這意味著,他們是否知道當(dāng)你在生產(chǎn)環(huán)境中添加了一些東西,以及維護(hù)代碼時(shí)會(huì)發(fā)生什么。 編寫20行程序相對(duì)容易。 編寫1,000行可維護(hù)和連貫的代碼是另一種情況。 從未寫過超過20行的人不理解可維護(hù)性方面的差異。?

他們所有關(guān)于“Java太冗長(zhǎng)”或者“為什么需要使用編程最佳實(shí)踐”的抱怨,都是大型軟件項(xiàng)目關(guān)注的焦點(diǎn)。

在評(píng)估和探索數(shù)據(jù)階段,快速移動(dòng)代碼、打破已有模式很有效。 在處理生產(chǎn)環(huán)境中的代碼時(shí),這一點(diǎn)更猛烈,且很有必要。 出于這些原因,大多數(shù)數(shù)據(jù)科學(xué)家的代碼在投入生產(chǎn)之前都會(huì)被重構(gòu)一次。

當(dāng)他們?cè)O(shè)計(jì)分布式系統(tǒng)時(shí)

了解數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師之間差異的一種方法是看看他們編寫自己的分布式系統(tǒng)時(shí)會(huì)發(fā)生什么。 數(shù)據(jù)科學(xué)家將編寫一個(gè)以數(shù)學(xué)為重點(diǎn),但執(zhí)行非常繁瑣的系統(tǒng)。 一個(gè)專門編寫分布式系統(tǒng)的軟件工程師將創(chuàng)建一個(gè)性能良好且工作分布的軟件( 但嚴(yán)肅來說不要從頭寫一個(gè)新的)。我在這里分享一些與“數(shù)據(jù)科學(xué)家創(chuàng)建分布式系統(tǒng)”的公司交流的故事。

由我客戶公司的數(shù)據(jù)科學(xué)家組成的部門建立了一個(gè)分布式系統(tǒng)。 我被派去與他們交談并了解他們?yōu)槭裁磩?chuàng)建自己的系統(tǒng),以及它能做什么。 他們正在進(jìn)行(分布式)圖像處理。

我開始問他們?yōu)槭裁磩?chuàng)建自己的分布式系統(tǒng)。 他們回答稱,已有系統(tǒng)無法分發(fā)算法。 為了驗(yàn)證他們的發(fā)現(xiàn),他們與另一位具有圖像處理專業(yè)能力的數(shù)據(jù)科學(xué)家簽約。 那位數(shù)據(jù)科學(xué)家承認(rèn)無法分發(fā)算法。

在我與團(tuán)隊(duì)一起度過的兩個(gè)小時(shí)內(nèi),很明顯算法可以分布在類似Spark這類通用計(jì)算引擎上。而同樣清楚的是,他們編寫的分布式系統(tǒng)不具備可擴(kuò)展性,并存在嚴(yán)重的設(shè)計(jì)缺陷。 他們不僅讓另一位數(shù)據(jù)科學(xué)家,而不是合格的數(shù)據(jù)工程師來驗(yàn)證他們的發(fā)現(xiàn),還讓另一位新手程序員驗(yàn)證他們的創(chuàng)新發(fā)現(xiàn)。

在另一家由數(shù)學(xué)家經(jīng)營(yíng)的公司,他們與我討論了他們編寫的分布式系統(tǒng)。 它的編寫使得數(shù)學(xué)問題可以在其他計(jì)算機(jī)上運(yùn)行。 與他們交談后,有些事情很清楚。 他們本可以使用通用計(jì)算引擎,而且效果更好。 他們分配和運(yùn)行工作的方式效率低下。 執(zhí)行RPC網(wǎng)絡(luò)流量所需的時(shí)間比執(zhí)行計(jì)算要長(zhǎng)。

所有這些故事,以及其他數(shù)不勝數(shù)的故事,有些共同之處:

  • 數(shù)據(jù)科學(xué)家專注于數(shù)學(xué)而不是系統(tǒng)。 該系統(tǒng)用于運(yùn)行數(shù)學(xué)運(yùn)算,但無法有效地運(yùn)行數(shù)學(xué)運(yùn)算。
  • 數(shù)據(jù)工程師知道非數(shù)學(xué)類的技巧。 我們不是在解決數(shù)據(jù)溢出問題
  • 一位數(shù)據(jù)科學(xué)家思考的是:“我怎樣才能讓計(jì)算機(jī)解決我的數(shù)學(xué)問題?”而一位數(shù)據(jù)工程師思考的是:“我怎樣才能讓計(jì)算機(jī)盡可能快速有效地解決數(shù)學(xué)問題呢?”
  • 公司可以通過使用通用引擎而不是自己編寫引擎來節(jié)省時(shí)間,金錢,也不會(huì)感到難受。

那么數(shù)據(jù)科學(xué)家/數(shù)據(jù)工程師有什么不同?

你已經(jīng)讀到這里,我希望我已經(jīng)說服了你:數(shù)據(jù)科學(xué)家不是數(shù)據(jù)工程師。 但實(shí)際上,他們有什么不同呢?

數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師之間的區(qū)別,就是大數(shù)據(jù)項(xiàng)目成功或失敗的區(qū)別。

從工程角度看數(shù)據(jù)科學(xué)

當(dāng)我第一次開始與數(shù)據(jù)科學(xué)家合作時(shí),我很驚訝他們幾乎從來不向工程方面要求、借鑒、偷師學(xué)藝。 在工程前沿,我們有一些尚未在數(shù)據(jù)科學(xué)方面使用的比較完善的最佳實(shí)踐。 其中一些是:

  • 源碼控制
  • 持續(xù)集成
  • 項(xiàng)目管理框架,如Agile或Scrum
  • 集成開發(fā)環(huán)境
  • 錯(cuò)誤跟蹤
  • 代碼復(fù)查
  • 代碼注釋

你看到我開誠(chéng)布公地提到了我在數(shù)據(jù)科學(xué)團(tuán)隊(duì)中看到的技術(shù)債務(wù)。 讓我詳細(xì)說明為什么我這么擔(dān)心。 當(dāng)我開始推動(dòng)數(shù)據(jù)科學(xué)團(tuán)隊(duì)使用最佳實(shí)踐時(shí),我會(huì)得到兩個(gè)答案:“我們知道,以后再實(shí)施吧”或“我們不需要這些重量級(jí)的工程實(shí)踐。 我們是敏捷團(tuán)隊(duì)。 這些模型尚未投入生產(chǎn)。” 實(shí)際上最佳實(shí)踐從沒得到實(shí)踐的時(shí)候模型就已經(jīng)進(jìn)入生產(chǎn)系統(tǒng)了。這些問題中的每一個(gè)都會(huì)導(dǎo)致技術(shù)債務(wù)的復(fù)合化。

代碼質(zhì)量

你會(huì)將實(shí)習(xí)生的代碼投入生產(chǎn)嗎? 如果您在管理層,請(qǐng)?jiān)儐柲墓こ谈笨偛檬欠裢鈱⒍昙?jí)計(jì)算機(jī)科學(xué)學(xué)生的代碼投入生產(chǎn)。 你可能會(huì)得到?jīng)Q然的否定。 或者他們可能會(huì)說,要在代碼被團(tuán)隊(duì)的其他成員審核之后才能做下一步判斷。

你打算將數(shù)據(jù)科學(xué)家的代碼投入生產(chǎn)嗎? 本文的主旨部分是數(shù)據(jù)科學(xué)家通常是編程的新手,而且他們的代碼正在進(jìn)入生產(chǎn)環(huán)境。 回顧一下數(shù)據(jù)科學(xué)團(tuán)隊(duì)沒有做的最佳實(shí)踐。 沒有任何制衡措施可以防止非專業(yè)的代碼投入生產(chǎn)環(huán)境。

情況變好的原因是什么?

我想通過一點(diǎn)來結(jié)束今天的討論,我們要提到那些仍然認(rèn)為數(shù)據(jù)科學(xué)家是數(shù)據(jù)工程師的人。 或者他們的數(shù)據(jù)科學(xué)家里確實(shí)也是合格的數(shù)據(jù)工程師。 我想重申一下,你可以從圖中看出它是可能的,只是概率相當(dāng)?shù)汀?/p>

如果這是真的,我希望你能想一想為什么會(huì)這樣。

根據(jù)我的經(jīng)驗(yàn),當(dāng)數(shù)據(jù)科學(xué)家與數(shù)據(jù)工程師的比例遠(yuǎn)遠(yuǎn)不一致時(shí),就會(huì)發(fā)生這種情況。 當(dāng)比率走向極端,公司中數(shù)據(jù)工程師為零時(shí),就會(huì)發(fā)生這種情況。 每個(gè)數(shù)據(jù)科學(xué)家應(yīng)該配備兩到五個(gè)數(shù)據(jù)工程師。 這個(gè)比率是必要的,因?yàn)閿?shù)據(jù)工程方面比數(shù)據(jù)科學(xué)消耗更多的時(shí)間。

當(dāng)團(tuán)隊(duì)缺乏正確的比例時(shí),他們很難有效利用數(shù)據(jù)科學(xué)家的時(shí)間。 數(shù)據(jù)科學(xué)家往往會(huì)陷入數(shù)據(jù)工程師熟練掌握的編程部分。我看到太多的數(shù)據(jù)科學(xué)家花費(fèi)數(shù)天的時(shí)間研究數(shù)據(jù)工程師一小時(shí)就能搞定的工作。 這種錯(cuò)誤的感知和解決的問題導(dǎo)致組織雇用更多的數(shù)據(jù)科學(xué)家,而不是雇用合適的人員,去提高流程的效率。

其他時(shí)候,他們誤解了數(shù)據(jù)工程師是什么。擁有不稱職或錯(cuò)誤類型的數(shù)據(jù)工程師同樣糟糕。 您需要確保獲得合格的幫助。 這導(dǎo)致了您誤認(rèn)為不需要數(shù)據(jù)工程師,因?yàn)槟褂眠^的數(shù)據(jù)工程師并不稱職。

我經(jīng)常被管理層詢問他們應(yīng)該如何讓他們的數(shù)據(jù)科學(xué)家在技術(shù)上更加熟練。 我回答說,首先要解決的問題是,一個(gè)數(shù)據(jù)科學(xué)家是否應(yīng)該在技術(shù)上變得更熟練。 這有幾個(gè)重要原因:

  • 對(duì)于一個(gè)不是很技術(shù)的數(shù)據(jù)科學(xué)團(tuán)隊(duì)而言,邊際收益遞減的最低點(diǎn)很早期就會(huì)碰見。他們花了數(shù)個(gè)月學(xué)習(xí)技術(shù),但可能情況永遠(yuǎn)不會(huì)變好。
  • 它假定數(shù)據(jù)科學(xué)家是數(shù)據(jù)工程師。這不對(duì)。最好指定數(shù)據(jù)科學(xué)團(tuán)隊(duì)中具有先天技術(shù)能力的一兩個(gè)人作為培養(yǎng)技術(shù)的目標(biāo)。
  • 這種改進(jìn)的投資回報(bào)率如何? 如果數(shù)據(jù)科學(xué)團(tuán)隊(duì)能力變好了,產(chǎn)出能否變好?
  • 它假設(shè)最高價(jià)值是改善數(shù)據(jù)科學(xué)團(tuán)隊(duì)。 更好的投資可能是改進(jìn)數(shù)據(jù)工程團(tuán)隊(duì),促進(jìn)數(shù)據(jù)科學(xué)和數(shù)據(jù)工程團(tuán)隊(duì)之間更好的溝通、改善他們的關(guān)系。
  • 它假設(shè)數(shù)據(jù)科學(xué)家實(shí)際上想要在技術(shù)上進(jìn)行改進(jìn)。 我發(fā)現(xiàn)數(shù)據(jù)科學(xué)家認(rèn)為數(shù)據(jù)工程是達(dá)到目的的手段。 通過數(shù)據(jù)工程工作,他們可以做有趣的數(shù)據(jù)科學(xué)工作。

我們應(yīng)該做什么?

既然知道了數(shù)據(jù)科學(xué)家不是數(shù)據(jù)工程師,我們?cè)撛趺崔k? 首先,我們必須了解數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師工作的不同。 我們必須意識(shí)到這絕不僅僅是一個(gè)頭銜的問題,我們不會(huì)基于頭銜刻板描述別人。 這是每個(gè)人擅長(zhǎng)什么和他們的核心優(yōu)勢(shì)的根本區(qū)別。

讓數(shù)據(jù)科學(xué)家做數(shù)據(jù)工程任務(wù)充滿了失敗。 相反,讓數(shù)據(jù)工程師做數(shù)據(jù)科學(xué)也會(huì)充滿了失敗。 如果您的組織正在嘗試進(jìn)行數(shù)據(jù)科學(xué),那么您需要兩個(gè)人。 每個(gè)人都必要,且角色互補(bǔ)。

對(duì)于大型公司,您將開始意識(shí)到,首先要分割數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師技能集合,然后需要滿足不同技能集合的人。我建議管理團(tuán)隊(duì)考慮創(chuàng)建一個(gè)機(jī)器學(xué)習(xí)工程師崗位,圍繞這個(gè)崗位做招聘。

大數(shù)據(jù)的成功

正如您在此處所看到的,大數(shù)據(jù)成功的途徑不僅僅是技術(shù) – 管理部分至關(guān)重要。誤解數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師的本質(zhì)只是其中之一。 如果您的大數(shù)據(jù)項(xiàng)目遇到問題,請(qǐng)不要僅僅尋找技術(shù)原因。 潛在的問題可能是管理失敗、團(tuán)隊(duì)協(xié)作失敗。

當(dāng)您對(duì)大數(shù)據(jù)項(xiàng)目停滯或失敗的原因進(jìn)行根本分析時(shí),不要只關(guān)注或責(zé)怪該項(xiàng)技術(shù)。 此外,不要僅僅接受數(shù)據(jù)科學(xué)團(tuán)隊(duì)的解釋,因?yàn)樗麄兛赡軟]有足夠的經(jīng)驗(yàn)去了解或理解失敗的原因。 相反,您需要更深入(令人更加痛苦) 查看導(dǎo)致項(xiàng)目失敗的管理失敗或團(tuán)隊(duì)失敗。

像這樣的失敗具有重復(fù)性和連續(xù)的模式。 您可以轉(zhuǎn)而使用最新技術(shù),但您只是解決了系統(tǒng)問題。 只有通過修復(fù)根本問題,才能走向成功。

Jesse Anderson

Jesse Anderson是Big Data Institute(大數(shù)據(jù)學(xué)院)的數(shù)據(jù)工程師,創(chuàng)意工程師和常務(wù)董事。 Jesse為員工提供大數(shù)據(jù)培訓(xùn),培訓(xùn)內(nèi)容包括Apache Kafka,Apache Hadoop和Apache Spark等尖端技術(shù)。 他教過成千上萬的學(xué)生,這些學(xué)生遍布從初創(chuàng)到財(cái)富100強(qiáng)的各種公司,從他這里獲得了數(shù)據(jù)工程師的技能。 他被廣泛認(rèn)為是該領(lǐng)域的專家,并因其新穎的教學(xué)實(shí)踐而受到廣泛認(rèn)可。 Jesse受到O’Reilly及Pragmatic Programmers的宣傳,并且吸引了類似Wall Street Journal, CNN, BBC, NPR, Engadget, and Wired這種主流媒體的報(bào)道。你可以在Jesse-Anderson.com 了解關(guān)于他的更多信息。

比較蘋果和橘子(來源: Flickr上的frankieleon用戶