首頁>新趨勢>大數據資料科學家 神機妙算大數據

  • DSP智庫驅動創辦人暨知識長謝宗震》
  • 大數據資料科學家 神機妙算大數據
  • 劉子寧/作者
  • 鄭名娟/攝影
  • 資料科學家不僅能透過大數據找出現實中未被發現的祕密,更可以預測未來可能發生的事情,防患問題於未然。資料科學是一門入世的學問,真相不在數字裡,而是在人心與世界。
  • 《30》雜誌 2016年7月號 第143期 │ 2016-6-29


2014 年8月1日凌晨,高雄地區傳出氣爆意外,數個小時間高雄多個地區發生連環爆炸,造成32人死亡、321人受傷,如此突發的重大災難,急促的時間內常出現傷患送醫過程的困難:在不清楚高雄地區各醫院急診資源的狀況下,我們該把傷患送去哪間醫院可以最快得到照顧與治療?如果高雄地區的醫院滿了,我們是否該送病患去台南?在天災之外,我們如何降低後續人禍的延伸效應?

也許我們可以從《穀倉效應》書中的一個例子裡,找到未來的救星:2011年4月25日同樣是凌晨,紐約一處貧民社區的嚴重火警造成多人喪生,一時間大家開始點名罪魁禍首,而紐約市政府當然也在其中。

但問題來了,在紐約市,住宅火警稀鬆平常,原因是消防檢查隊與住民不成比例──200人:400萬人,又沒有足夠經費增加消防預算,怎麼辦?還好,「資料科學家」出現了。

這個資料科學團隊整理紐約市的火警資料,但卻發現這些資料無法預測火警,於是乾脆走出辦公室,跟不同警察局、消防局、房屋署、建築部的檢查人員出去,不斷修正假設。終於線索浮現:他們發現當一棟建築物同時具備「房貸欠繳」、「歷史久遠」、「住戶貧窮」這些特徵時,則失火與違建的比率高出很多。

紐約市政府半信半疑的採用了這套資料科學模型作為未來住屋建築的檢查標準,結果相當驚人,原本只有13%被通報的房屋有問題,如今這個數字竄升為70%。

結論是,你意想不到的數據,在資料科學家的巧手之下,將成為解決社會問題的最佳救星。

在「八一氣爆」的例子中也不例外,台灣資料科學家、DSP智庫驅動知識長謝宗震就分享,由「Code for Healthcare」機構主辦、以「八一氣爆」為核心問題的工作坊,就集結資料科學團隊,透過每5分鐘更新的急診室資料蒐集與運算,建立起一套即時的數據系統,讓未來重大災難發生的當下,可以透過App即時告訴救護人員:傷患應該優先送到哪間醫院?是否該向台南醫院尋求協助?有些醫院雖然略遠,但是否急診室不用排隊?

甚至,在工作坊之後,相關單位也開始思考,是否有可能透過數據去重整醫療資源與人力?半夜3點到底需要幾個輪值的醫護人員?被批「血汗」的醫療工作環境,有沒有還工作者健康生活的一天?

大學念數學、碩博士班念統計的謝宗震認為,自己作為統計人,長處就是把一個真實世界的問題轉換成資料科學問題,「資料科學其實是一門入世的學問,我相信數據最後是要為人所用的,不然它就失去意義。」謝宗震說。

核心能力》資料思考的直覺

最入門的態度,就是資料思考(Data Thinking),指的是你能不能在問題出現的時候,直覺的想到可以解決問題的數據來源?舉例來說,你是一個賣場的老闆,你想要提升營業額,有哪些關鍵的數字是你要抓出來比對的?可能是銷售數字、庫存數字、行銷方案。

以資料科學解決真實問題的工作流程來看,可以分成4個步驟:定義問題、規畫藍圖;收集資料、整理資料;建立模型、分析資料;最後再以分析結果回答問題。如果再深入以資料科學中不同角色的扮演,則可以分成3大核心角色:

1. 資料經理人(Data Managers):

從企業管理觀點,藉由資料探索問題的脈絡定義問題,進而規畫資料科學團隊的工作藍圖。

2. 資料工程師(Data Engineers):

執行資料收集計畫,再將資料整理成易於分析的資料結構,擁有建構基礎設施的能力。

3. 資料分析師(Data Analysts):

將真實問題轉換至資料科學問題,以探索性分析建立模型假設,透過模型執行預測性分析,提出推論並輔助決策。進階的資料分析師還要做到資料分析系統開發、增進大數據分析效益等技能。

而綜合了以上3種能力的人才,則被稱作「資料科學家(Data Scientist)」,這種橫跨多重領域的人才在現實生活中無疑是萬中選一的超人,因此,謝宗震才會創辦DSP智庫驅動,希望透過資料科學教育的推廣,培養出在不同領域各有所長的資料科學團隊,也是一種發揮資料價值的方式。

「最重要的是領域知識,我在每個專案前都要做一堆功課,知道這個領域平常都在做什麼之後才能用熟悉的數學工具、統計工具、機器學習工具,去對應它真實的問題,」謝宗震說,「好比一個電信業者要提升營業額,忠誠客戶很重要,所以我要找出忠誠客戶,但要怎麼找?用什麼方法?這樣的轉換能力是最珍貴的。」

他表示,成為資料科學家最短的路徑其實是去資工系裡學機器學習,同時可以學到統計與程式開發,但學不到的產業知識與實務經驗,就要靠參加類似DSP主辦的「D4SG資料英雄計畫」這類活動,透過政府開放資料去實作專案。

產業實作》不斷溝通才能建立信任

受限於台灣產業的資料科學素養大部分不夠成熟,謝宗震坦承自己每天都要花很多時間幫企業做資料思考,讓他們有商業的資料思維,反而很難專注在產品開發跟精進。有時候不同的資料分散在企業的不同部門裡,光是要把資料對齊就已經非常可怕,更別說有時候資料根本不足以解決問題,最後發現走進死胡同。

所幸,現在有愈來愈多人開始注意大數據帶來的轉型,好比電商及服務業也都導入資料科學團隊進駐,這是因為大數據有以下這些功能:

1. 分群:

把市場做微區隔,像歐巴馬就在自己的網站上讓支持者加入會員,其中必須填區碼(居住地),好讓他們可以為特定地區量身訂做一些政見推播給他們看。

2. 分類:

把數據中的標籤集結出來做分類,像現在常見的推薦機制、廣告優化都屬於這個分類。

3. 找特徵:

將各種資料交叉分析,找出問題所在。像是「D4SG資料英雄計畫」就將環保署農地列管資料與農試所重金屬超標數據交叉,找出哪些超標農地未被列管,好讓我們能解決問題。

若能將現實生活中無論是企業、社會所遭遇的問題,都透過數據思考釐清解方,未來數據將能成為許多複雜問題的最佳救星。

【延伸閱讀】其他9大熱門新興職缺

■ 雲端× 雲端系統架構師

■ 物聯網 × 物聯網工程師

■ 機器人 × 機器人研發工程師

■ FinTech × FinTech 專案經理人

■ 人工智慧 × AI人工智慧經理

■ VR/AR × 虛擬實境設計師

■ 電子商務 × 電子商務顧問

■ 內容行銷 × 數位內容製作人

■ 社群經營 × 社群編輯

馬上按讚,加入30雜誌粉絲團