2014年3月17日

取得「大數據」商業價值的關鍵是人

上周文章談及Big Data「大數據」的產生。但事實上,嚴格來說,一般企業能用得上 「大數據」規模的分析不可能太多。因為Big Data的其中一個特點是量(volume)大,最少是在數十 TB(Terabyte)到數 PB (Petabyte)之間。所以除非是像 Google 那樣要每月處理900多億次的網路搜尋、共600 PB(petabyte)的數據量,才算是Big Data。
無論如何, 在這資料爆炸時代,企業要制定競爭優勢,少不免要用上「數據分析」。企業進行的「數據分析」,包括了Data Warehouse(數據倉儲)與Data Mining(數據探勘)。Data Warehouse儲存企業與所有客戶往來的交易數據,成為企業行銷與決策的參考工具,至於Data Mining就是從龐雜的數據中篩選出有用資訊,並善用各項資訊科技工具加以分析與解讀。
數據科學家人才難覓
但是數據探勘的工作是否一定能為企業創造更高的商業附加價值(added value)?美國當下知名的統計與預測鬼才席爾瓦(Nate Silver)否定了。
席爾瓦指出,就算真的擁有「大數據」Big data的行業,其中的專家與決策者雖然掌握海量數據,但因為未能分辨出那些是無意義的雜訊,及那些才是關鍵的訊號(signal),往往誤把雜訊(noise)當訊號,所以仍不斷做出失敗的判斷。
故 此,在「數據分析」中,無論統計模型、數學分析、電腦應用程式等決策功能有多麼強大,仍無法取代人的理解能力。事實上,決策模型(decision model)只能提供的數據,是屬於企業無法影響(cannot influence),所以「數據分析」提供了預測(prediction)。
企業要把預測數據轉化成附加價值,必須由人作出企業可以影響的決定,去產生理想效果。
既 然企業在「大數據」的附加價值的關鍵仍是人,那麼進行「數據分析」中不可缺少的是那一類人才呢?直覺告訴大家,這類人才最低限度要擁有統計及程式的能力。 要找到這類人才不難,他們的專業名稱是「數據科學家」(data scientist) ,他們的專業訓練是能做好Data Warehouse(數據倉儲)與Data Mining(數據探勘)的工作。
可是要能從數據分析後分辨出適合訊號及決定出企業可以影響的行動,就不是統計及程式專家的能力。這人必須熟悉該企業領域的知識(Domain Knowledge) 。
所以真正能把適合的數據訊號提升競爭優勢的人才是應兼備三種能力範疇:統計、程式、及該企業領域的知識(Domain Knowledge)。
可是企業要找到一個熟悉領域知識(Domain Knowledge)的Data Scientist是不容易。如何解決這人才難覓的問題?
Nate Silver反對人才培養方面太早便專門化,他認為要領域知識(Domain Knowledge)最重要,如Microsoft的研究員一樣,每天四處聽演講、參加研討會。要從數據取得商業價值,先要對領域有認知及熱情。反而數據 分析的其他技術可以遲一步才學。
另一方面,在哥倫比亞大學開辦 Data Sciences 課程的 Rachel Schutt建議企業,應以一群分別是擅長統計(Statistics)、數學(Mathematics)、資訊工程(Computer Science)、機器學習(Machine Learning)、資料視覺化(Data Visualization)、溝通(Communication)、領域知識(Domain Knowledg)等的專家團隊來跟Business user(包括內部高層、客戶及市場大眾)作溝通。
參考:Rachel Schutt, Cathy O'Neil, "Doing Data Science: Straight Talk from the Frontline". Kindle edition. 2013
http://www.mckinsey.com/Insights/Strategy/The_benefits_and_limits_of_decision_models
http://blogs.hbr.org/2013/09/nate-silver-on-finding-a-mentor-teaching-yourself-statistics-and-not-settling-in-your-career/
作者為理工大學專業進修學院高級講師

沒有留言: