別把「大數據」想得太難！100多年前的英國醫生，如何用資料科學防止霍亂擴散？

BOO 成功語錄打开 2018年3月27日2018年3月27日

Sponsored Ads

別把「大數據」想得太難！100多年前的英國醫生，如何用資料科學防止霍亂擴散？
數位化數據分析

在AI、大數據當紅的近年，常有EMBA學生和業界朋友問我，他們時常看到或聽到，某跨國企業又利用「大數據」開發出新商機的新聞。這其中有些概念很有趣，也很實用，但整體而言，「大數據」對他們公司來說似乎還是抽像模糊、可望而不可及，想要運用卻不知該如何著手。大數據真的有那麼神嗎？公司所擁有的客戶或營業資料，算是大數據嗎？該如何有效地運用這些資料呢？

碰到這些問題，我總是請他們稍安勿躁，先靜下來想想：公司有哪些數據？累積多久了？資料格式大致如何？有專人負責維護或分析嗎？過去都拿數據做什麼用途？公司的決策多數倚靠經驗，還是數據？……

Sponsored Ads

這一系列的提問，很適合拿來問大部份的公司，因為這些問題就是大數據的入門，而相關的數據也經常存在你我身邊，能否掌握這些數據資料，關係著公司的成長和未來。現在，且先聽我說幾則故事。

大數據的存在：俯拾皆是

「早上起床發現喉嚨痛，可能是昨天被隔壁感冒的同事傳染了。這兩天也一直聽到有人掛病號。這一波流感有什麼症狀？該去看哪位醫生？」念頭至此，習慣性地打開電腦，先向「谷歌」大神求診。

當你在Google「搜尋欄」打上「喉嚨痛」三個字時，其實你已經在幫谷歌大神產生大數據了。因為一個人喉嚨痛可能沒什麼，但如果同時段內，你居住的台北市也有一萬個人正在搜尋「喉嚨痛」時，你大概可以猜到：台北市的流行感冒已經是山雨欲來了。

這時候，如果將這一萬人用來搜尋的電腦位址，全部以「光點」方式套疊在GPS地圖上，又發現光點幾乎都集中在大安區，衛生單位是不是就可以初步研判─大安區極可能是這一波流行感冒的「熱區」？如果感冒疫情還沒開始流行肆虐，是否就能未雨綢繆地宣導、建議民眾在大安區的公共場所戴上口罩，防止病情擴散？

事實上，Google還真的透過大數據分析，對美國5,000萬個使用者常用的搜尋字串，以及2003~2008年間季節性流感的傳播資料進行比對，並透過機器學習的方式，發展出預測流感的模型。有趣的是，Google透過大數據進行的分析結果，其準確性遠勝於公部門運用專屬資料所獲得的預測結果。

大數據的由來：歷史已久

其實類似上述光點套疊地圖的概念，早在十九世紀就有了。接下來我要說的故事，若用今天的眼光來看，並不完全符合大數據的標準，但故事主角對資料的蒐集、整合與詮釋，以及因而所產生的影響，其實也可算是大數據的先河了。

1854年8月31日到9月3日，英國倫敦蘇活區（SOHO）爆發了嚴重的疫情，光這四天就有127人死於霍亂，接下來更有超過500人死亡。那時的醫學觀點普遍認為，這個病是透過空氣傳播，只要避免接觸混濁的空氣，就可遠離疾病。但這樣的做法似乎沒什效果，也無法抑制霍亂的持續擴散。

當時一位名為約翰‧斯諾（John Snow）的醫師對此進行研究，他一一訪談蘇活區的住戶，並仔細檢視病人資料後，發現似乎所有的霍亂死亡病例，都圍繞在布拉德街水泵（Broad Street Pump）附近。其中只有10個死例距離該水泵較遠，而更接近別的水泵。但這10個死例中，有5例由於對水質的偏好，而仍從布拉德街水泵取水；有3例則是在布拉德街水泵附近學校就讀的孩童。

約翰‧斯諾高度懷疑霍亂可能是透過水源所傳染，而非逸散的惡劣空氣所致。他將病患住家與水泵的位置一一標記在地圖上，如同前述的流感光點套疊地圖作法，這張地圖就是日後在公衛界著稱的倫敦鬼圖。（見下圖）

Sponsored Ads

約翰‧斯諾將這圖以及對霍亂病源的推測，呈報給倫敦市政府衛生主管當局，隔天市政府就派人拆除了布拉德街水泵的把手，以阻止民眾繼續在該處取水。而他本人也因這創意的資料視覺化呈現，和深具洞見的病源推測而名留青史。

大數據的重點：在量更在質

我講這些故事，並不是要稱讚Google有多神，或討論光點套疊地圖的技術有多厲害。而是要說明，大數據其實是由日常生活或企業營運的許多個別資料所構成，當資料累積到一定數量後，就可能產生「由量變到質變」的現象和新價值。

很多人以為要有幾百萬、幾千萬筆資料，或達到多少GB、TB甚至PB才算是大數據，其實，這並不是很正確的觀念。當然，「量」愈大愈可能代表資料的全貌，但同等、甚或更重要的是數據的「質」。

數據的「量」很容易看到，資料有多少筆一目了然；但「質」就隱諱許多，需要研究者注意是否有 garbage in garbage out （意指將錯誤、無意義的資料輸入電腦，自然會輸出錯誤、無意義的結果）的現象，而且即便是「質」佳的資料，也需研究者跳脫舊有思考模式，以新觀點檢視並非顯而易見的數據內涵。

對多數企業或部門來說，很多決策無關乎大數據或較複雜的統計分析，而與小資料*及產業的領域知識（Domain Knowledge）有關，有時，只要幾千筆，甚至幾百筆資料，就已足夠做有意義的分析。

* 對小資料有興趣的讀者可進一步閱讀：Ross, Jeanne W., Cynthia M. Beath and Anne Quaadgras (2013), “You May Not Need Big Data After All,” Harvard Business Review, December, 90-98.

前述約翰‧斯諾所用的數據，充其量也不過幾百或幾千筆而已。但他卻能整合基礎病例、訪談內容和地址資料（就這點而言，他的做法非常符合大數據的多樣性variety 概念），充分發掘數據豐富的「質」，而見人之所未見，大膽推測霍亂與地緣的關係，並找到有問題的水泵，這樣的洞見思維才是大數據分析更重要的意義。

我們可以做什麼：先盤點公司資料的量和質

如果你是中小企業的經營者或主管，請回頭想想，貴公司歷年來累積了多少顧客資料、供應商資料、銷售品項、數量、金額等？公司裡是不是有專人管理和分析這些被稱為「數位時代」的「原油」呢？還是空有這些素材，卻是以各種不同形式或格式，散置公司各處而乏人問津？

有心的管理者，或許可花時間盤點一下公司資料的量和質，而後針對想瞭解的議題，進行相關資料的蒐集和統整。然後，找較年輕、熱情，有一些統計背景，最好還有R或Python程式撰寫經驗的同事，和他們共同討論，發想看看能否有新角度的分析。

共同的期勉

凡事總有個開始，無論是上述對中小企業管理者提問的初步回答，或邀集公司同仁對資料分析的初步嘗試，都可大幅提升公司進入大數據領域的機會。這小小的嘗試，很可能因此開始了貴公司的「大數據」元年。

以上的故事，談到了資料蒐集、大數據、機器學習、資料視覺化（或資料可視化）等「資料科學 Data Science」的許多基礎概念。將這些概念單獨或整合移植到行銷領域的應用，就是我們在台灣科技大學企管系「行銷資料科學團隊」所努力的。我們將結合本團隊的能量，陸續分享相關的理論和實務，期能為台灣的行銷資料科學發展貢獻一點心力。