《圖解大數據必學統計基礎》讀書筆記

65 個統計學知識點/ 50 個經典學習案例!

Peggie
Feb 28, 2021
Photo by Carlos Muza on Unsplash

▌前言

在大數據時代,傳統的思維模式受到嚴厲的挑戰,除此之外企業取得與儲存資料的難度也下降。然而,該如何分析、判斷與解讀數據背後的意義,已成為資料科學家面對環境變化中的首要課題,必須透過深入挖掘事物的關聯來獲得更多的洞見與認知,進而驅動產品規劃的決策與服務。

▌內容摘要

書籍主要以大數據的角度切入,深入淺出介紹統計學這門學科,按照「案例」、「知識點」及「分析」的分類,提供統計的學習架構,另外以「新聞事件」作為輔助,提升讀者閱讀的樂趣與理解程度。

Photo by Markus Winkler and Striving Blogger on Unsplash

共分為八大章節,分別為「大數據時代下的統計學」(統計學的基本原理、應用領域及資料獲取的方法)、「樣本魅影」(比較統計學與大數據兩者的核心思維,強調兩者結合使用的重要性),、「描述資料」(如何有效提煉有用的資訊)、「常態女神」(介紹常態分佈理論與應用)、「統計推斷」(講述統計推斷是用樣本估計總體的)、「變數間的關係」(重點講述相關關係,還有內涵、方法和運用)、「統計雜談」(介紹熱門應用的理論)以及「大數據,在水一方」(探討大數據的商業價值)。

▌重點歸納

  1. 大數據時代下的統計學
    不同人對大數據的定義有些許的差異,不過根據《大數據時代》的作者維克多·麥爾·荀伯格( Viktor Mayer-Schönberger)所言,大數據代表的是「一個多維、複雜、多源而又高速變化的資料海洋」,並且強調不能把大數據理解為資料規模很大。
    統計為一門以資料為基礎的學科,資料是數字,而蒐集資料的目的是希望能以高效率、高準確度的方式來分析,轉換數字成為有用的洞察內容。以下為幾個提及的知識點。
    (1)隨機性
    隨機事件要滿足以下條件:(a)在條件基本相同的情況下,要有可重複性。(b)即使條件完全相同,在事情沒發生以前,人們也無法預測它的結果。
    (2)機率
    (3)「必然會發生」和「必然不會發生的」事件
    (4)資料的類型:資料由變數產生,因此變數的類型決定的資料的類型。根據Stanley Smith Stevens在1946的《科學》期刊終將變數分為四大類型:無序分類變數(Nominal)、有序分類變數(Ordinal)、定距變數(Interval)及定比變數(Ratio)。
    (5)相關關係(伴隨發生)與因果關係(導致發生)
  2. 樣本魅影
    樣本簡單來說就是透過一部分的個體來預測整體,可所謂「窺一斑而知全豹,觀滴水可知滄海」的寫照。
    (1)抽樣誤差
    (2)響應誤差
    (3)有效性(Validity)及可靠性(Reliablity):衡量問卷的兩大重要指標〔圖1〕。
  3. 描述資料
    均值、中位數、標準差、標準誤(多個樣本均值的標準差)、資料視覺化(【入門級】Excel、【線上工具】Google Chart API、Flot、Raphael、D3、【圖形化使用者介面】Crossfilter、Tangle、【地圖工具】Modest Maps、Leaflet、OpenLayers、CartoDB、【專家級】R、Weka)
  4. 常態女神
    期望變異數(用來衡量隨機變數和它的期望值之間的偏離程度。當資料比較分散時,各個樣本點偏離期望的程度就越大、資料波動越大,變異數也越大)、離散型機率分布、連續型機率分布、大數定律(描述當試驗次數很大時所呈現的機率性質的定律,表達了大量重複出現的隨機現象的統計特性,亦即頻率及結果的穩定性)、中心極限定理常態分布
  5. 統計推斷
    點估計信賴區間兩類錯誤假設檢定(統計顯著 vs. 實際顯著、架設檢定 vs. 信賴區間、單側檢驗 vs. 雙側檢驗)、p值(假說檢定中假設虛無假說為真時觀測到至少與實際觀測樣本相同極端的樣本的機率。很小的p值說明在虛無假說下觀測極端結果的發生機率很小)
  6. 變數之間的關係
    散點圖(XY散佈圖)、卡方分析(卡方分布、卡分檢驗:對於實際值的分布數列與理論數列是否在合理範圍內相符合)、相關性分析(相關係數t統計量)、ANOVA(ANOVA F統計量)、迴歸分析(迴歸分析T檢驗、迴歸分析F檢驗、擬合優度R2)
  7. 統計雜談
    貝葉斯、SAS(SAS與微軟結為策略合作夥伴,目前免費試用)、SPSS(很容易於操作與學習,但安裝必須要付費)、R(免費,而且有龐大的社群在背後支持)、Stata、Minitab、Excel
    ★其他資源介紹:
    (1)常用的數據分析工具 — Python、R、SPSS(行銷資料科學)
    (2)資料分析學習路徑整理 (從Beginner到Advanced階段的建議)
  8. 大數據,在水一方
    BI(Business Intelligence,商務智慧)、MI(Market Intelligence,市場智慧)與CI(Consumer Intelligence,消費智慧)、大數據應用〔圖2〕
〔圖1〕衡量問卷的兩大重要指標,有效性及可靠性 //reurl.cc/Kx4vee
〔圖2〕大數據應用金字塔 https://reurl.cc/mqrN27

▌案例列舉

  1. 迴歸與電影:Google的電影票房預測模型
    (1)方法:一開始Google使用的是一元線性模型,只要搜尋量一個指標來預測票房收入,但發現這樣是不夠的,因為搜尋量只能解釋70%票房收入。後來經過審慎評估後,最終採取了以下三個指標作為依據,分別是「電影預告片的搜尋量」、「同系列電影前幾部的票房」以及「檔期的季節特徵」。〔圖3〕
    (2)原因:網際網路的出現改變了人們舊有的思考和行為方式,如果遇到不懂、欲了解的問題,就會想要在google引擎上查詢一下相關資料,這讓公司意識到電影的搜尋量與票房很可能有某種程度的關聯。
    (3)結果:刺激電影公司購買他們的搜尋廣告
    (4)可改善的地方:並沒有對使用者需求進行挖掘,無法得知觀眾的使用者輪廓、動機等因素
  2. 信賴區間:美國蓋洛普公司的民意調查
    蓋洛普為全球知名的民意與商業調查公司,專長是分析選民、員工或是消費者的行為,提供適當的政策、執行方向建議。
    其曾經做過一項調查,內容為人們對於美國製作的產品看法如何?其中調查者有3500人,來自3個國家(美國、日本及德國),在這3個國家中認為美國產品品質好的比例為美國55%、德國26%、日本17%,報告也表示此次調查的抽樣誤差為±3。
    根據抽樣誤差和蓋洛普公司所製作的樣本百分比可以求出一個涵蓋參數真值的區間,即為「信賴區間」。
  3. 化妝品銷售額與廣告費的關係分析
    《爸爸去哪兒》第二季的廣告招標會中伊利股份以3.1199億元的天價得到節目獨家冠名贊助權,這讓人思考廣告費真的能為企業帶來高額的利潤與成長呢?伊利股份的策略是正確的嗎?
    書裡介紹了一項針對不同地區15家商場有關化妝品銷售額(Y)及其廣告費支出(X)(單位:萬元)的調查報告,其中發現把表格中X.Y數字內容轉成「X-Y離散圖」之後,兩者有同時增加的趨勢,代表前述的假說與分析結果一致,確實提高廣告費的支出影響了銷售額的表現。〔圖4〕
    「根據伊利股份2014年發布的財報中可以看到,2013年底冠名贊助《爸爸去哪兒》後,公司前三季度的營業收入同比成長14.13%,歸屬於上市公司股東的淨利潤同比增長41.44%。」(文字擷取自p.109)不難看出為什麼伊利公司願意在《爸爸去哪兒》第三季以5億元的價格冠名贊助。

書中的分析就大概介紹到這裡,而我額外搜尋接下來幾年公司的財務狀況與分析。「根據2015年年報顯示,伊利公司的營業總收入達到了603.6億元,同期實現淨利潤46.54億元,綜合收入也從2014年的全球乳業第10名進入第8名。液體乳産品實現主營業務收入471.51億元,較上期增加47.45億元,同比增長11.19%。根據AC尼爾森零研資料顯示,2015年12月,伊利集團液態奶産品零售額市占份額比上年同期提升了2.5個百分點。」看著這些資訊顯示,讓我好奇公司大幅成長的業績背後,是否還有贊助商之外的行銷策略?首先注意到的是:

渠道滲透能力。
2015年伊利加強對傳統渠道的精細化管理,通過建立「以購物者爲核心」的服務團隊,爲零售客戶和經銷商提供專業服務,強化在市場上的競爭優勢與產品銷售關係。

接著是,加強戰略合作。
積極開發電商、便利店以及餐飲、藥店等新興渠道,也與大型零售商合作,增進曝光與兩方的商業布局。

全産業鏈與金融模式。
從上游的全球奶源質量掌握、中游的加強研發,再到下游的管道擴張,可以看到伊利一連串的改變,值得一提的是,也藉由互聯網和大資料實現精準行銷,提升消費者黏著度的展現。

還有是,品牌設計、定位、管理與營銷模式。
除了前面提及利用《爸爸去哪兒》的節目增加宣傳效果之外,也在《奔跑吧兄弟》、《最強大腦》等平臺進行品牌傳播,同時也有手機APP的服務,拉近與消費者之間的距離。

小結:由上述的離散圖可以看到數據點繪製成的圖表趨勢和關聯,整體而言,費用成本、廣告曝光量兩組數據呈現增長趨勢,可以說廣告曝光量和費用成本之間有關係,但如果要比較兩組以上的數據時就會不太適合。除此之外,公司倚靠廣告效益發酵而出現的劇烈成長,背後原因源自於領導人員的決策、公司營運的轉變。總括而言,大數據驅動企業發生變革,在相關性分析下得到解決的線索,以理性、客觀的方式活用數據,最終引入企業決策流程。

〔圖3〕Quantifying Movie Magic with Google Search
〔圖4〕(非書中的圖片)銷售量與廣告之間相關性,《外商投資銀行超強 Excel 獲利法》時報出版

結論

書藉由許多新聞、事件陳述來解釋枯燥的理論與公式,從中了解不同變數之間的關係及學習該如何運用,總而言之,要先了解資料分析的方法、具備基本概念,然後找尋軟體學習作進一步延伸,當匯集越來越多資料後,就會需要結構化資料來分類,方便在需要時派上用場。這是一本工具書的存在,透過統計的軸心強化,試圖帶領讀者踏入資料科學的大門,未來在面對各種商業問題時(e.g.民意調查、銷售品與廣告費用的分析、手遊營運),能夠在收集、管理之餘,透過分析與推論的技能來解讀資訊,做出更好的決策。

--

--

Peggie

Culture | Sustainability | Study notes | All you need now is little imagination.