監督式回歸問題

機器學習預測北捷人流--隨機森林

使用隨機森林預測台北捷運每天、每時、每站的人流

Harry Cheng

Jul 9, 2021

對住在台北的人來說，捷運是生活中不可或缺的一部分。但許多人可能沒想過，自己每天刷卡進站、出站，北捷其實都有把資料存下來。利用這些資料的預測性質，我們能夠預測未來任何一個時間點的捷運人流。

利用暑假的時間，我嘗試建了一個預測模型，結果還不錯！今天我會帶大家走過整個專案的過程，並且附上我所有的code。

大綱

問題定義
資料處理
探索式資料分析
特徵工程
建模
下一步的討論

問題定義

我們把問題定義為：如何預測北捷在未來某一日/某一時/某一站的人流（進站+出站）

例如：多少人在2021年8/1，16：00 進出捷運市政府站？（預測時間以整點為單位）

這個模型如果成功建出，能夠產生很大的商業/社會價值。我們以不同Stakeholders的角度來探討：

Uber、計程車公司：能夠定出更精準的動態定價模型
台北市政府：模型能夠結合公車班表、Ubike補缺系統，打造更完善的交通服務
捷運商圈商家：透過人流預測決定更好的營運、行銷策略

資料處理

資料下載

第一步要做的事就是抓資料。這個步驟很方便，因為市政府的台北市資料大平台都有開放資料可以使用。

在這邊我只使用2018、2019兩年的資料，為了避開肺炎的影響。當然我們不能保證未來不會再次發生足以影響北捷整體營運的大事件，而且捷運營運狀況也隨時在改變（例如2020年多了環狀線），這部分模型要怎麼適應，在文章最後我會提到。

下載完了資料之後，我把資料讀進Jupyter Notebook，顯示總共有一億七千萬筆，五個欄位，電腦差點一命嗚呼…

資料處理

我做的第一件事，是把問題拆成“進站預測”以及“出站預測”，並且先為“進站”建模。這樣可以直接減少100倍的資料，而且“進站”與“出站”其實是一體兩面，可以使用相同的資料處理步驟以及模型。今天的專案我就先以“進站”為例，“出站”的程式可以在我的GitHub找到（模型結果與進站幾乎一模一樣）。

處理完之後，也順便換了欄位名稱，清爽多了！（還是有一百六十萬筆就是了…）

探索式資料分析

在這部分我根據自己對於北捷的既有認識，進行EDA。

日期與人次之間的關聯

根據我的假設，捷運的人流會依照星期、月份、假日而有所變化。假設也透過視覺化得到驗證。以2018年為例：

每一顆鋸齒都是一個禮拜。一到五為高峰，六日為低谷
不同月份也有人流高低起伏。11、12月偏高
特殊節日也有影響。圖中最低的離群值為除夕

→製造星期、月份、特殊節日的feature

車站與人次之間的關聯

這應該不用特別說了，直接看圖：

熱門車站與冷門車站之間差距極度懸殊（沒錯，最高的那個就是北車）

→需選擇不會被離群值影響太多的模型

→等模型決定之後再決定如何處理【Station】feature

模型選擇

經過EDA，我認為最適合這個資料的模型是隨機森林。

隨機森林是一個簡單粗暴的演算法。簡單是在於它的運作模式相對好懂，不像是神經網路一樣是一個黑盒子；粗暴是在於它是一個Ensemble model，也就是說它是由許多決策樹所組成的，所以計算部分會比較重一點。

如果想要瞭解隨機森林的原理，可以看這支關於決策樹的影片，以及這支隨機森林的影片。我覺得沒有人可以講的比Josh Starmer更清楚了！

那為什麼隨機森林會適合這組資料呢？原因有三：

隨機森林不容易被離群值影響，因為離群值常會被分到一片小樹葉中，不會對其他數值的預測造成影響。Model不會因為台北車站人特別多影響對於其他數值的判斷。
隨機森林可以處理非線性的關係。這組資料feature跟人潮的關係都不是線性的，像是時段跟人潮之間就不是線性關係。
這組資料不會有外推（Extrapolation）的問題。隨機森林比較怕的就是新資料跳出舊資料的範圍，但是這在北捷資料裡不會發生。唯一的可能就是新車站的產生以及新節日的出現。這我們在文末還會多加討論。

特徵工程

新增【DayofWeek】、【Month】以及【Special】（特殊節日）

星期跟月份很簡單，直接從【Date】裡面取出就行了。特殊節日則是直接hardcode。以2018為例，0代表放假，1代表普通日，2代表補班。

用【平均車站單日人流】取代【Station】

這是我嘗試過不同處理方法（例如One Hot Encoding）之後選出來最好的方法。

平均車站單日人流就是在所有訓練資料當中，該車站的人流加總÷所有天數。用這個數來代表車站最能夠體現各車站之間的人流差距。

在做這件事之前，我們必須要先用時間分出訓練資料（Train data）、驗證資料（Validation data）跟測驗資料（Test data），並且只用Train data做【Station】的轉換。這邊不使用一般的Train Test Split是因為使用時間先後分資料的話，我們才是真正在使用過去的資料預測未來的資料，【Station】的轉換也不會誤用到未來的資料。

6成的資料會當做訓練資料。（整個2018年以及2019的一、二月左右）

2成的資料會當做驗證資料。（2019的三月到七月左右）

2成的資料會當做測驗資料。（2019的八月到年底左右）