在 Quant 的世界裡,有一句至理名言:'Garbage In, Garbage Out' (GIGO)。 如果你輸入模型的數據是垃圾,那麼無論你的模型多麼高級(即使是用最新的深度學習),輸出的結果依然是垃圾。

在 Quant 的世界裡,有一句至理名言:"Garbage In, Garbage Out" (GIGO)。 如果你輸入模型的數據是垃圾,那麼無論你的模型多麼高級(即使是用最新的深度學習),輸出的結果依然是垃圾。
很多新手以為數據分析就是寫高大上的模型,但現實是,Quant 80% 的時間 都花在了一件枯燥但至關重要的事情上:數據清理 (Data Cleaning)。
金融數據有多「髒」? 真實世界的數據不是教科書裡的完美 CSV。它充滿了陷阱:
缺失值 (Missing Data): 某天交易所服務器當機了,數據空了一塊;或者某隻股票停牌了,價格沒有更新。
處理: 你是刪除這一天?還是用前一天的價格填補(Forward Fill)?不同的處理方式會嚴重影響回測結果。
異常值 (Outliers): 某天股價突然顯示 $0.01,或者成交量是平時的 1000 倍。這可能是「胖手指」(Fat Finger)錯誤,也可能是數據供應商的 Glitch。
處理: 你需要寫腳本去識別並剔除這些不合理的點,否則你的均線會被徹底扭曲。
生存偏差 (Survivorship Bias): 這是最致命的隱形殺手。
陷阱: 如果你拿現在 S&P 500 的成份股去回測過去 10 年的表現,你會發現回報率高得驚人。為什麼?因為你忽略了那些在過去 10 年裡破產、退市的公司(如雷曼兄弟)。你只看到了「倖存者」。
處理: 必須使用包含已退市股票的「Point-in-Time」數據庫。
前復權 vs 不復權 (Adjusted Prices) 這也是新手常犯的錯。當股票除息 (Dividend) 或 拆股 (Stock Split) 時,股價會發生劇烈跳變。
例如:騰訊 1 拆 5,股價從 $500 變 $100。
如果你不做處理,電腦會以為股價暴跌了 80%,發出錯誤的賣出信號。
解決: 必須使用後復權或前復權價格來進行分析,抹平這些人為的價格缺口。
結論 數據清理是一門藝術。它需要你對市場機制有極深的理解。一個優秀的 Quant,必然是一個有潔癖的「數據清潔工」。在你急著把數據丟進 AI 模型之前,請先問自己一句:「這份數據真的乾淨嗎?」