缺失值的本質(zhì)
缺失值,簡(jiǎn)而言之,就是數(shù)據(jù)集中未能收集到或記錄下的數(shù)據(jù)點(diǎn)。在矩陣式的數(shù)據(jù)結(jié)構(gòu)中,這些缺失項(xiàng)通常以空值(如NaN)的形式存在,它們不僅破壞了數(shù)據(jù)的完整性,還可能對(duì)后續(xù)的數(shù)據(jù)分析和模型構(gòu)建造成不利影響。因此,有效處理缺失值,是數(shù)據(jù)預(yù)處理階段不可或缺的一環(huán)。泛用的缺失值處理*——填充策略面對(duì)缺失值,一種常見的處理方式是采用填充策略??紤]到許多算法無法直接處理包含缺失值的數(shù)據(jù)集,因此,將缺失值替換為合理的估計(jì)值成為了一種可行的解決方案。其中,以均值填充最為普遍,即將缺失值替換為該特征列的平均值。此外,通過Z-score標(biāo)準(zhǔn)化處理,使數(shù)據(jù)均值為0、標(biāo)準(zhǔn)差為1,也能在一定程度上減輕缺失值的影響,因?yàn)榇藭r(shí)填充均值與標(biāo)準(zhǔn)化處理后的結(jié)果具有一致性。不過,這種*雖然簡(jiǎn)便,卻也犧牲了缺失值本身可能攜帶的信息,同時(shí)減少了數(shù)據(jù)的自由度。未定義數(shù)據(jù)的特殊處理未定義數(shù)據(jù)是缺失值的一種特殊形式,通常源于原始數(shù)據(jù)的部分缺失或特定條件下的不可計(jì)算性(如計(jì)算“60日股價(jià)漲幅”時(shí),股票上市未滿60日)。針對(duì)這類數(shù)據(jù),有兩種主要的清洗*:
- 重定義指標(biāo):在數(shù)據(jù)不足的情況下,根據(jù)現(xiàn)有數(shù)據(jù)重新定義指標(biāo)。例如,若只有幾個(gè)交易日的數(shù)據(jù),則直接用這幾個(gè)交易日的數(shù)據(jù)來計(jì)算。這種*保留了盡可能多的信息,但可能導(dǎo)致數(shù)據(jù)失真,特別是在日均交易量等需要較長(zhǎng)時(shí)間跨度來計(jì)算的指標(biāo)上。
- 數(shù)據(jù)刪除:直接將含有未定義數(shù)據(jù)的記錄從數(shù)據(jù)集中剔除。這種做法雖然簡(jiǎn)單直接,但會(huì)減少可用數(shù)據(jù)量,可能影響模型的泛化能力。同時(shí),這也隱含了一個(gè)假設(shè),即模型不應(yīng)從這類數(shù)據(jù)中學(xué)習(xí)。
無交易數(shù)據(jù)的深度處理無交易數(shù)據(jù),如停牌或漲跌停導(dǎo)致的成交量為零的情況,其處理需更加謹(jǐn)慎。對(duì)于股票價(jià)格的缺失值,可以基于市場(chǎng)邏輯進(jìn)行填充,如使用最近成交價(jià)或同行業(yè)指數(shù)變化作為替代。然而,這種*雖在數(shù)學(xué)上具有合理性,卻忽略了停牌背后可能隱藏的重要信息(如財(cái)務(wù)問題、公司重組等),這些信息對(duì)股價(jià)的長(zhǎng)期走勢(shì)具有潛在影響。因此,在填充之前,深入理解數(shù)據(jù)的實(shí)際含義和背后的市場(chǎng)邏輯至關(guān)重要。對(duì)于成交量的缺失值,直接將其設(shè)為零可能忽略了“不能交易”與“沒有交易”之間的本質(zhì)區(qū)別。在可能的情況下,應(yīng)探索更精細(xì)化的處理方式,以保留更多有價(jià)值的信息。