更新時(shí)間:2022年11月22日14時(shí)10分 來源:傳智教育 瀏覽次數(shù):
在幾乎所有的數(shù)據(jù)工作中,凡是涉及矩陣的數(shù)據(jù)計(jì)算,一般都要求數(shù)據(jù)不包含NA值,如果包含NA值,則無法計(jì)算均值、最大值、方差等。因此NA值的處理應(yīng)該放在所有數(shù)據(jù)清洗和預(yù)處理工作的首位。
相似問題:與NA值相似的還有2個(gè)值:正無窮和負(fù)無窮。在某些處理邏輯下,可能會(huì)產(chǎn)生這2類值。在Python中,float('inf')表示正無窮,-float(‘-inf’)表示負(fù)無窮。凡是涉及數(shù)據(jù)計(jì)算,這2類值與NA值一樣,其所在列都無法計(jì)算,因此都需要轉(zhuǎn)換處理。
直接拋棄異常值
異常數(shù)據(jù)通常被認(rèn)定是一種“噪聲”。產(chǎn)生數(shù)據(jù)“噪聲”的原因很多,如業(yè)務(wù)運(yùn)營操作、數(shù)據(jù)采集問題、數(shù)據(jù)同步問題等。處理異常數(shù)據(jù)前,需要先辨別出到底哪些是真正的數(shù)據(jù)異常。當(dāng)數(shù)據(jù)的“異常”是由于業(yè)務(wù)特定運(yùn)營動(dòng)作產(chǎn)生時(shí),它其實(shí)是正常反映業(yè)務(wù)狀態(tài),而不是數(shù)據(jù)本身異常的規(guī)律。因此,在這個(gè)狀態(tài)下,必須保留看似異常的結(jié)果,否則業(yè)務(wù)的真實(shí)狀態(tài)無法反映到數(shù)據(jù)中。
相似問題:另外還有一類必須保持原有異常值的場景是后續(xù)數(shù)據(jù)應(yīng)用的場景是異常檢測,如果把異常數(shù)據(jù)剔除,會(huì)直接導(dǎo)致異常檢測結(jié)果失效。
北京校區(qū)