在上一教程中,我們介紹了SPSS Modeler 18.0的基礎(chǔ)界面與數(shù)據(jù)導(dǎo)入流程。本篇將深入講解數(shù)據(jù)挖掘的核心前期步驟——數(shù)據(jù)描述性統(tǒng)計與可視化。這些步驟是理解數(shù)據(jù)分布、發(fā)現(xiàn)潛在規(guī)律和異常值的關(guān)鍵,為后續(xù)的建模與分析奠定堅實基礎(chǔ)。
一、 數(shù)據(jù)描述性統(tǒng)計
描述性統(tǒng)計旨在通過數(shù)值指標(biāo)概括數(shù)據(jù)集的基本特征。在SPSS Modeler中,主要通過“輸出”選項板中的節(jié)點來實現(xiàn)。
- “數(shù)據(jù)審核”節(jié)點(Data Audit Node):
- 功能:這是進(jìn)行綜合性描述性統(tǒng)計最強大的工具之一。將其連接到數(shù)據(jù)源后,執(zhí)行運行,它會生成一份詳細(xì)的報告。
- 基本統(tǒng)計量:對于連續(xù)字段(數(shù)值型),提供計數(shù)、均值、中位數(shù)、標(biāo)準(zhǔn)差、最小值、最大值、偏度、峰度等。
- 質(zhì)量評估:顯示每個字段的缺失值數(shù)量與百分比,幫助評估數(shù)據(jù)完整性。
- 分布圖表:自動為字段生成直方圖(連續(xù)變量)或條形圖(分類變量),直觀展示分布形態(tài)。
- 操作:將節(jié)點拖入畫布,連接數(shù)據(jù)源,雙擊節(jié)點可設(shè)置審核的字段和統(tǒng)計選項,然后右鍵執(zhí)行。
- “統(tǒng)計量”節(jié)點(Statistics Node):
- 功能:提供更傳統(tǒng)和定制化的統(tǒng)計量表輸出。用戶可以自由選擇需要計算的統(tǒng)計量(如總和、方差、范圍等)和針對哪些字段進(jìn)行計算。
- 適用場景:當(dāng)需要一份簡潔的統(tǒng)計量匯總表,或?qū)W⒂谀硯讉€特定指標(biāo)時非常有用。
二、 數(shù)據(jù)可視化
可視化是洞察數(shù)據(jù)的眼睛。SPSS Modeler的“圖形”選項板提供了豐富的圖表類型。
- 分布可視化:
- 直方圖:用于查看連續(xù)變量的分布情況、中心趨勢和離散程度??赏ㄟ^“圖形”選項板中的“直方圖”節(jié)點創(chuàng)建。
- 條形圖:用于展示分類變量(如產(chǎn)品類型、地區(qū))各水平的計數(shù)或比例。使用“條形圖”節(jié)點。
- 多變量圖:可以同時查看多個變量的分布及其組合,例如通過面板矩陣圖。
- 關(guān)系與對比可視化:
- 散點圖:探索兩個連續(xù)變量之間相關(guān)性的利器。使用“散點圖”節(jié)點,還可以通過“疊加”功能引入第三個分類變量,用不同顏色區(qū)分點。
- 線圖:適合展示數(shù)據(jù)隨時間或有序類別變化的趨勢。
- 盒須圖:用于比較不同類別下連續(xù)變量的分布,特別擅長識別異常值。它顯示了數(shù)據(jù)的中位數(shù)、四分位數(shù)和極端值。
- 網(wǎng)絡(luò)圖與地圖:
- 對于關(guān)聯(lián)規(guī)則或關(guān)系數(shù)據(jù),可以使用“網(wǎng)絡(luò)圖”。
- 如果數(shù)據(jù)包含地理信息(如國家、省市),可以使用“地圖”節(jié)點進(jìn)行地理空間可視化。
三、 實踐操作流程
- 連接數(shù)據(jù)源:使用“Var.文件”或“數(shù)據(jù)庫”節(jié)點導(dǎo)入你的數(shù)據(jù)集(例如,一個客戶信息表)。
- 執(zhí)行數(shù)據(jù)審核:
- 從“輸出”選項板拖入“數(shù)據(jù)審核”節(jié)點,將其與數(shù)據(jù)源連接。
- 雙擊節(jié)點,在“設(shè)置”選項卡中選擇需要審核的字段。在“質(zhì)量”和“分析”選項卡中可以配置相關(guān)選項。
- 右鍵點擊節(jié)點,選擇“運行”。在右側(cè)的“輸出”瀏覽器中查看詳細(xì)的審核報告,包括統(tǒng)計量表和各字段的分布圖。重點關(guān)注缺失值、極端值和分布形狀。
- 創(chuàng)建定制化圖表:
- 假設(shè)想分析“年齡”與“收入”的關(guān)系。從“圖形”選項板拖入“散點圖”節(jié)點,連接到數(shù)據(jù)源。
- 雙擊節(jié)點,在“字段”選項卡中,將“年齡”設(shè)為X軸,“收入”設(shè)為Y軸。如果想按“性別”區(qū)分,可將“性別”字段拖入“疊加”區(qū)域。
- 在“外觀”選項卡中可以調(diào)整標(biāo)題、顏色等。運行節(jié)點后,即可在輸出窗口看到散點圖,直觀判斷是否存在相關(guān)關(guān)系或群體差異。
四、 核心價值與技巧提示
- 探索性數(shù)據(jù)分析(EDA):描述性統(tǒng)計與可視化是EDA的核心。不要急于建模,先花時間“了解”你的數(shù)據(jù)。
- 異常值處理:通過箱線圖和統(tǒng)計量(如遠(yuǎn)高于均值的標(biāo)準(zhǔn)差)識別異常值,并決定是修正、剔除還是保留。
- 相關(guān)性與趨勢:利用散點圖和線圖發(fā)現(xiàn)變量間的潛在關(guān)聯(lián),這可能直接啟發(fā)特征選擇或模型構(gòu)建方向。
- 流程化:所有生成的節(jié)點和輸出都可以保存在SPSS Modeler的流(.str)文件中,確保分析過程的可重復(fù)性。
通過熟練掌握描述性統(tǒng)計與可視化,你將能更自信地駕馭數(shù)據(jù),揭示其背后的故事,并為后續(xù)的聚類、分類、預(yù)測等高級數(shù)據(jù)挖掘任務(wù)做好充分準(zhǔn)備。在下一篇教程中,我們將進(jìn)入數(shù)據(jù)預(yù)處理階段,學(xué)習(xí)數(shù)據(jù)清洗、轉(zhuǎn)換與集成。
---
本文參考了lyric1在CSDN博客分享的相關(guān)知識框架,并結(jié)合SPSS Modeler 18.0官方功能進(jìn)行系統(tǒng)化梳理與實操闡述,旨在為學(xué)習(xí)者提供清晰的指引。數(shù)據(jù)處理服務(wù)是數(shù)據(jù)科學(xué)項目的基石,而扎實的描述性分析正是這塊基石的第一個關(guān)鍵環(huán)節(jié)。