臺灣家庭動態調查的每位受訪者,在完成首份問卷訪問後,會由計畫小組分派一組由7碼數字組成的樣本編號。此編號為受訪者的固定代號,不會隨調查波次變動。研究者可由樣本編號,進行相同樣本跨波次的合併,或是主樣本與子女樣本的合併。

臺灣調查樣本編號編碼原則

臺灣調查樣本編號由7碼組成

  • 第1至3欄位為地區代碼。但此代碼與實際的地理區域並無對應關係,對於具有相同地區代碼的主樣本受訪者,僅代表這群受訪者在首波抽樣調查時屬於相同區域。
  • 第4欄位為樣本群代碼:0代表1999或2000年抽出的主樣本群,可藉由第2欄位進一步區辨兩群主樣本:第2欄位為0者,代表1999年抽出的主樣本群;大於0者,則為2000年抽出的主樣本群。第4欄位為1者,代表2003年抽出的主樣本群;數值為2或3者,則代表2009年抽出的主樣本群;4代表2016年抽出的主樣本群。樣本群類別亦可參考資料檔中的「主樣本年齡層」變數(變數名稱一般會命名為x01b)。
  • 第5至6欄位為流水號。
  • 第7欄位為戶內樣本編號。若數值為0,代表透過抽樣產生的主樣本;大於0的數值,則代表子女樣本。其中的子女樣本代碼並不代表子女的長幼次序,而與子女樣本納入調查的順序有關。此外,資料使用者可利用資料檔中的「問卷類別」變數(變數名稱一般會命名為x01a),區辨個別受訪者為主樣本或子女樣本。

自前述說明可知,第1至6欄位代表「樣本戶號」,數值相同者代表屬於同一家戶的受訪對象。第7欄位則可用於進一步區分主樣本、子女樣本。 部分受訪者於資料檔中樣本編號變數不足7碼,是因為第1至2欄位或第1欄位數值為0所致。

中國大陸調查樣本編號編碼原則

中國大陸調查資料的樣本編號由5碼數字組成。同一受訪者在不同波次的樣本編號是固定的,不會隨調波次變動。研究者可透過樣本編號,進行相同受訪者不同波次資料的合併。

相同受訪者的跨波資料合併

在追蹤調查中,針對同一位受訪者,可蒐集到不同時點的問卷資料。因此,追蹤資料(panel data)具有受訪者、調查時點兩個維度。

一、寬格式(wide format)的資料合併

若研究者擬合併(merge)相同受訪者不同調查時點的問卷資料,由於同一位受訪者在不同調查時點的資料檔中具有相同的「樣本編號」,可以利用樣本編號進行跨波資料合併。所謂的「寬格式」追蹤資料,是指同一位受訪者(同一樣本編號者)的各期變數資料放在同一行中。
在研究者進行跨波資料合併時需要留意,由於各期資料檔的變數是根據該變數在問卷中對應的題項編號命名,在不同波次的資料檔中,不同的題項可能有著相同的變數名稱,建議先將會使用到的變數重新命名,避免變數的數值遭到覆蓋。在進行寬格式資料合併時,所挑選出來的變數,如果是可能隨著調查時點變動的變數,可在重新命名的變數名稱後加上調查年份以資區別。
對於不同問卷中的同一題項,雖然計畫以儘量維持題目、選項不變為原則,但仍可能有微幅變動。而行業、職業等變項的代碼也可能因為採用的標準分類變動,使得相同的數值在不同波次的資料有著不同的意義。在資料合併之前,也建議先行確認。

二、長格式(long format)的資料合併

若研究者希望將同一變數的各期資料堆疊(append)於同一欄位中,所需注意的事項及處理方式與寬格式資料合併類似。對於所挑選出來的變數,在重新命名後,於進行資料合併前,建議新增一個欄位,標示調查時點,避免合併後無法區辨資料所屬波次(調查時點)。

主樣本與子女樣本的資料合併

對於「家庭動態調查」中源自同一家戶的主樣本、子女樣本,可利用「樣本戶號」進行問卷資料合併。「樣本戶號」除了可由樣本編號的前6個欄位擷取得到外,各期資料檔中,也建有「樣本戶號」及「戶內樣本編號」變數,可直接用以合併主樣本、子女樣本問卷資料。主樣本、子女樣本的合併方式及原則,與相同受訪者的跨波資料合併相似。