在研究项目中,数据可能从各种各样的来源被收集:邮件调查、访谈、事前测试或者事后测试的实验数据,观察数据等等。这个数据必须被转成机器可读的、数字格式,比如电子表格或文本文件,以使它们可以被电脑程序分析,如SPSS或SAS。数据准备通常需要遵循以下的步骤。
数据编码。编码是将数据转化成数字格式的过程。需要创建一个编码簿来指导编码过程。编码簿是一个综合的文件,其包含研究中每个变量的详细描述、那些变量的条目或计量、每个条目的格式(数字、文本等等)、每个条目的反应尺度(例如,它是按名义变量、顺序量表、等距量表还是等比变量来计量;这样的量表是五点式、七点式还是一些其他类型的),以及怎样将每个值编码成数字表格。例如,如果我们有一个用七点式李克特量表计量条目,锚点从“强烈不同意”到“强烈同意”变化,那么我们可以这样编码这些条目,1表示“强烈不同意”,4表示“中性”,7表示“强烈同意”,中间的锚点介于其间。名义变量如行业类型,可以按照这样一套编码计划的数以字形式编码:1表示制造业,2表示零售业,3表示金融业,4表示医疗业,以此类推(当然,定类数据不能被统计分析)。定比数据,如年龄、收入,或测试得分可以按照应答者进入那样编码。有时,数据可能需要被加总成不同于数据搜集格式一样的格式。比方说,为了计量如“电脑的好处”这样的构念,如果一项调查向调查对象提供一个好处的清单,他们从中进行选择(即,他们可以选择他们想要的尽可能多的好处),那么受查条目的总数可以被用作好处的一个总体计量。注意许多其他形式的数据,如访谈手稿不能被转换为用于统计分析的数字格式。编码对于大量复杂研究尤为重要。这些研究中包括许多变量和计量条目,编码过程被不同的人实施,为了帮助编码团队按照一致的方式编码,而且为了帮助其他人解释编码数据。
数据输入。编码数据可以被录入电子表格、数据库、文本文件或直接进入统计程序如SPSS。大多数统计程序提供录入数据的数据编辑器。然而,这些程序以它们自己的原本格式存储数据(比如,SPSS以.sav文件存储数据),这将使得在其他统计程序中共享数据变得困难。因此,一般来说将数据录入电子表格或数据库中比较好,这样数据可以根据需要被重整,在程序中共享,而且数据的子集可以为分析而被提取。更小的数据集,一般少于65000个观测值和256个条目,可以存储在如Microsoft Excel的电子表格中。然而拥有几百万观测值的较大数据集就需要一个数据库。每个观测值被录入进电子表格中的每行,每个计量条目列在每列中。输入的数据需要在输入过程中或结束后被经常检查其准确性,可以通过对一组条目和观测值的不定期抽查。而且,当录入数据时,编码者应该注意明显较差的数据,如调查对象选择“强烈同意”回答与内容无关的所有条目,包括反向编码的条目。如果这样,这些数据可以被录入但应该从随后的分析中被剔除。
缺失值。缺失数据是任何实证数据集不可避免的一部分。如果它们用词模糊或太敏感的话,调查对象可能不回答特定的问题。此类问题应该在事前测试中尽早地被发现,而且在主数据收集过程开始前被改正。在数据录入时,一些统计程序自动地将空白记录视为缺失值,而其他程序则要求录入具体的数字值如-1或999来代表缺失值。在数据分析中,大多数软件程序中处理缺失值的默认模型是仅仅删掉整个观测值,包括即使一个单一的缺失值,该技术叫成列删除法。此类删除会显著减少样本规模,使得发现细微影响极其困难。因此,一些软件程序允许选择将缺失值替代成估计值,通过一个叫插补法的程序。例如,如果缺失值是一个多要素尺度的条目,缺失值可能是调查对象对剩余条目在那个尺度上反应的平均值。如果缺失值属于单要素尺度,许多研究者用其他调查对象对那个要素反应的均值作为插补值。如果缺失值是系统而不是随机的,此类插补可能会有偏误。两种可以产生相对无偏估计的插补方法是最大似然程序和多重插补方法,它们都被流行的软件程序如SPSS和SAS所支持。
数据转换。有时有必要在数据可以被有意义地解释前转换数据值。例如,反向编码要素表达了与它们潜在的构念相反的意思,应该在它们与没有反向编码的要素比较或结合前被反转(例如,在1-7的间隔尺度中,8减去观测值将反转原值)。其他类型的转换可能包括通过增加单个尺度要素创造尺度计量,从一组观测的测度中创造加权指数,以及将多个值拆叠为更少的分类(例如,将收入值拆叠为收入的变化)。
- 4033 reads