Tab og Sum i STATA

Kommandoerne tab og sum er meget anvendt i STATA. Her forklarer jeg hvad du kan bruge dem til, og forskellige detaljer omkring hvordan du bruger dem.

Når du har et stort datasæt, er det nogle gange vigtig at få et overblik over hvilke data du har og gruppere dem på en måde, så du får et overblik. Her kan kommandoerne tab og sum ofte anvendes.

Sum (Summarize)

Kommandoen Sum hedder også ofte Summarize. Den anvendes til at opsummere nogle statistiske parametre for angivne variabler. Hvis jeg for eksempel skriver:

sum AGE

Så får jeg følgende opsummering af variablen AGE.

Denne viser at vi har 443 observationer for denne variabel. Middelværdien er 80,81106, standardafvigelsen er 6,766803, den mindste værdi er 70 og den højeste værdi er 99. Bemærk at sum kommandoen virker kun hvis variablen er en taltype. Er det en streng vil antal observationer kun blive angivet til 0, og du får ingen værdier for de andre ting. Hvis du alligevel mener at strengen indeholder tal og du vil bruge sum, skal du konvertere den til en taltype. Her kan du bruge kommandoen destring:

destring GENDER, replace

Dette konverterer GENDER til en taltype og erstatter den gamle variabel. Herefter kan du køre sum kommandoen igen.

Tab (Tabulate)

Tab kaldes også for tabulate. Denne skaber også en oversigtstabel for en given variabel, men her listes de forskellige værdier der ses i variablen.

tab GENDER

Herudover vises frekvensen, dvs. antallet af gange denne værdi ses i variablen. Der vises også den procentielle fordeling – både enkeltvis og kumuleret procent.

Hvis du angiver to variabler, f.eks.:

tab AGE GENDER

Vil du få en 2-dimensionel tabel, hvor du kan se hvor mange der har forskellige værdier i begge variabler.

Betingelser

Både ved sum og tab kan du angive betingelser som skal være opfyldt for at data kan medtages i beregningen. F.eks. kan jeg vælge at værdien af parameteren “dup” skal være lig med 0.

sum AGE if dup==0

Bemærk her at der anvendes == for at sige lig med. Hvis parameteren er en streng skal der “” omkring værdien. Du kan også anvende henholdsvis >=, <=, > eller < for at angive større eller mindre end. Operatoren != betyder ikke lig med.

Det kan også være du skal angive flere betingelser. Her skal du bruge & for at både betingelse 1 og betingelse 2 skal være opfyldt (BÅDE-OG) – og | for at enten betingelse 1 eller betingelse 2 skal være opfyldt (ENTEN-ELLER).

Blanke værdier har i STATA den højest mulige værdi. Så hvis du siger noget skal være højere end en bestemt værdi, medtager du faktisk alle de blanke værdier. For at undgå det, kan du skrive !missing(AGE) for at angive at det er en betingelse at AGE skal være udfyldt.

Leave a Reply

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *