Methodik

Diese Seite beschreibt das theoretische Fundament, die Itemkonstruktion und die mathematische Auswertung. Sie ist bewusst transparent gehalten, damit Sie Ihre Ergebnisse selbst einordnen können.

1. Theoretisches Modell: Cattell-Horn-Carroll

Grundlage ist die heute führende integrative Theorie kognitiver Fähigkeiten, die Cattell-Horn-Carroll-Theorie (CHC). Sie strukturiert Intelligenz in drei Schichten (Strata):

Stratum III: die allgemeine Intelligenz (g-Faktor).
Stratum II: ca. 10 sogenannte Broad Abilities (z. B. Gf, Gc, Gv, Gs, Gsm, Gq, Glr, Ga).
Stratum I: engere, aufgabenspezifische Fähigkeiten, die sich in einzelnen Items zeigen.

Im vorliegenden Test werden sechs Broad Abilities erfasst: Gf (Fluid Reasoning), Gc (Crystallized), Gv (Visual Processing), Gs (Processing Speed), Gsm (Short-term / Working Memory) und Gq (Quantitative Knowledge).

2. Itemkonstruktion

Alle Aufgaben sind eigenständige Neukonstruktionen. Es wurden keine Items aus urheberrechtlich geschützten Testverfahren (z. B. Raven, WAIS/WISC, IST, CFT, BOMAT) übernommen. Übernommen wurden lediglich die allgemein bekannten Konstruktionsprinzipien (Matrizen, Zahlenreihen, verbale Analogien, Mentalrotation, Papierfalten, Ziffernspanne, Zeichenvergleich). Diese Prinzipien gehören zum Stand der psychometrischen Wissenschaft.

Jedes Item hat folgende Parameter:

id, domain, subtype
difficulty_b – Schwierigkeitsparameter auf Logit-Skala (−3 … +3), durch Expertenurteil geschätzt (Rasch-kompatibel).
a_discrimination – Trennschärfe, default 1,0.
time_limit_sec – Zeitlimit pro Aufgabe.
rationale – dokumentierte Lösungsregel (nicht angezeigt während des Tests).

3. Berechnung Schritt für Schritt

3.1 Rohwert pro Domäne

Korrekte Antworten werden nach Schwierigkeit gewichtet:

raw_d = Σ_{i ∈ d}  correct_i · (1 + 0,3 · b_i)

Damit zählen schwierige Items mehr als leichte. Die Gewichtung ist bewusst mild (0,3) gewählt, um Punktrauschen bei einzelnen Items zu begrenzen.

3.2 Standardisierung (z-Transformation)

Pro Domäne wird der Rohwert gegen eine theoretische Referenzverteilung standardisiert:

z_d = (raw_d − μ_d) / σ_d

μ_d und σ_d werden aus der Rasch-Erwartung bei mittlerer Fähigkeit (θ = 0) abgeleitet:

p_i = 1 / (1 + exp(b_i))
E[raw_d] = Σ (1 + 0,3 · b_i) · p_i
Var[raw_d] = Σ (1 + 0,3 · b_i)² · p_i · (1 − p_i)
σ_d = √Var[raw_d]

Die konkreten Werte pro Domäne sind in data/norms.json hinterlegt und lassen sich aus items-*.json reproduzieren.

3.3 Gesamt-z als gewichteter Mittelwert

z_total = 0,30·z_Gf + 0,20·z_Gc + 0,15·z_Gv + 0,10·z_Gs + 0,10·z_Gsm + 0,15·z_Gq

Die Gewichte sind Annäherungen an typische g-Ladungen aus der CHC-Literatur (Carroll 1993; McGrew 2009). Sie sind nicht aus einer eigenen Stichprobe geschätzt.

3.4 Transformation in die Wechsler-IQ-Skala

IQ = 100 + 15 · z_total

Der Anzeigebereich ist auf [55, 145] begrenzt, da außerhalb dieses Bereichs kurze Online-Screenings grundsätzlich nicht mehr verlässlich differenzieren.

3.5 Konfidenzintervall

Bei angenommener Reliabilität r_xx = 0,85 (theoretischer Annahmewert, transparent dokumentiert) ergibt sich der Standardmessfehler:

SEM = SD · √(1 − r_xx) = 15 · √0,15 ≈ 5,81

Das 95 %-Konfidenzintervall ist damit IQ ± 1,96 · SEM ≈ IQ ± 11. Diese Unschärfe wird auf der Ergebnisseite stets mit ausgegeben.

3.6 Prozentrang

PR = Φ(z_total) · 100

Φ ist die Verteilungsfunktion der Standardnormalverteilung. Numerisch wird die Abramowitz-Stegun-Approximation 7.1.26 verwendet (absolute Abweichung < 1,5 · 10⁻⁷).

4. Grenzen und Unsicherheiten

Keine empirische Normstichprobe: die verwendeten μ und σ sind theoretisch abgeleitet, nicht aus einer repräsentativen Stichprobe der deutschen Allgemeinbevölkerung geschätzt.
Reliabilitätsannahme: r_xx = 0,85 ist ein plausibler, aber nicht empirisch geprüfter Annahmewert. Tatsächliche Reliabilität eines kurzen Online-Tests dürfte je nach Ausführungsbedingungen niedriger liegen.
Tagesform / Situation: Online-Tests sind sensibel gegenüber Konzentration, Müdigkeit, technischer Umgebung und Übung.
Kulturfairness: Gc (verbales Wissen) und Gq (mathematisches Denken) sind unvermeidlich sprach- und bildungsabhängig.
Kein Ranking-Anspruch: Vergleichsgrößen wie „Mensa-Niveau“ oder „Hochbegabung“ werden bewusst nicht verwendet, da sie eine klinisch-standardisierte Diagnostik voraussetzen.

5. Literaturhinweise

Zur weiterführenden Einarbeitung in CHC, IRT und Wechsler-Skalen:

Carroll, J. B. (1993). Human cognitive abilities: A survey of factor-analytic studies. Cambridge University Press.
Horn, J. L. (1968). Organization of abilities and the development of intelligence. Psychological Review, 75(3), 242–259.
McGrew, K. S. (2009). CHC theory and the human cognitive abilities project. Intelligence, 37(1), 1–10.
Wechsler, D. (2008). Wechsler Adult Intelligence Scale – Fourth Edition (WAIS-IV). Pearson.
Embretson, S. E., & Reise, S. P. (2000). Item Response Theory for Psychologists. Lawrence Erlbaum.
Abramowitz, M., & Stegun, I. A. (1972). Handbook of Mathematical Functions. 10. Auflage. Abschnitt 7.1.26.

Die Auflistung dient der Einordnung des verwendeten Theoriegebäudes. Sie bedeutet ausdrücklich nicht, dass der vorliegende Test von den genannten Autoren geprüft oder validiert wurde.