Wissen Finden
auf Improve WiFi

Gini-Koeffizient bei gruppierten Daten - Herleitung, Berechnung & Interpretation anhand von Beispiel


Der Gini-Koeffizient gibt an, wie die Merkmalsausprägungen von Merkmalsträgern verteilt sind. 1 bedeutet z.B im Kontext von Vermögen, dass eine Person alles gehört und den restlichen Personen nichts.

Der Gini-Koeffizient wird berechnet, indem man die Konzentrationsfläche durch die maximale Konzentrationsfläche dividiert.

Schauen wir uns also mal an, was es mit den beiden Konzentrationsflächen so auf sich hat und zeichnen dazu ein Koordinatensystem ein, indem wir eine Lorenzkurve und eine Gerade, in diesem Kontext Winkelhalbierende, einzeichnen. 

Die winkelhalbierende Gerade hat eine Steigung von 1, d.h. das für jeden x-Wert der gleiche y-Wert (betragsmäßig) zugeordnet wird. Aus diesem Grund gibt die Winkelhalbierende die absolute Gleichverteilung an.

Gedankenexperiment: Wenn auf der x-Achse eine Anzahl von Personen und auf der y-Achse eine Anzahl von 1€ Münzen als Einheit abgebildet werden würden, dann würde eine Person den x-Wert 1 annehmen und der dazugehörige y-Wert wäre ebenfalls 1. Würde man für x den Wert 2 einsetzten, dann würde dies im Kontext bedeuten, dass man zwei Personen hat. Hier wäre der y-Wert 2, sodass man schlussfolgern kann, dass wenn die erste Person 1€ hat, eine zweite Person dazu kommt und das Geldvermögen auf 2€ anwächst,  beide Personen jeweils 1€ Geldvermögen haben und die Gerade somit die absolute Gleichheit modelliert.

Die Fläche zwischen der Winkelhalbierenden Gerade und der Lorenzkurve ist die Konzentrationsfläche, die Gesamtfläche unter der Winkelhalbierenden, also die Fläche eingegrenzt durch die x-Achse, wird als maximale Konzentrationsfläche bezeichnet.

Die der x-Achse bildet die Summe aller Merkmalsträger ab, in unserem Fall die Bevölkerung aller EU- Länder (kumulierte Werte).

Auf der Y-Achse wird die Merkmalssumme, in unserem Fall die Summe der BIPs/Kopf aller EU-Länder abgebildet (kumulierte Werte). 


Kumuliert man alle BIPs/Kopf der Bevölkerung aller 6 EU-Länder, so kommt man zu dem kumulierten Betrag von 230,7 [Tausend Euro], welcher ja auch bereits in der Tabelle ablesbar ist. Diese 230,7 tausend Euro als Gesamtsumme der Merkmalsausprägungen sind folglich 100% oder als Dezimalzahl ausgedrückt, 1.

Auf der x-Achse tragen wir die Gesamtbevölkerung der 6 EU-Länder ein, welche insgesamt bei 231 Millionen liegt.

Diese 231 Millionen umfassen also 100% der kumulierten Bevölkerung der einzelnen EU-Länder, dessen jeweilige Bevölkerungsanzahl wir der Tabelle entnehmen können. Setzten wir die Bevölkerungsgrößen der einzelnen Länder in Relation zur Gesamtbevölkerung von 231 Millionen, so erhalten wir die relativen Anteile bzw. Häufigkeiten und können somit auf der x-Achse diese relativen Anteile in % eintragen.

Nachdem aus der Tabelle die x und y Werte entnommen und entlang der Achsen eingezeichnet haben, müssen wir nur noch die xy-Koordinatenpunkte einzeichnen und anschließend miteinander verbinden. Die nun entstehende kurvenförmige Linie ist die Lorenzkurve.

Betrachtet man die Fläche unterhalb der Lorenzkurve und stellt sich vor, von jedem Koordinatenpunkt würde eine senkrechte Linie zur x-Achse führen, so kann man sehen, dass die Fläche sich in mehrere rechtwinklige Trapeze unterteilen lässt, bis auf das erste Intervall, bei dem wir ein Dreieck haben.

Dies ist mit der Berechnungsweise von rechtwinkligen Trapezen zu erklären. 

Rechtwinklige Trapeze sind Vierecke mit zwei Parallelen Seiten und zwei rechten Winkeln, welche im Falle der Fläche unterhalb der Lorenzkurve zwischen der waagerechten x-Achse und den senkrechten  parallelen Kanten liegen, welche die Breite des Trapezes definieren.

Die Fläche eines Trapezes ergibt sich, indem man den die Höhe der ersten, in diesem Fall linken parallelen Seite addiert mit der Höhe der rechten parallel Seite und die Summe anschließend durch zwei dividiert.

Das Ergebnis multipliziert man anschließend noch mit der Breite des Trapezes. 

Dies wenden wir nun auf unser Fallbeispiel an. Komischerweise erhalten wir ein Ergebnis über 0,5 (was im Kontext nicht möglich ist, da die maximal mögliche Konzentrationsfläche 0,5 beträgt)

Wo liegt also der Fehler ?

Der Fehler liegt darin, dass wir bei der y-Achse als Einheiten zwar die Merkmalsausprägungen kumuliert haben, diese jedoch in absoluten Werten vorliegen. Da wir wissen, dass 230,7 [Tausend Euro] BIP/Kopf die kumulierte absolute Summe der Merkmalsausprägungen ist und somit 100% der Merkmalsausprägungen abdeckt, können wir durch eine Division die relativen prozentualen Anteile ausrechen.

Diese müssen wir nun ebenfalls kumulieren und haben dann unsere richtigen y-Werte, nämlich die relativen kumulierten Häufigkeiten und nicht die absoluten kumulierten Häufigkeiten. 

Mit den neuen y-Werten rechnen wir nun nochmal die Fläche des ersten Trapezes bzw. Dreiecks aus und erhalten 0,0152, ein sehr realistischer Wert. Bei der Berechnung nutzen wir nicht die Prozentwerte, sondern rechnen diese durch zweifache Kommaverschiebung in Dezimalzahlen um.

 Anschließend machen wir mit dem nächsten Trapez weiter. Die Höhe der linken Trapezkante ist äquivalent zur Höhe der rechten Kante des vorherigen Dreiecks und beträgt 0,114, die rechte Kante des aktuellen Trapez weist eine Höhe von 0,2453 auf.

Wir teilen die Summe von 0,114 und 0, 2453 durch 2 und multiplizieren sie mit dem Abstand der beiden Kanten, im Kontext ist es die relative Bevölkerungsanzahl von Deutschland an der Gesamtbevölkerung der 6 EU-Länder, also 82 Millionen geteilt durch 231 Millionen, und als Ergebnis erhalten wir 0,0637.

Nachdem wir den Flächeninhalt aller 6 Trapeze berechnet haben, können wir nun die Konzentrationsfläche bestimmen, welche nötig ist, um den Gini-Koeffizienten zu berechnen.


 Um die Konzentrationsfläche berechnen zu können, benötigen wir zunächst die Fläche zwischen Lorenzkurve und x-Achse. Diese berechnen wir, indem wir alle 6 der Trapeze addieren.

Als Ergebnis erhalten wir 0,4444.

Diese Fläche müssen wir nun von der maximal möglichen Konzentrationsfläche subtrahieren, um die Konzentrationsfläche, also die Fläche oberhalb der Lorenzkurve begrenzt durch die Winkelhalbierende Gerade zu berechnen.

Grundlage dafür ist die Kenntnis über die Fläche der maximal möglichen Konzentrationsfläche, welche 0,5 beträgt. Falls du dich fragst, wie man auf 0,5 kommt, schau dir Fläche und du wirst erkennen, dass es sich um ein rechtwinkliges Dreieck mit der Kathetenlänge 1 handelt. Zur Berechnung nutzt man natürlich ebenfalls nicht die Prozentwerte, sondern die um 2 Kommastellen bereinigten Dezimalwerte. 

Mittels der maximalen Konzentrationsfläche von 0,5 und der Fläche zwischen Lorenzkurve und x-Achse mit dem Wert 0,4444 können wir nun die Konzentrationsfläche bestimmen, indem wir von der maximal möglichen Konzentrationsfläche die Fläche unterhalb der Lorenzkurve abziehen, also 0,5 -0,4444 rechnen.

Als Ergebnis erhalten wir den Wert 0,0556. Die Konzentrationsfläche beträgt also 0,556. 

Eingesetzt in die Formel zur Berechnung des Gini-Koeffizienten, Konzentrationsfläche geteilt durch maximal mögliche Konzentrationsfläche, erhalten wir den Wert 0,1132.

Der Gini-Koeffizient beträgt also 0,1132. Möglicherweise ist der Wert hier auf die 4 Nachkommastelle nicht sehr akkurat da wir bei der Berechnung zum Teil gerundete Werte genutzt haben, allerdings spielt diese keine große Rolle, wenn es um die Interpretation geht.

Ein Gini-Koeffizient kann Werte zwischen 1 und 0 annehmen, wobei ein Wert von 1 eine komplette Ungleichverteilung bedeutet und ein Wert von 0 bedeutet, dass eine komplette Gleichverteilung vorliegt.

Im Hinblick auf unseren Aufgabenkontext kann man sagen, das das BIP/ in der Bevölkerung bzw. in der Gesamtmenge der 6 Länder sehr gleichmäßig verteilt ist und es mit Luxemburg zwar ein Land gibt, welches ein deutlich höheres BIP pro Kopf aufweist, allerding mit einer Bevölkerung von 0,5 nur einen kleinen Teil der Gesamtbevölkerung ausmacht und der Unterschied somit nicht stark ins Gewicht fällt.

Die Kontrolle, ob unser Ergebnis stimmen könnte, kann man durch Abschätzen sehr gut abwiegen. So haben die zwei Länder mit der höchsten Bevölkerung, Frankreich und Deutschland, nahezu das gleiche BIP/Kopf. Das bedeutet, dass 147 Millionen von 231 Millionen (deutlich mehr als 50%) eine nahezu gleich Wirtschaftsleistung pro Kopf aufweisen.

Somit ist von einem Wert niedriger als 0,5 sehr sicher auszugehen.