Partial regression plot Vidéo (siehe Methodenbeschrieb in Version 1.2.3 unten).

ExpertInntool zur Ergänzung von logib.admin.ch

Einführung

Das Tool ist für ExpertInnen eine Ergänzung zu logib.admin.ch. Es erlaubt die Analyse und Rekodierung von Funktionen mit unmittelbarer Berechnung der Basis-Regression (altes Logib) und der Standardregression von logib.admin.ch, wobei die gesamte Lohngleichung ausgewiesen wird.

Es können nur Exporte von logib.admin.ch importiert werden. Die rekodierten Daten können als datalist heruntergeladen und als solche mit entsprechenden Angaben bei der Importeinstellung wieder in logib.admin.ch importiert werden.

Ein Data-Reset erlaubt Ergebnisse ohne Export und Reimport von verschiedenen Rekodierungen zu vergleichen.

Die Kennedy-Korrektion wird ausgewiesen, sowie die berechnete (Modalwert) und für die Vollzeitstandardisierung (100%) genutzte betriebsübliche wöchentliche Arbeitszeit.

Beschrieb

Das momentane Tool besteht aus den 5 Modulen:

  1. Upload,
  2. Funktionen-Kodierung,
  3. Diagnostik,
  4. Funkt-BY,
  5. Alternative Modelle. In den Modulen 1,2 und 3 wird die Standardregression (inkl. zwei weitere Modelle) ausgewiesen.

Die Standardregression im Modul 1. Upload beruht jeweils auf den geladenen Originaldaten und ist nicht durch Äenderungen in den Modulen 2 und 3 beeinflusst, was Vergleiche ermöglicht.

Das Modul 2. Funktionen-Kodierung erlaubt die einheitliche Rekodierung der Funktionen sowie deren Analyse in einem Scatterplot mit wählbaren numerischen X- und Y- Variablen.

Daten-Aenderungen im Modul 2 führen zur Aufdatierung der Daten in den Modulen 3-5. Datenausschlüsse im Modul 3 haben jedoch keinen Einfluss auf die hinterlegten Daten in Modul 1,2, 4 und 5. Was den Vergleich von 3 unterschiedlichen Datenzuständen respektive Standardregressionen erlaubt.


Versionen

1.2.3

  • 3 Diagnostik, die neue Option 6 Partial regression (lnlohn | others vs geschle | others) erlaubt den Einfluss einzelner Beobachtungen auf den Geschlechter Koeffizienten (Steigung) zu untersuchen, da wichtige Bebachtungen mit Hebelwirkung auf den Koeffizienten graphisch identifiziert werden können und deren Einfluss durch Ausschluss beziffert werden kann (siehe Video oben).

Der Effekt des Geschlechts in der multiplen Regression (Standardregression Logib) ist der Netto-Lohneffekt, wenn für alle anderen Faktoren (others) konntrolliert wird. Anders ausgedrückt: Wenn others bereits ihre Wirkungen entfaltet haben, welchen zusätzlichen, von others linear unabhängigen Einfluss hat dann noch das Geschlecht ? Um dies zu veranschaulichen können zwei Hilfsregressionen 1 und 2 gerechnet werden:

1. \(lnlohn = \beta_0 + \beta_i others + e_{lnlohn}\)
2. \(geschle = \beta_0 + \beta_i others + e_{geschle}\)
3. \(e_{lnlohn}=\beta_1e_{geschle}+e\) (Die Gleichung 3 ist graphisch in der Option 6 dargestellt)

Die Residuen der ersten Regression \(e_{lnlohn}\) sind jene Werte, die durch \(others\) nicht linear erklärt werden können. In diesen Werten ist der Einfluss von \(others\) entfernt oder kontrolliert. (Jedoch nicht jener des Geschlechts)

In der zweiten Regression wird der Einfluss von \(others\) aus dem Prädiktor \(geschlecht\) entfernt. Die Residuen \(e_{geschle}\) enthalten nun Werte, die nicht durch \(others\) linear erklärt werden können.

lnlohn|others vs geschle|others

Um nun die Frage zu beantworten, welchen Nettoeinfluss \(geschle\) auf \(lnlohn\) hat, wird die dritte Regression 3 gerechnet. Die Residuen der ersten Hilfsregression werden auf die Residuen der zweiten Hilfsregression regridiert. Eine Regressionskonstante ist diesmal nicht nötig, da der Mittelwert der Residuen jeweils Null ergibt und die Gerade somit bei P(0,0) durch den Ursprung läuft.

Das heisst, dass nun das um \(others\) bereinigte \(geschle\) den um \(others\) bereinigten \(lnlohn\) voraussagen soll. Der Koeffizient \(\beta_1\) dieser Regression wird partieller Regressionkoeffzient genannt, da er nur jene Teile (Parts) der Beziehung erklärt, an denen \(others\) keinen Anteil mehr hat. Sein Wert ist identisch mit dem Geschlechter Koeffizienten der multiplen Logib-Standardregression.


1.2.2

  • 4 Funkt-BY, neu mit Variablenbeschrieb.
  • Var Dok Variablenbeschrieb in der Sidebar
  • 3 Diagnostik, 4*mean(cook's D) Linie in Cook's d vs Leverage Plot
  • Behind the scene: Variablenbeschrieb (Abruf in Var Dok und 4 funkt-BY) als list( in vartxt.rds (binary file) für global fast load in global.R gespeichert. Ermöglicht einmaligen load und Zugriff aller Benutzer.

1.2.1

4 Funkt-Quantile wird zu 4 Funkt-BY, weil nicht nur numerische Variablen nach Funktion und Geschlecht als Quantile untersucht werden könnnen, sondern auch die kategoriellen Variablen aus (Ausbildungsniveau), bkn (betriebliches Kompetenzniveau) und bst (berufliche Stellung) und deren Prozentanteile.

1.2

  • 5 Alternative Modelle

Die entsprechend genutzten non base Pakete sowie deren Versionen werden auf dem Server dynamisch angegeben. Da die Entwicklungsumgebung nicht gezwungenermassem dieselben Versionen nutzt wie der Prod-Server.

  • Doubly Robust
    • Abwesenheit eines Geschlechts in einer Merkmalsausprägung (BST,BKN) führt per definition zu NA
  • Interaction mit Wahl für Vertrauensintervall (95%) oder Lohngleichung
  • Quantil-Regressionen 10%,25%,50%,75%,90%
    • rank based Vertrauensintervall nur wenn N<1000, da sehr rechenintensiv.
  • Oaxaca-Decompostion (Three-Fold)
    • Abwesenheit eines Geschlechts in einer Merkmalsausprägung (BST,BKN) führt per definition zu Abbruch. Muss noch verbessert werden.

Mögliche Verbesserung: dynamischer Aufbau der Methodenwahl nach Datenstruktur.

1.1.4

  • 4 Funkt-Quantile
    • Ermöglicht Verteilungsanalysen von numerischen Variablen nach Kombinationen Funktion-bkn-bst-geschle.

1.1.3

  • 3 Diagnostik
    • Punkte und Zonen können neu einzeln oder addiert mit SHIFT+CLICK/SELECT von der Analyse ausgeschlossen werden.
    • RESET button für Kein Ausschluss erscheint, wenn Ausschlüsse definiert sind.

1.1.2

  • 3 Diagnostik
    • Einführung von Marker-Size-Slider
    • Ermöglichung partial upate, d.h., die Daten werden bei Slider-Änderungen nicht mehr neu geladen, sondern im Browser (client-side) angepasst. Dies erlaubt ein persistentes Zoomen auch bei Slideränderungen.

1.1.1

  • 3 Diagnostik: Abschwächung Plot-Hintergrundfarbe, liniendicke der Symbole erhöht. Einführung Opacitiy-Slider für Erkennung von Datendichten bei vielen Daten. Dieser muss vor dem Zoomen eingestellt werden, da bei Aenderung alle Datenpunkte wieder geladen werden.

Version 1.1

  • 2 Funktionkodierung: Korrektion der Hintergrundfarbe für die gewählten Popup-Information durch Verhinderung von Überlagerungen identischer Punkte (Gesamtsample (Grau) und gewählte Funktionenkodierung (non-unique)).

  • 3 Diagnostik: Abschwächung Plot-Hintergrundfarbe, liniendicke der Symbole erhöht. Einführung Opacitiy-Slider für Erkennung von Datendichten bei vielen Daten. Dieser muss vor dem Zoomen eingestellt werden, da bei Aenderung alle Datenpunkte wieder geladen werden.