ExpertInntool zur Ergänzung von logib.admin.ch
Einführung
Das Tool ist für ExpertInnen eine Ergänzung zu logib.admin.ch. Es erlaubt die Analyse und Rekodierung von Funktionen mit unmittelbarer Berechnung der Basis-Regression (altes Logib) und der Standardregression von logib.admin.ch, wobei die gesamte Lohngleichung ausgewiesen wird.
Es können nur Exporte von logib.admin.ch importiert werden. Die rekodierten Daten können als datalist heruntergeladen und als solche mit entsprechenden Angaben bei der Importeinstellung wieder in logib.admin.ch importiert werden.
Ein Data-Reset erlaubt Ergebnisse ohne Export und Reimport von verschiedenen Rekodierungen zu vergleichen.
Die Kennedy-Korrektur wird ausgewiesen, sowie die berechnete (Modalwert) und für die Vollzeitstandardisierung (100%) genutzte betriebsübliche wöchentliche Arbeitszeit.
Beschrieb
Das momentane Tool besteht aus den 6 Modulen:
- Upload,
- Funktionen-Kodierung,
- Diagnostik,
- Funkt-BY,
- Alternative Modelle. In den Modulen 1,2 und 3 wird die Standardregression (inkl. zwei weitere Modelle) ausgewiesen,
- Analyse für Untergruppen.
Die Standardregression im Modul 1. Upload beruht jeweils auf den geladenen Originaldaten und ist nicht durch Änderungen in den Modulen 2 und 3 beeinflusst, was Vergleiche ermöglicht.
Das Modul 2. Funktionen-Kodierung erlaubt die einheitliche Rekodierung der Funktionen sowie deren Analyse in einem Scatterplot mit wählbaren numerischen X- und Y- Variablen.
Daten-Änderungen im Modul 2 führen zur Aufdatierung der Daten in den Modulen 3-5. Datenausschlüsse im Modul 3 haben jedoch keinen Einfluss auf die hinterlegten Daten in Modul 1,2, 4 und 5. Was den Vergleich von 3 unterschiedlichen Datenzuständen respektive Standardregressionen erlaubt.
Einheitliche Funktionen-Rekodierung
Das Modul Funktionen-Rekodierung erlaubt die einheitliche Rekodierung der Funktionen sowie deren Analyse in einem Scatterplot mit wählbaren numerischen X- und Y- Variablen, siehe auch Beschrieb unten. Nach jeder Rekodierung werden die Ergebnisse neu erzeugt (hier nicht sichtbar), wobei die Ursprungsdaten jederzeit mit einem Reset-button geladen werden können.

Einheitliche Funktionen-Rekodierung
Partial regression plot Video (siehe Methodenbeschrieb in Version 1.2.3 unten)
Versionen
Versionenbeschrieb …
1.2.6
Einführung von 8 anstelle von 4 Anforderungsniveaus (ohne Anpassung der Anzeige)
1.2.5
zu Ergänzen
1.2.4
Da die die shiny-funktion withMathJax(includeMarkdown(“includeRG.md”)) zur Anzeige von Gleichungen scripts von remote Servern einbindet, wird neu direkt HTML Code, der lokal mit pandoc und markdown generiert wird, eingebettet. Somit funktioniert die Anzeige auch off-line.
1.2.3
- 3 Diagnostik, die neue Option 6 Partial regression (lnlohn | others vs geschle | others) erlaubt den Einfluss einzelner Beobachtungen auf den Geschlechter Koeffizienten (Steigung) zu untersuchen, da wichtige Beobachtungen mit Hebelwirkung auf den Koeffizienten graphisch identifiziert werden können und deren Einfluss durch Ausschluss beziffert werden kann (siehe Video oben).
Der Effekt des Geschlechts in der multiplen Regression (Standardregression Logib) ist der Netto-Lohneffekt, wenn für alle anderen Faktoren (others) kontrolliert wird. Anders ausgedrückt: Wenn others bereits ihre Wirkungen entfaltet haben, welchen zusätzlichen, von others linear unabhängigen Einfluss hat dann noch das Geschlecht ? Um dies zu veranschaulichen können zwei Hilfsregressionen 1 und 2 gerechnet werden:
1. \(lnlohn = \beta_0 + \beta_i others + e_{lnlohn}\)
2. \(geschle = \beta_0 + \beta_i others + e_{geschle}\)
3. \(e_{lnlohn}=\beta_1e_{geschle}+e\) (Die Gleichung 3 ist graphisch in der Option 6 dargestellt)
Die Residuen der ersten Regression \(e_{lnlohn}\) sind jene Werte, die durch \(others\) nicht linear erklärt werden können. In diesen Werten ist der Einfluss von \(others\) entfernt oder kontrolliert. (Jedoch nicht jener des Geschlechts)
In der zweiten Regression wird der Einfluss von \(others\) aus dem Prädiktor \(geschlecht\) entfernt. Die Residuen \(e_{geschle}\) enthalten nun Werte, die nicht durch \(others\) linear erklärt werden können.
lnlohn|others vs geschle|others
Um nun die Frage zu beantworten, welchen Nettoeinfluss \(geschle\) auf \(lnlohn\) hat, wird die dritte Regression 3 gerechnet. Die Residuen der ersten Hilfsregression werden auf die Residuen der zweiten Hilfsregression regridiert. Eine Regressionskonstante ist diesmal nicht nötig, da der Mittelwert der Residuen jeweils Null ergibt und die Gerade somit bei P(0,0) durch den Ursprung läuft.
Das heisst, dass nun das um \(others\) bereinigte \(geschle\) den um \(others\) bereinigten \(lnlohn\) voraussagen soll. Der Koeffizient \(\beta_1\) dieser Regression wird partieller Regressionskoeffizient genannt, da er nur jene Teile (Parts) der Beziehung erklärt, an denen \(others\) keinen Anteil mehr hat. Sein Wert ist identisch mit dem Geschlechter Koeffizienten der multiplen Logib-Standardregression.
1.2.2
- 4 Funkt-BY, neu mit Variablenbeschrieb.
- Var Dok Variablenbeschrieb in der Sidebar
- 3 Diagnostik, 4*mean(cook’s D) Linie in Cook’s d vs Leverage Plot
- Behind the scene: Variablenbeschrieb (Abruf in Var Dok und 4 funkt-BY) als list( in vartxt.rds (binary file) für global fast load in global.R gespeichert. Ermöglicht einmaligen load und Zugriff aller Benutzer.
1.2.1
4 Funkt-Quantile wird zu 4 Funkt-BY, weil nicht nur numerische Variablen nach Funktion und Geschlecht als Quantile untersucht werden können, sondern auch die Kategorie Variablen aus (Ausbildungsniveau), bkn (betriebliches Kompetenzniveau) und bst (berufliche Stellung) und deren Prozentanteile.
1.2
- 5 Alternative Modelle
Die entsprechend genutzten non base Pakete sowie deren Versionen werden auf dem Server dynamisch angegeben. Da die Entwicklungsumgebung nicht gezwungenermassen dieselben Versionen nutzt wie der Prod-Server.
- Doubly Robust
- Abwesenheit eines Geschlechts in einer Merkmalsausprägung (BST,BKN) führt per definition zu NA
- Interaktion mit Wahl für Vertrauensintervall (95%) oder Lohngleichung
- Quantil-Regressionen 10%,25%,50%,75%,90%
- rank based Vertrauensintervall nur wenn N<1000, da sehr rechenintensiv.
- Oaxaca-Dekomposition (Three-Fold)
- Abwesenheit eines Geschlechts in einer Merkmalsausprägung (BST,BKN) führt per definition zu Abbruch. Muss noch verbessert werden.
Mögliche Verbesserung: dynamischer Aufbau der Methodenwahl nach Datenstruktur.
1.1.4
- 4 Funkt-Quantile
- Ermöglicht Verteilungsanalysen von numerischen Variablen nach Kombinationen Funktion-bkn-bst-geschle.
1.1.3
- 3 Diagnostik
- Punkte und Zonen können neu einzeln oder addiert mit SHIFT+CLICK/SELECT von der Analyse ausgeschlossen werden.
- RESET button für Kein Ausschluss erscheint, wenn Ausschlüsse definiert sind.
1.1.2
- 3 Diagnostik
- Einführung von Marker-Size-Slider
- Ermöglichung partial upate, d.h., die Daten werden bei Slider-Änderungen nicht mehr neu geladen, sondern im Browser (client-side) angepasst. Dies erlaubt ein persistentes Zoomen auch bei Slideränderungen.
1.1.1
- 3 Diagnostik: Abschwächung Plot-Hintergrundfarbe, Liniendicke der Symbole erhöht. Einführung Opacitiy-Slider für Erkennung von Datendichten bei vielen Daten. Dieser muss vor dem Zoomen eingestellt werden, da bei Änderung alle Datenpunkte wieder geladen werden.
Version 1.1
2 Funktionenkodierung: Korrektur der Hintergrundfarbe für die gewählten Popup-Information durch Verhinderung von Überlagerungen identischer Punkte (Gesamtsample (Grau) und gewählte Funktionenkodierung (non-unique)).
3 Diagnostik: Abschwächung Plot-Hintergrundfarbe, Liniendicke der Symbole erhöht. Einführung Opacitiy-Slider für Erkennung von Datendichten bei vielen Daten. Dieser muss vor dem Zoomen eingestellt werden, da bei Änderung alle Datenpunkte wieder geladen werden.
Interne Entwicklung
