Changelog
Source:NEWS.md
HEXCleanR 0.5.20
Bugfix: Sprachen werden ohne umlaute codiert. Das führt zu Problemen beim Sicherheitscheck, der z.B. Türkisch nicht Tuerkisch erwartet.
HEXCleanR 0.5.19
-
detect_missing_languages()verarbeitet nun auch Zeilen, bei denencld3trotz vorhandenerkursbeschreibungkeine Sprache erkennen konnte (z. B. bei formatiertem oder sehr kurzem Text). Diese Fälle werden jetzt als Fallback über dentitelan OpenAI weitergegeben, statt unbearbeitet liegenzubleiben. - Bugfix: Innerhalb von
detect_missing_languages()wurdesprache_recodednach dercld3-Erkennung nicht befüllt, weil beide Spalten in einem einzigenmutate()-Aufruf berechnet wurden und dplyr dabei noch den altenNA-Wert vonkursbeschreibung_sprachverwendete. Die zwei Berechnungen werden nun in getrenntenmutate()-Aufrufen ausgeführt.
HEXCleanR 0.5.18
- Neue Funktion
create_codebook_and_db_data(), um ausraw_dataundraw_data_fseincodebooksowie einendb_data-Datensatz im erwarteten HEX-Format zu erzeugen. Die Funktion prueft nun strikt, ob alle benoetigten Spalten vorhanden sind, und setzt nur die fachlichen Metadatenfelder (lehr_und_forschungsbereich,studienbereich,faechergruppe,luf_code,stub_code,fg_code,matchingart) initial aufNA. - Neue Funktion
create_baby_dbs(), umdb_datasemesterweise in vorhandene Semesterordner alsdb_data_<semester>.rdszu speichern und fehlende Ordner sauber zu melden.
HEXCleanR 0.5.17
-
detect_missing_languages()ergänzt fehlende Sprachinformationen in Kursdaten: vorhandene Werte der Variablesprache_recodedwerden zunächst ggf. aus der DB übernommen, offene Fälle mitkursbeschreibungübercld3verarbeitet und Kurse ohnekursbeschreibungoptional über OpenAI klassifiziert.
HEXCleanR 0.5.16
-
check_db()behandelt fehlende Werte inkursbeschreibungbei der Mindestlängenprüfung nun korrekt und markiertNAnicht mehr fälschlich als Beschreibungen mit weniger als 20 Zeichen.
HEXCleanR 0.5.15
- Neue Funktion
load_data_from_sp(), umcourse_data-Dateien rekursiv aus einem Hochschulordner in der Stifterverband-OneDrive-Struktur zu laden. - Neue pipeline-taugliche Helfer
drop_full_na_columns()undsquish_character_columns(), um Spalten mit 100%NAzu entfernen und Leerzeichen in allen Character-Spalten zu bereinigen, z. B.load_data_from_sp(university_folder = UNIVERSITY_FOLDER) |> drop_full_na_columns() |> squish_character_columns(). - Neue Funktion
check_semester_n(), die Zeilenzahlen prosource_filein der Konsole ausgibt und den ursprünglichen Datensatz unverändert zurückgibt, z. B. in Pipelines wieraw_data |> check_semester_n(). - Neue Funktion
plot_na_balloons(), um fehlende Werte nach Gruppierungsvariable als Balloon-Plot zu visualisieren, inklusive gedruckter NA-Tabelle, Farbverlauf in der Legende, sichtbaren Ballons auch bei0 NA, optionalen Labels und um 45 Grad gedrehter X-Achsenbeschriftung, z. B.raw_data |> plot_na_balloons(grp_var = semester_y).