Improve column maps, drop duplicate row

2026-02-07 11:50:02 +00:00 · 2023-09-25 09:18:09 +03:00
parent d75eedbebb
commit d71d0a188c
2 changed files with 23 additions and 10 deletions
--- a/pulkka/column_maps.py
+++ b/pulkka/column_maps.py
@@ -1,6 +1,5 @@
 from __future__ import annotations

-MISTA_ASIAKKAAT_COL = "Mistä asiakkaat ovat?"
 IKA_COL = "Ikä"
 KAUPUNKI_COL = "Kaupunki"
 KIKY_COL = "Onko palkkasi nykyroolissasi mielestäsi kilpailukykyinen?"
@@ -8,23 +7,27 @@ KIKY_OTHER_COL = (
    "Onko palkkasi nykyroolissasi mielestäsi kilpailukykyinen? (muut vastaukset)"
 )
 KKPALKKA_COL = "Kuukausipalkka"
+KK_TULOT_COL = "Kk-tulot (laskennallinen)"
+KK_TULOT_NORM_COL = "Kk-tulot (laskennallinen, normalisoitu)"
+LAHITYO_COL = "Kuinka suuren osan ajasta teet lähityönä toimistolla?"
+LANG_COL = "Vastauskieli"
+MILLAISESSA_COL = "Millaisessa yrityksessä työskentelet?"
+MISTA_ASIAKKAAT_COL = "Mistä asiakkaat ovat?"
+PALAUTE_COL = "Palaute"
 PALKANSAAJA_VAI_LASKUTTAJA_COL = "Palkansaaja vai laskuttaja"
 PALVELUT_COL = "Palvelut"
 ROOLI_COL = "Rooli"
+ROOLI_NORM_COL = "Rooli (normalisoitu)"
 SIIRTYNYT_COL = (
    "Oletko siirtynyt palkansaajasta laskuttajaksi tai päinvastoin 1.10.2022 jälkeen?"
 )
 SUKUPUOLI_COL = "Sukupuoli"
+TUNTILASKUTUS_ALV0_COL = "Tuntilaskutus (ALV 0%, euroina)"
 TYOAIKA_COL = "Työaika"
 TYOKOKEMUS_COL = "Työkokemus alalta (vuosina)"
 TYOPAIKKA_COL = "Työpaikka"
+VUOSILASKUTUS_ALV0_COL = "Vuosilaskutus (ALV 0%, euroina)"
 VUOSITULOT_COL = "Vuositulot"
-MILLAISESSA_COL = "Millaisessa yrityksessä työskentelet?"
-LAHITYO_COL = "Kuinka suuren osan ajasta teet lähityönä toimistolla?"
-LANG_COL = "Vastauskieli"
-KK_TULOT_COL = "Kk-tulot (laskennallinen)"
-KK_TULOT_NORM_COL = "Kk-tulot (laskennallinen, normalisoitu)"
-ROOLI_NORM_COL = "Rooli (normalisoitu)"

 COLUMN_MAP_2023 = {
    "Timestamp": "Timestamp",
@@ -37,8 +40,8 @@ COLUMN_MAP_2023 = {
    "Tulojen muutos viime vuodesta (%)": "Tulojen muutos viime vuodesta (%)",
    "Montako vuotta olet tehnyt laskuttavaa työtä alalla?": "Montako vuotta olet tehnyt laskuttavaa työtä alalla?",
    "Mitä palveluja tarjoat?": PALVELUT_COL,
-    "Tuntilaskutus (ALV 0%, euroina)": "Tuntilaskutus (ALV 0%, euroina)",
-    "Vuosilaskutus (ALV 0%, euroina)": "Vuosilaskutus (ALV 0%, euroina)",
+    "Tuntilaskutus (ALV 0%, euroina)": TUNTILASKUTUS_ALV0_COL,
+    "Vuosilaskutus (ALV 0%, euroina)": VUOSILASKUTUS_ALV0_COL,
    "Hankitko asiakkaasi itse suoraan vai käytätkö välitysfirmojen palveluita?": "Hankitko asiakkaasi itse suoraan vai käytätkö välitysfirmojen palveluita?",
    "Mistä asiakkaat ovat?": MISTA_ASIAKKAAT_COL,
    "Työpaikka": "Työpaikka",
@@ -52,7 +55,7 @@ COLUMN_MAP_2023 = {
    "Vapaa kuvaus kokonaiskompensaatiomallista": "Vapaa kuvaus kokonaiskompensaatiomallista",
    "Onko palkkasi nykyroolissasi mielestäsi kilpailukykyinen?": KIKY_COL,
    "Vapaa sana": "Vapaa sana",
-    "Palautetta kyselystä ja ideoita ensi vuoden kyselyyn": "Palautetta kyselystä ja ideoita ensi vuoden kyselyyn",
+    "Palautetta kyselystä ja ideoita ensi vuoden kyselyyn": PALAUTE_COL,
 }

 COLUMN_MAP_2023_EN_TO_FI = {
@@ -178,3 +181,8 @@ OTHER_GENDER_VALUES = {
    "muu/ei",
    "non-binary, afab",
 }
+
+TIMESTAMPS_TO_DROP = {
+    # See "SUBMITTED TWICE, SORRY!!" in English data:
+    "2023-09-08 13:24:46.740",
+}
--- a/pulkka/data_ingest.py
+++ b/pulkka/data_ingest.py
@@ -33,6 +33,8 @@ from pulkka.column_maps import (
    OTHER_GENDER_VALUES,
    TYOKOKEMUS_COL,
    ROOLI_NORM_COL,
+    PALAUTE_COL,
+    TIMESTAMPS_TO_DROP,
 )


@@ -139,6 +141,9 @@ def read_data() -> pd.DataFrame:
    # Drop bogus data
    df = df.drop(df[df[SUKUPUOLI_COL] == "taisteluhelikopteri"].index)

+    # Drop rows by timestamps known to be duplicate
+    df = df.drop(df[df["Timestamp"].isin(TIMESTAMPS_TO_DROP)].index)
+
    df[SUKUPUOLI_COL] = df[SUKUPUOLI_COL].apply(map_sukupuoli).astype("category")
    df[IKA_COL] = df[IKA_COL].astype("category")