mirror of
https://github.com/koodiklinikka/palkkakysely.git
synced 2026-03-12 20:03:25 +00:00
Apply some data fixes
This commit is contained in:
@@ -4,7 +4,7 @@ from pulkka.data_ingest import read_data
|
|||||||
|
|
||||||
def main():
|
def main():
|
||||||
df = read_data()
|
df = read_data()
|
||||||
df.to_html(OUT_DIR / "data.html", index=False)
|
df.to_html(OUT_DIR / "data.html", index=False, na_rep="")
|
||||||
df.to_csv(OUT_DIR / "data.csv", index=False)
|
df.to_csv(OUT_DIR / "data.csv", index=False)
|
||||||
df.to_excel(OUT_DIR / "data.xlsx", index=False)
|
df.to_excel(OUT_DIR / "data.xlsx", index=False)
|
||||||
df.to_json(
|
df.to_json(
|
||||||
|
|||||||
@@ -106,8 +106,10 @@ def read_data() -> pd.DataFrame:
|
|||||||
|
|
||||||
# Fill in Vuositulot as 12.5 * Kk-tulot if empty
|
# Fill in Vuositulot as 12.5 * Kk-tulot if empty
|
||||||
df["Vuositulot"] = df.apply(map_vuositulot, axis=1)
|
df["Vuositulot"] = df.apply(map_vuositulot, axis=1)
|
||||||
# Fudge a single known outlier
|
|
||||||
|
# Fudge some known outliers
|
||||||
df.loc[df.Vuositulot == 912500, 'Vuositulot'] = 91250
|
df.loc[df.Vuositulot == 912500, 'Vuositulot'] = 91250
|
||||||
|
df.loc[df.Kuukausipalkka == 87000, 'Kuukausipalkka'] = 7250
|
||||||
|
|
||||||
# Synthesize kk-tulot from Vuositulot
|
# Synthesize kk-tulot from Vuositulot
|
||||||
df["Kk-tulot"] = pd.to_numeric(df["Vuositulot"], errors="coerce") / 12
|
df["Kk-tulot"] = pd.to_numeric(df["Vuositulot"], errors="coerce") / 12
|
||||||
|
|||||||
Reference in New Issue
Block a user