diff --git a/charts.html b/charts.html index 2a6a345..2f1f208 100644 --- a/charts.html +++ b/charts.html @@ -34,14 +34,14 @@ -
+
2021-02-19T14:12:43.009140image/svg+xmlMatplotlib v3.3.4, https://matplotlib.org/

Pearson's r

The Pearson's correlation coefficient (r) is a measure of linear correlation between two variables. It's value lies between -1 and +1, -1 indicating total negative linear correlation, 0 indicating no linear correlation and 1 indicating total positive linear correlation. Furthermore, r is invariant under separate changes in location and scale of the two variables, implying that for a linear function the angle to the x-axis does not affect r.

To calculate r for two variables X and Y, one divides the covariance of X and Y by the product of their standard deviations.
2021-02-19T14:12:43.182563image/svg+xmlMatplotlib v3.3.4, https://matplotlib.org/

Spearman's ρ

The Spearman's rank correlation coefficient (ρ) is a measure of monotonic correlation between two variables, and is therefore better in catching nonlinear monotonic correlations than Pearson's r. It's value lies between -1 and +1, -1 indicating total negative monotonic correlation, 0 indicating no monotonic correlation and 1 indicating total positive monotonic correlation.

To calculate ρ for two variables X and Y, one divides the covariance of the rank variables of X and Y by the product of their standard deviations.
2021-02-19T14:12:43.350430image/svg+xmlMatplotlib v3.3.4, https://matplotlib.org/

Kendall's τ

Similarly to Spearman's rank correlation coefficient, the Kendall rank correlation coefficient (τ) measures ordinal association between two variables. It's value lies between -1 and +1, -1 indicating total negative correlation, 0 indicating no correlation and 1 indicating total positive correlation.

To calculate τ for two variables X and Y, one determines the number of concordant and discordant pairs of observations. τ is given by the number of concordant pairs minus the discordant pairs divided by the total number of pairs.
2021-02-19T14:12:43.544078image/svg+xmlMatplotlib v3.3.4, https://matplotlib.org/

Cramér's V (φc)

Cramér's V is an association measure for nominal random variables. The coefficient ranges from 0 to 1, with 0 indicating independence and 1 indicating perfect association. The empirical estimators used for Cramér's V have been proved to be biased, even for large samples. We use a bias-corrected measure that has been proposed by Bergsma in 2013 that can be found here.

Missing values

2021-02-19T14:12:36.626375image/svg+xmlMatplotlib v3.3.4, https://matplotlib.org/
A simple visualization of nullity by column.
2021-02-19T14:12:37.042475image/svg+xmlMatplotlib v3.3.4, https://matplotlib.org/
Nullity matrix is a data-dense display which lets you quickly visually pick out patterns in data completion.
2021-02-19T14:12:37.443027image/svg+xmlMatplotlib v3.3.4, https://matplotlib.org/
The correlation heatmap measures nullity correlation: how strongly the presence or absence of one variable affects the presence of another.
2021-02-19T14:12:37.764009image/svg+xmlMatplotlib v3.3.4, https://matplotlib.org/
The dendrogram allows you to more fully correlate variable completion, revealing trends deeper than the pairwise ones visible in the correlation heatmap.

Sample

First rows

TimestampKaupunkiIkäSukupuoliTyökokemusTyösuhteen luonneTyöaikaRooliEtäKuukausipalkkaVuositulotKilpailukykyinenTyöpaikkaVapaa sana
02021-02-15 11:57:08.316PK-Seutu31-35 vNaN10.0Työntekijä / palkollinen1.0Arkkitehti50/50650083000TrueNaNNaN
12021-02-15 11:57:19.676Turku31-35 vmies14.0Työntekijä / palkollinen1.0full-stackEtä500062500TrueNaNNaN
22021-02-15 11:58:03.592PK-Seutu26-30 vmies2.0Työntekijä / palkollinen1.0Full-stack ohjelmistokehittäjäEtä247530000FalseNaNNaN
32021-02-15 11:58:15.261Tampere31-35 vmies22.0Yrittäjä1.0web-arkkitehtiEtä4300100000TrueNaNNaN
42021-02-15 11:58:16.983PK-Seutu26-30 vmies2.0Työntekijä / palkollinen1.0OhjelmistokehittäjäEtä300037500FalseNaNNaN
52021-02-15 11:58:49.454PK-Seutu41-45 vmies23.0Työntekijä / palkollinen1.0OhjelmistokehittäjäNaN8000100000TrueNaNNaN
62021-02-15 12:00:03.771PK-Seutu31-35 vmies10.0Freelancer1.0OhjelmistokehittäjäEtä6000140000TrueNaNNaN
72021-02-15 12:00:04.655Tampere31-35 vNaN10.0Työntekijä / palkollinen1.0OhjelmistokehittäjäNaN425054000TrueNaNNaN
82021-02-15 12:01:00.769Tampere31-35 vmies6.0Työntekijä / palkollinen1.0Lead developerNaN400050000FalseNaNNaN
92021-02-15 12:02:03.577Tallinna31-35 vmies12.0Freelancer1.0NaNEtäNaN200000TrueQuestradeNaN

Last rows

TimestampKaupunkiIkäSukupuoliTyökokemusTyösuhteen luonneTyöaikaRooliEtäKuukausipalkkaVuositulotKilpailukykyinenTyöpaikkaVapaa sana
4072021-02-19 14:44:18.231PK-Seutu31-35 vNaN5.0Työntekijä / palkollinen1.0full-stackEtä290036000FalseNaNNaN
4082021-02-19 14:48:10.772Viimsi36-40 vmies20.0YrittäjäNaNsysadminEtäNaN110000TrueNaNNaN
4092021-02-19 14:54:21.221Tampere36-40 vNaN12.0Työntekijä / palkollinen1.0OhjelmistosuunnittelijaNaN380050000FalseNaNNaN
4102021-02-19 15:01:20.423Turku31-35 vmies9.0Työntekijä / palkollinen1.0Full-stack ohjelmistokehittäjäNaN390052000FalseNaNNaN
4112021-02-19 15:06:06.295PK-Seutu36-40 vnainen14.0Työntekijä / palkollinen1.0Senior consultantEtä8500100000TrueSulavaNaN
4122021-02-19 15:13:51.743Pori36-40 vmies8.0Työntekijä / palkollinen1.0Tech LeadEtä508065000FalseIso konsulttitaloSijainti Pori, mutta etätöitä 100%. Varsinainen positio Tampere - Helsinki. Edut aika huonot, perusjutut. Työ itsessään aika masentavaa. Seuraavaksi varmaan freelance/yrittäjyys.
4132021-02-19 15:24:01.085Tampere36-40 vmies14.0Työntekijä / palkollinen1.0OhjelmistotestaajaEtä410055000TrueNaNNaN
4142021-02-19 15:34:53.741Tampere26-30 vmuu7.0Työntekijä / palkollinen1.0Full-stack developer50/50555069400TrueNaNNaN
4152021-02-19 15:40:16.336PK-Seutu26-30 vmies5.0Työntekijä / palkollinen0.8Full-stack/mobiili/designEtä700090000TrueMavericksNaN
4162021-02-19 16:04:50.348Tampere36-40 vmies16.0Työntekijä / palkollinen1.0OhjelmistokehittäjäNaN480065000TrueNaNBonukset riippuu firman tuloksesta. Palkka olisi varmastikin enemmän muualla mutta uskoakseni linjassa kollegoideni kanssa.
\ No newline at end of file diff --git a/raw.tsv b/raw.tsv index 6c44e00..1f37da0 100644 --- a/raw.tsv +++ b/raw.tsv @@ -415,4 +415,5 @@ Timestamp Missä kaupungissa työpaikkasi pääasiallinen toimisto sijaitsee? Ik 2/19/2021 15:13:52 Pori 36-40 v Mies 8 Työntekijä / palkollinen 100% Tech Lead Pääosin tai kokonaan etätyö 5080 65000 Ei Iso konsulttitalo Sijainti Pori, mutta etätöitä 100%. Varsinainen positio Tampere - Helsinki. Edut aika huonot, perusjutut. Työ itsessään aika masentavaa. Seuraavaksi varmaan freelance/yrittäjyys. 2/19/2021 15:24:01 Tampere 36-40 v Mies 14 Työntekijä / palkollinen 100% Ohjelmistotestaaja Pääosin tai kokonaan etätyö 4100 55000 Kyllä 2/19/2021 15:34:54 Tampere 26-30 v ? 7 Työntekijä / palkollinen 100% Full-stack developer Noin 50/50 hybridimalli 5550 69400 Kyllä -2/19/2021 15:40:16 PK-Seutu (Helsinki, Espoo, Vantaa) 26-30 v Mies 5 Työntekijä / palkollinen 80% Full-stack/mobiili/design Pääosin tai kokonaan etätyö 7000 90000 Kyllä Mavericks \ No newline at end of file +2/19/2021 15:40:16 PK-Seutu (Helsinki, Espoo, Vantaa) 26-30 v Mies 5 Työntekijä / palkollinen 80% Full-stack/mobiili/design Pääosin tai kokonaan etätyö 7000 90000 Kyllä Mavericks +2/19/2021 16:04:50 Tampere 36-40 v Mies 16 Työntekijä / palkollinen 100% Ohjelmistokehittäjä Pääosin tai kokonaan toimistolla 4800 65000 Kyllä Bonukset riippuu firman tuloksesta. Palkka olisi varmastikin enemmän muualla mutta uskoakseni linjassa kollegoideni kanssa. \ No newline at end of file diff --git a/raw.xlsx b/raw.xlsx index 838d9b7..89e7297 100644 Binary files a/raw.xlsx and b/raw.xlsx differ