這個資料集中,根據資料說明,來源包括問卷、徵才網站等等多個來源,而資料的可信度我想也僅供參考。
說明中提到共有6704筆資料,在我做過刪除空列的資料清理後只剩下3671筆,而資料的形式大概如下:

是一個CSV檔,欄位有包括年紀、性別、教育程度、職稱、年資、薪資,其中我對幾個議題比較有興趣,比如薪資是否真的隨年紀增長?薪資是否會與性別有正相關?教育程度薪資是否正相關?等等的議題,我想應該可以透過把這些資料會製成圖表(可視化)應該就可以得到解答,所以接下來我開始了一連串pandas、matplotlib操作,甚至將資料中以性別分群、把資料依照年記排序,結果畫出來的圖形長這樣:

歐我的天,這圖奇醜無比。
有很多重疊的垂直線,代表資料中有很多重複的X值,經過檢查之後還真的。

年齡雖然經過排序後看起來比較好看一些了(相信我,你不會想看到排序前的圖),但是重複的年紀會讓圖形顯的很詭異,我目前是在考慮把資料中一個年齡的新資取平均作為繪圖的依據,但不曉得是否會有更好的作法?
沒意外的話應該會有第二篇關於這個資料集的文章,除了練習資料分析和處理,也一起看看薪資的相關數據!!

發表留言