(ENG)Data Set Story
The dataset is part of a larger dataset held at the National Institutes of Diabetes-Digestive-Kidney Diseases in the US. In the U.S. Pima Indian women aged 21 years and older living in Phoenix, the 5th largest city in the State of Arizona are the data used for diabetes research. The target variable is “outcome”, where 1 indicates a positive diabetes test result and 0 indicates a negative result.
Pregnancies Number of pregnancies Glucose: 2-hour plasma glucose concentration in oral glucose tolerance test Blood Pressure Blood Pressure (small blood pressure) (mm Hg) SkinThickness Skin Thickness Insulin 2-hour serum insulin (mu U/ml) DiabetesPedigreeFunction: Function (2-hour plasma glucose concentration in oral glucose tolerance test) BMI Body mass index Age Age (years) Outcome: Have the disease (1) or not (0)
In this project, first data analysis exploration and data visualization based on the analysis result was done. A simple modeling was also done. Then feature engineering was done and modeling was done again according to the final version of the dataset. Finally, these two were compared. The feature engineering result is much better.
(TR)Veri Seti Hikayesi
Veri seti ABD'deki Ulusal Diyabet-Sindirim-Böbrek Hastalıkları Enstitüleri'nde tutulan büyük veri setinin parçasıdır. ABD'deki Arizona Eyaleti'nin en büyük 5. şehri olan Phoenix şehrinde yaşayan 21 yaş ve üzerinde olan Pima Indian kadınları üzerinde yapılan diyabet araştırması için kullanılan verilerdir. Hedef değişken "outcome" olarak belirtilmiş olup; 1 diyabet test sonucunun pozitif oluşunu, 0 ise negatif oluşunu belirtmektedir.
Pregnancies: Hamilelik sayısı Glucose: Oral glikoz tolerans testinde 2 saatlik plazma glikoz konsantrasyonu Blood Pressure: Kan Basıncı (Küçük tansiyon) (mm Hg) SkinThickness: Cilt Kalınlığı Insulin: 2 saatlik serum insülini (mu U/ml) DiabetesPedigreeFunction: Fonksiyon (Oral glikoz tolerans testinde 2 saatlik plazma glikoz konsantrasyonu) BMI: Vücut kitle endeksi Age: Yaş (yıl) Outcome: Hastalığa sahip (1) ya da değil (0)
Bu projede ilk olarak veri analizi keşfi ve analiz sonucuna göre veri görselleştirmesi yapılmıştır. Basit bir modelleme de yapılmıştır. Daha sonra özellik mühendisliği yapılarak veri setinin son haline göre tekrar modelleme yapıldı. Son olarak bu ikisi karşılaştırıldı. Özellik Mühendisliği sonucunda yapılan çok daha iyi.