Kutu grafiği (Boxplot)

Bir kutu grafiği (Boxplot), veri çeyreklerini (veya yüzdelikleri) ve ortalamaları görüntüleyerek sayısal verilerin ve değişkenliğin görsel olarak dağılımını göstermek için kullanılır. Veri analizinde sıklıkla kullanılan bir grafik türüdür.

Kutu grafikleri, bir veri kümesinin beş özelliğini gösterir: minimum değer, ilk (%25) çeyrek, medyan, üçüncü (%75) çeyrek ve maksimum değer.

Kutu Grafiği (Boxplot) Tanımlamalar

Minimum Değer : Aykırı değerler hariç en düşük değer (sol ucun sonunda gösterilir).

İlk çeyrek (%25) : Skorların yüzde yirmi beşlik dilimine gelen kısmını gösterir.

Medyan : Medyan, verilerin orta noktasını işaretler ve kutuyu iki bölüme bölen çizgiyle gösterilir.

Üçüncü çeyrek (%75) : Skorların yüzde yetmiş beşlik dilimine gelen kısmını gösterir. Dolayısıyla, verilerin% 25’i bu değerin üzerindedir.

Maksimum değer : Aykırı değerler hariç en yüksek değeri gösterir.

Kutu grafikleri, araştırmacıların ortalama değerleri, veri kümesinin dağılımını ve değişkenlik belirtilerini hızlı bir şekilde tanımlamasını sağlayan verilerin görsel bir özetini sağladığı için faydalıdır.
Aşağıdaki görüntü, mükemmel bir normal dağılım olan verileri temsil eder ve çoğu kutu grafiğinin bu simetriye uymaz.

Resim 1 : Boxplot Normal Dağılım

Kutu Grafiği (Boxplot) Nerede ve Nasıl Kullanılır?

Sürekli iyileştirme çalışmalarında bazı dağılımlar / veri kümeleri için, merkezi eğilim ölçülerinden (medyan, ortalama ve mod) daha fazla bilgiye ihtiyacınız olduğunu göreceksiniz.
Verilerin değişkenliği veya dağılımı hakkında bilgi sahibi olmanız gerekir. Kutu grafiği, verilerdeki değerlerin nasıl yayıldığının iyi bir göstergesidir. Kutu grafikleri bir histograma göre ilkel gibi görünse de, birçok grup veya veri kümesi arasındaki dağılımları karşılaştırırken yararlıdır.

Adım 1: Medyanları karşılaştırın

Her kutu grafiğinin ilgili medyanlarını karşılaştırın. Kutunun içindeki orta çizgi medyanı gösterir. Bir kutu grafiğinin medyan çizgisi, diğer bir kutu grafiğinin kutusunun dışındaysa, iki grup arasında bir fark olması olasıdır.

İstatistiksel olarak aralarında fark var mı anlayabilmek için farklı analiz araçlarını kullanmak gerekir. Daha sonraki yazılarımızda bunlardan da bahsedeceğiz.

Resim 2 : Kutu grafiği (Boxplot) medyan karşılaştırma

Adım 2: Kutular arası aralıklarını ve bıyıklarını (çizgilerini) karşılaştırın

Verilerin her örnek arasında nasıl dağıldığını incelemek için kutular arası aralıkları (kutu uzunlukları) karşılaştırın. Kutu ne kadar uzun olursa veri o kadar dağılmış olur. Kutu ne kadar küçük olursa veri o kadar az dağılmış olur.

Resim 3 : Boxplot – Günlere göre uyku süresi karşılaştırma

Ardından, iki bıyığın sonundaki aşırı değerlerle gösterildiği gibi genel forma bakın. Bu skor aralığını gösterir (başka bir dağılım tipi). Daha büyük aralıklar daha geniş bir dağılımı, yani daha dağınık verileri gösterir.

Adım 3 : Potansiyel aykırı değerlere bakın (yukarıdaki resme bakın)

Bir kutu grafiğini incelerken, bir aykırı değer, kutu grafiğinin bıyıklarının dışında bulunan bir veri noktası olarak tanımlanır.

Adım 4 : Eğiklik belirtileri arayın

Veriler simetrik görünmüyorsa, her örnek aynı tür asimetri gösteriyor mu?

Resim 4 : Boxplot eğiklik

Histogram yazımızda da bu eğiklikten ve ne anlama geldiğinden bahsetmiştik. Yazıya bu linkten ulaşabilirsiniz.

Kutu grafiği (Boxplot), farklı grupları aynı grafik üzerinde karşılaştırma imkanı sunar. Vardiyalar ya da operatörler arasında fark var mı? Makineler arasında ya da çıktıya etkisi olduğunu düşündüğünüz girdiler arasında karşılaştırma yapabilirsiniz.

Normal dağılım eğrisiyle kutu grafiğini bir arada görmek isterseniz aşağıdaki grafik bunu gösteriyor. IQR değeri dağılım eğrisindeki tepe noktasını ve bunun etrafındaki %50’lik dilimi gösterir.

Resim 5 : Boxplot ve Dağılım

Sorularınız ya da yorumlarınız olursa aşağıya bırakabilirsiniz.

Resim 2 Kaynak: https://blog.bioturing.com/2018/05/22/how-to-compare-box-plots/

Resim 4 Kaynak : https://www.simplypsychology.org/boxplots.html