SU KALİTESİ VERİLERİNİN İSTATİSTİKSEL YÖNTEMLERLE DEĞERLENDİRİLMESİ Doç. Dr. Hülya Boyacıoğlu Dokuz Eylül Üniversitesi Çevre Mühendisliği Bölümü hulya.boyacioglu@deu.edu.tr
KAPSAM Giriş (Su kalite verilerinin özellikleri) Su Kalite verilerinin değerlendirilmesi Grafiksel analiz Tanımlayıcı istatistikler Uygulama örnekleri
Su kalitesinin izlenmesi ve değerlendirilmesi GİRİŞ Su kalitesinin izlenmesi ve değerlendirilmesi Veri toplama ve değerlendirme amacının ortaya konması ve örneklem tasarımı Ön değerlendirme İstatistiksel yöntemin belirlenmesi İstatistiksel yöntemin tahminlerinin doğrulanması/değerlendirilmesi Sonuç çıkarsanması GİRİŞ VERİ DEĞERLENDİRME UYGULAMA ÖRNEKLERİ
Hangi kalite değişkeninin değerlendireceğim. GİRİŞ GİRİŞ Hangi kalite değişkeninin değerlendireceğim. Veriler hangi zaman aralığında, ne sıklıkta analizlenmiş? Hangi soruya yanıt arıyorum? Ortalama su kalite değeri Su kalitesinin değişimi Yüksek yüzde değerleri (örneğin %95 değeri) Gözlem sahaları ortalama değerleri kıyası Gözlem sahaları yüksek yüzde değerleri kıyası Su kalitesi ile ilişkiler? (sıcaklık, deşarj) VERİ DEĞERLENDİRME UYGULAMA ÖRNEKLERİ
Su Kalite Veri Özellikleri GİRİŞ Su Kalite Veri Özellikleri Verilerin alt sınır değeri 0. Negatif değer gözlenmez. Aykırı (sapan) değerler (outlier). Genellikle yüksek değerler tarafındadır (dikkate alınmazsa sonuçlar farklı yorumlanır) Normal olmayan dağılım. Sağ tarafta yer alan kuyruklar (çarpıklık). Genelde simetrik olmayan, çarpıklık gösteren veri setleri Mevsimsellik gösteren veri setleri (bazı kalite değişkenleri yaz aylarında daha yüksek değerler alır ) Otokorelasyon (örn. Akarsu boyunca yer alan yakın istasyonlardan alınan örnekler, aynı istasyondan kısa zaman aralıklarında alınan örnekler ilişkili olabilir) GİRİŞ VERİ DEĞERLENDİRME UYGULAMA ÖRNEKLERİ
Aykırı (Sapan) değerler GİRİŞ Aykırı (Sapan) değerler Aykırı değerler (outlier).-Net tanımı henüz yapılmamış ancak veri setinde normal olmayan değer(ler) olarak değerlendirilebilir. Veri setinden değerlendirme başlamadan çıkarılabilir. Yazım hatası olup olmadığına bakılabilir Örneklem seti düşünülenden daha karmaşık olabilir ve aykırı değer bunun sonucu olabilir. Aykırı değerleri içeren ve içermeyen veri setleriyle analiz yapılıp sonuçlar kıyaslanır ve sonuç farklı değilse veri setinde değerler kalabilir. GİRİŞ VERİ DEĞERLENDİRME UYGULAMA ÖRNEKLERİ
GİRİŞ VERİ DEĞERLENDİRME UYGULAMA ÖRNEKLERİ
Tamamen raslantısal eksiklik (numune şişesinin kırılması vb) GİRİŞ Eksik veriler Tamamen raslantısal eksiklik (numune şişesinin kırılması vb) Raslantısal eksiklik (kötü hava koşulları nedeniyle arazide numune alınamaması) Ölçüm cihazı analiz limitlerinin dışında gözlenen konsantrasyonlar GİRİŞ VERİ DEĞERLENDİRME UYGULAMA ÖRNEKLERİ
VERİLERİN DEĞERLENDİRİLMESİ Tanımlayıcı istatistikler GİRİŞ Grafiksel analizler VERİ DEĞERLENDİRME Tanımlayıcı istatistikler UYGULAMA ÖRNEKLERİ
Zaman serisi grafiği GİRİŞ VERİ DEĞERLENDİRME UYGULAMA ÖRNEKLERİ
Değişkenlerin birbirleri arasındaki ilişkileri gösteren grafiklerdir. Serpme grafiği GİRİŞ VERİ DEĞERLENDİRME Değişkenlerin birbirleri arasındaki ilişkileri gösteren grafiklerdir. İlişkinin var olup olmadığını ve yönünün tespit edilmesinde kullanılır. Sayısal bir değer ile ifade edilmez. UYGULAMA ÖRNEKLERİ
Veriyi gruplara ayırarak anlaşılabilir hale getirmek için Histogramlar Veriyi gruplara ayırarak anlaşılabilir hale getirmek için Gözlenme sıklıklarını ve olasılıklarını belirlemek için histogramlar çizilir. k: sınıf sayısı, n: örneklem büyüklüğü 2k > n Sınıf f Küm f Rel f Küm Rel f 15-27 4 .11 28-40 5 9 .13 .24 41-53 18 .48 54-66 12 30 .32 .80 67-79 35 .93 80-92 2 37 .05 .98 93-105 1 38 .02 1.00 GİRİŞ VERİ DEĞERLENDİRME UYGULAMA ÖRNEKLERİ
GİRİŞ VERİ DEĞERLENDİRME UYGULAMA ÖRNEKLERİ
Verinin bütününü bir nitelik değerine göre görüntüleme Quantile Plot Verinin bütününü bir nitelik değerine göre görüntüleme Veri setindeki tüm değerleri görüntüleme Veri bir nitelik değerine göre küçükten büyüğe doğru sıralanır xi değeri için Fi miktardaki veri xi değerinden küçük ya da eşittir GİRİŞ VERİ DEĞERLENDİRME UYGULAMA ÖRNEKLERİ
GİRİŞ VERİ DEĞERLENDİRME UYGULAMA ÖRNEKLERİ
Box Plot-Kutu Grafiği GİRİŞ VERİ DEĞERLENDİRME UYGULAMA ÖRNEKLERİ
Box Plot-Kutu Grafiği GİRİŞ VERİ DEĞERLENDİRME UYGULAMA ÖRNEKLERİ
Box Plot-Kutu Grafiği GİRİŞ VERİ DEĞERLENDİRME UYGULAMA ÖRNEKLERİ
TANIMLAYICI İSTATİSTİKLER GİRİŞ Bir veri setini tanımak veya birden fazla veri setini karşılaştırmak için kullanılan ve ayrıca örnek verilerinden hareket ile frekans dağılışlarını sayısal olarak özetleyen değerlere tanımlayıcı istatistikler denir. Analizlerde kullanılan veri tiplerine (basit, gruplanmış, sınıflanmış) göre hesaplamalarda kullanılacak formüller değişmektedir. Yer Ölçüleri Değişkenlik Ölçüleri Çarpıklık Ölçüleri Basıklık Ölçüleri VERİ DEĞERLENDİRME UYGULAMA ÖRNEKLERİ
Tanımlayıcı istatistikler GİRİŞ VERİ DEĞERLENDİRME UYGULAMA ÖRNEKLERİ
Tanımlayıcı istatistikler Merkezi Eğilim Ölçüleri Aritmetik ort. Mod Medyan Kartiller GİRİŞ VERİ DEĞERLENDİRME UYGULAMA ÖRNEKLERİ
Tanımlayıcı istatistikler Merkezi Eğilim Ölçüleri Aritmetik ort. Mod Medyan Kartiller Dağılım Ölçüleri Range (Değişim Aralığı) Varyans Standart Sapma Değişkenlik(Varyasyon) katsayısı GİRİŞ VERİ DEĞERLENDİRME UYGULAMA ÖRNEKLERİ
Tanımlayıcı istatistikler Merkezi Eğilim Ölçüleri Aritmetik ort. Mod Medyan Kartiller Dağılım Ölçüleri Range (Değişim Aralığı) Varyans Standart Sapma Değişkenlik(Varyasyon) katsayısı Çarpıklık Ölçüleri Basıklık Ölçüleri GİRİŞ VERİ DEĞERLENDİRME UYGULAMA ÖRNEKLERİ
Merkezi Eğilim Ölçüleri GİRİŞ Veri setinin orta noktası veya merkezinin değeridir. Aritmetik ort. Mod Medyan Kartiller VERİ DEĞERLENDİRME UYGULAMA ÖRNEKLERİ
Aritmetik ortalama: Veri setindeki elemanların toplanıp veri sayısına bölünmesiyle elde edilen yer ölçüsü. GİRİŞ VERİ DEĞERLENDİRME UYGULAMA ÖRNEKLERİ
Data 1 Data 2 Data 3 1 2 3 5 8 N 9 ortalama 2,7 1,9 2,3 GİRİŞ 5 8 N 9 ortalama 2,7 1,9 2,3 VERİ DEĞERLENDİRME UYGULAMA ÖRNEKLERİ
Veri Setinin Hacmi Tek Sayı İse; GİRİŞ Medyan (Ortanca): Bir veri setini büyükten küçüğe veya küçükten büyüğe sıraladığımızda tam orta noktadan veri setini iki eşit parçaya ayıran değere medyan adı verilir. Veri setinde aşırı uçlu elemanlar olduğunda aritmetik ortalamaya göre daha güvenilirdir. Medyan, veri setindeki tüm elemanlardan etkilenmez. VERİ DEĞERLENDİRME Veri Setinin Hacmi Tek Sayı İse; nci gözlem değeri medyandır. Veri Setinin Hacmi Çift Sayı İse; nci gözlem değerinin aritmetik ortalaması medyandır. UYGULAMA ÖRNEKLERİ
Data 1 Data 2 Data 3 1 2 3 5 8 ortalama 2,7 1,9 2,3 medyan GİRİŞ Data 1 Data 2 Data 3 1 2 3 5 8 ortalama 2,7 1,9 2,3 medyan VERİ DEĞERLENDİRME UYGULAMA ÖRNEKLERİ
Veri setinin modu olmayacağı gibi birden fazla da modu olabilir. Mod: Bir veri setinde en çok gözlenen ( en çok tekrar eden ) değere veya frekansı en fazla olan şans değişkeni değerine mod adı verilir. Veri setinin modu olmayacağı gibi birden fazla da modu olabilir. Mod genellikle kesikli şans değişkenleri için oluşturulan gruplanmış verilerde aritmetik ortalama yerine kullanılabilir. GİRİŞ Data 1 Data 2 Data 3 1 2 3 5 8 ortalama 2,7 1,9 2,3 medyan mod VERİ DEĞERLENDİRME UYGULAMA ÖRNEKLERİ
GİRİŞ VERİ DEĞERLENDİRME UYGULAMA ÖRNEKLERİ
Kartil: Bir veri setini büyükten küçüğe veya küçükten büyüğe sıraladığımızda dört eşit parçaya ayıran üç değere kartiller adı verilir. İlk % 25’lik kısmı içinde bulunduran 1. Kartil (Q1), % 50’lik kısmı içinde bulunduran 2. Kartil (Q2), % 75’lik kısmı içinde bulunduran 3. Kartil (Q2), olarak adlandırılır. %50’lik kısmı içinde bulunduran 2. Kartil (Q2) aynı zamanda veri setinin medyanıdır. GİRİŞ VERİ DEĞERLENDİRME UYGULAMA ÖRNEKLERİ
GİRİŞ VERİ DEĞERLENDİRME UYGULAMA ÖRNEKLERİ
Yayılma (Değişkenlik) Ölçüleri GİRİŞ Bir veri setini tanımak yada iki farklı veri setini birbirinden ayırt etmek için her zaman yalnızca merkezi eğilim ölçüleri yeterli olmayabilir. Dağılımları birbirinden ayırt etmede kullanılan ve genellikle aritmetik ortalama etrafındaki değişimi dikkate alarak hesaplanan istatistiklere yayılma (değişkenlik) ölçüleri adı verilir. VERİ DEĞERLENDİRME UYGULAMA ÖRNEKLERİ
Yayılma (Değişkenlik) Ölçüleri GİRİŞ Aşağıdaki iki grafik n = 1500 hacimli iki farklı örnek doğrultusunda oluşturulan histogramlardır. Her iki örnek ortalaması yaklaşık olarak 100 olduğuna göre iki örneğin aynı anakütleden alındığı söylenebilir mi? VERİ DEĞERLENDİRME UYGULAMA ÖRNEKLERİ 34
GİRİŞ Range (Değişim Aralığı): Veri setindeki yayılımı ifade etmede kullanılan en basit ölçü, değişim aralığıdır. Genel olarak az sayıda veri için kullanılır. En büyük gözlem değeri ile en küçük gözlem değeri arasındaki fark değişim aralığını verir. Range, veri setindeki tek bir gözlemin aşırı derecede küçük veya büyük olmasından etkilendiği için bir başka ifadeyle örnekte yer alan sadece iki veri kullanılarak hesaplanmasından dolayı tüm veri setinin değişkenliğini açıklamak için yetersiz kalmaktadır. VERİ DEĞERLENDİRME UYGULAMA ÖRNEKLERİ
GİRİŞ Dağılımları birbirinden ayırt etmede kullanılan yayılım ölçüleri aritmetik ortalama etrafındaki değişimleri dikkate alan tanımlayıcı istatistiklerdir. Bir veri setinde aritmetik ortalamalardan her bir gözlemin farkı alınıp bu değerlerin tümü toplandığında sonucun 0 olduğu görülür. Bu örnekten görüleceği üzere gözlemlerin aritmetik ortalamadan uzaklığı alıp toplandığında 0 elde edildiğinden dolayı bu problem mutlak değer kullanarak veya karesel uzaklık alınarak ortadan kaldırılır. Varyans: Veri setindeki her bir gözlem değerinin aritmetik ortalamadan farklarının karelerinin toplamının örnek hacminin bir eksiğine bölünmesinden elde edilen yayılım ölçüsüne örnek varyansı adı verilir. VERİ DEĞERLENDİRME UYGULAMA ÖRNEKLERİ
GİRİŞ Varyans hesaplanırken kullanılan verilerin kareleri alındığında mevcut ölçü biriminin de karesi alınmış olur. Örnek: ppm^2gibi. Bu nitelendirme veriler açısından bir anlam taşımayacağından varyans yerine ortalama etrafındaki değişimin bir ölçüsü olarak onun pozitif karekökü olan standart sapma kullanılır. VERİ DEĞERLENDİRME UYGULAMA ÖRNEKLERİ
???? Hangi istasyonda daha sık gözlem yapmalıyım??? GİRİŞ Station 1 Station 2 Station 3 Ortalama 4 7 5 St sapma 2 3 VERİ DEĞERLENDİRME ???? Hangi istasyonda daha sık gözlem yapmalıyım??? UYGULAMA ÖRNEKLERİ
???? Hangi istasyonda daha sık gözlem yapmalıyım??? GİRİŞ Station 1 Station 2 Station 3 Ortalama 4 7 5 St sapma 2 3 Değişkrnlik kts 0,5 0,42 0,4 VERİ DEĞERLENDİRME ???? Hangi istasyonda daha sık gözlem yapmalıyım??? UYGULAMA ÖRNEKLERİ
GİRİŞ Değişkenlik(Varyasyon) Katsayısı: Standart sapmayı ortalamanın bir yüzdesi olarak ifade eden ve iki veya daha fazla veri setinin varyasyonunu (değişkenliğini) karşılaştırmada kullanılan ölçüye varyasyon(değişkenlik) katsayısı denir. VERİ DEĞERLENDİRME UYGULAMA ÖRNEKLERİ
Çarpıklık Ölçüleri GİRİŞ Veri setlerini birbirinden ayırmak için her zaman yalnızca yer ve yayılım ölçüleri yeterli olmayabilir. Aşağıda iki farklı popülasyondan alınmış örnekler için oluşturulan histogramlar verilmiştir. VERİ DEĞERLENDİRME UYGULAMA ÖRNEKLERİ
Simetrik Dağılım A.O = Med = Mod Sağa çarpık dağılım Çarpıklık Ölçüleri GİRİŞ Simetrik Dağılım A.O = Med = Mod Sağa çarpık dağılım A.O > Med > Mod Sola çarpık dağılım A.O < Med < Mod VERİ DEĞERLENDİRME İki modlu simetrik dağılım UYGULAMA ÖRNEKLERİ Modu olmayan dağılım Tekdüzen dağılım
SU KALİTE DEĞERLENDİRME UYGULAMALARINDAN ÖRNEKLER GİRİŞ SU KALİTE DEĞERLENDİRME UYGULAMALARINDAN ÖRNEKLER VERİ DEĞERLENDİRME UYGULAMA ÖRNEKLERİ
Q2:Kutunun ortasındaki çizgi Sapan hariç min.: Alt bıyık Q1:Kutunun alt kenarı Q3:Kutunu üst kenarı Q2:Kutunun ortasındaki çizgi Sapan hariç min.: Alt bıyık Sapan hariç max.: Üst bıyık Sapan değer kontrolu Q1 – 1.5(Q3 – Q1) Q3 + 1.5(Q3 – Q1) bu değerleri aykırı (aşan) veriler * ile gösterilir. GİRİŞ VERİ DEĞERLENDİRME UYGULAMA ÖRNEKLERİ
Box Plot-Kutu Grafiği GİRİŞ VERİ DEĞERLENDİRME UYGULAMA ÖRNEKLERİ
Box Plot-Kutu Grafiği GİRİŞ VERİ DEĞERLENDİRME UYGULAMA ÖRNEKLERİ
GİRİŞ VERİ DEĞERLENDİRME UYGULAMA ÖRNEKLERİ
“Suppose that a water-quality standard stated that the 90th percentile of arsenic concentrations in drinking water shall not exceed 300 ppb.” “90th percentile!!!!!!! “ Karakteristik değer!!!!!! GİRİŞ VERİ DEĞERLENDİRME UYGULAMA ÖRNEKLERİ
Su kalitesi değerlendirmede çok değişkenli istatistiksel yöntemler Faktör analizi Kümeleme (cluster) analizi Diskriminant analizi Çok boyutlu ölçeklendirme (Multi-dimensional scaling) Parametrik olmayan trend analizi Bu konuda yapılmış çalışmalar 2.b.1-liste.docx GİRİŞ VERİ DEĞERLENDİRME UYGULAMA ÖRNEKLERİ
GİRİŞ VERİ DEĞERLENDİRME UYGULAMA ÖRNEKLERİ
Teşekkür ederim…