Veri Madenciliğinde Regresyon Yöntemleri İle Doğalgaz Sektöründe Talep – Tüketim Analizi Servet ÖZMEN Karabük Üniversitesi, Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği Ana Bilim Dalı, Karabük Dr. Baha ŞEN Yıldırım Beyazıt Üniversitesi, Mühendislik ve Doğa Bilimleri Fakültesi, Bilgisayar Mühendisliği Bölümü, Ankara
Sunum İçeriği Veri Madenciliği Hakkında Regresyon Yöntemine Genel Bakış Doğalgaz Sektörü Doğalgaz Sektöründe Talep – Tüketim Tahminlemenin Önemi Doğalgaz Tahmininde Veri Sözlüğü Verilerin Kullanılabilirliği Sonuç
Veri Madenciliği Veri madenciliği bilginin keşfine giden yol olarak tanımlanabilir. Farklı kaynaklardan verilerin toplanması Verilerin düzenlenmesi Algoritmaların uygulanması Sonuç Ortak hedef eldeki veriler ile gerçeğe en yakın bulgu veya tahminlemedir.
Regresyon Yöntemine Genel Bakış Regresyon Analizi esas olarak değişkenler arasında ilişkinin niteliğini saptamayı amaçlar. Bir yada birden daha çok değişkenin başka değişkenler cinsinden tahminleme olanağıdır.
Doğalgaz Sektörü Hızla tüketimi artan sektör Günümüzde değerli ve stratejik bir enerji kaynağı olarak sıklıkla evlerde ve endüstride kullanılmaktadır. Diğer kaynaklara göre uygun
Doğalgaz Sektöründe Talep – Tüketim Tahminlemenin Önemi ≈ %95 oranında dışa bağımlılık Enerji verimliliği Denetleme organları (EPDK) Cezai uygulamalar
Doğalgaz Tahmininde Veri Sözlüğü DEĞİŞKEN Tip ExcelVeriID Numerik KonutAbone KonutBBS OkulYurtAbone OkulYurtBBS ResmiKurumAbone ResmiKurumBBS SaglikAbone SaglikBBS SanayiAbone SanayiBBS SerbestTuketiciAbone SerbestTuketiciBBS Tarih Karakter ToplamAbone ToplamBBS TuketimAdapazariRMSA TuketimAkyaziRMSA TuketimCamiliRMSA TuketimHendekRMSA TuketimKonut TuketimOkulYurt TuketimResmiKurum TuketimSaglik TuketimSanayi TuketimSerbestTuketici TuketimUretimAmacli UretimAmacliAbone UretimAmacliBBS Tahminleme sürecinde RMS-A bazında farklı tüketim değerleri ve tüketim alışkanlıkları gözönüne alınarak veri sözlüğü oluşturulmuştur. Bu nedenle veri hazırlığı aşamasında kendi içinde homojen tahminlerin üretilmesi projenin başarılı bir şekilde sonuçlandırılması adına önemli bir rol oynamaktadır.
Doğalgaz Tahmininde Veri Sözlüğü Meteorolojik Veriler HavaTarih Ilce T_Ort T_Min T_Maks Nem Islak Termometre Sicaklik Ruzgar Hizi Yonu Durum Basinc Gorus Mesafesi 2011-07-05 01:00:00.000 Karasu 18,3 NULL 88 1 220 -99 1012,7 2011-07-05 00:00:00.000 Adapazarı 17,2 93 16,2 230 HAVA AÇIK 1013,4 15 Geyve 14,7 90 13,1 2 70 1015,4 18,9 3 190 2011-07-04 23:00:00.000 16,8 17 94 0,7 199 2011-07-04 22:00:00.000 17,6 17,7 0,6 150 2011-07-04 21:00:00.000 17,8 17,9 92 117 2011-07-04 20:00:00.000 18,8 19 234
Verilerin Kullanılabilirliği Meteoroloji Verileri Geçmiş Veriler 31.12.2010 tarihine kadar olan veriler Xml üzerinden gelen veriler Tahmin Verileri HavaDurumID: Benzersiz tablo anahtarıdır. HavaGelisTarih: Xml formatındaki veride, verinin alındığı tarih ve saattir. Geçmiş verilerde (31.12.2010 ve öncesi) bu tarih yoktur. HavaTarih: Hava durum tarihi ve saatini gösterir. Buradaki saat değeri UTC değeridir. Türkiye saati değildir. RuzgarHizi: Geçmiş veride ve xml verisinde rüzgar hızı verisi bulunmaktadır. Bu veri rüzgarın m/s değeridir. RuzgarYonu: Geçmiş veri ve xml verisinde rüzgar yönü verisi bulunmaktadır. Geçmiş veride rüzgar yönü pusula değerleriyle bağlantılı verilen değerler, xml formatında gelen verilere eş değer şekle getirilmiş, geçmiş veri xml ile uyumlaştırılmıştır. Buradaki yön kavramında +Y ekseni 0° gösterirken, +X ekseni 90° göstermektedir. –Y ekseni 180° gösterirken, -X ekseni 270° göstermektedir.
Doğalgaz Tahmininde Veri Sözlüğü Etkili veriler IsGunleriID IsGunleriTarihi AboneTuru IsGunuMu TatilNedeni Kampanya KampanyaDerecesi 16537 30.08.2011 00:00 1 NULL 16538 2 16539 8 3 16540 9 16541 10 16542 5
Verilerin Kullanılabilirliği Bu veri setinde 01.01.2006 ile 31.12.2021 tarihi arasındaki abone türlerine göre iş günü olup olmadığı, tatil ise tatil nedeni belirtmiştir. Buradaki veriler; IsGunleriID: Takvimin benzersiz anahtarıdır. IsGunleriTarihi: Takvim günlerini göstermektedir. AboneTuru: “AboneTuru” tablosununa bağlı olarak gelen benzersiz tanımlardır. IsGunuMu: Takvim gününün iş günü olup olmadığını gösterir. Buradaki “0” değeri tatil olduğunu, “1” değeri iş günü olduğu, “2” değeri ise yarım iş günü olduğunu göstermektedir. Dini bayram tatilleri 2015 yılına kadar bulunabildiği için, bu tarihe kadar girilmiştir. TatilNedeni: Bu alan tatil varsa nedenini göstermektedir. Buradaki değer “Tatiller” tablosundaki TatillerID ile eşleşmektedir.
Verilerin Kullanılabilirliği Veriler ile ilk çalışmayı SAS programı ile yapılmıştır. Fakat ücretli bir program olduğundan projenin devamında Weka ortamında open source kaynak kodlu program ile devam edilecektir.
Sonuç
Sonuç Sonuç olarak, günlük tahmin sonuçları oluşmaktadır. Tahmin sonuçları, yarın ve sonra ki haftayı tahmin etmektedir. Regresyon analiziyle talep – tüketim analizleri hata oranı düşük olarak tahminlemeleri çok yüksek derecede tutmaktadır. Hata payı oran ortalaması ilk çalışmamızda %9,4 oranında çıkmıştır. Bu oran verilerin kalitesi arttıkça düşmektedir. Raporlar 3 kırılımda alınabilmektedir.
Teşekkürler…