Emre Nakış A. Ü. Tıp Fakültesi Biyoistatistik Anabilim Dalı 2012 Sonuç Ölçümlerinde Değişime Duyarlılığın(Responsiveness) Değerlendirilmesinde Kullanılan Yöntemler Emre Nakış A. Ü. Tıp Fakültesi Biyoistatistik Anabilim Dalı 2012
1. Tanımlar
Klinik denemelerde sonuç ölçümlerinin Güvenilir(Reliable) Geçerli(Valid) Değişime Duyarlı(Responsive) olması gerekir.
Güvenirlik Güvenilir bir ölçme aracı, bir deneyin benzer koşullarda iki veya daha fazla kere uygulandığında aynı sonuçları üretebilmesidir. Güvenirlik genellikle; sınıf içi korelasyon katsayısı ya da kappa istatistiğine dayanan analizler yoluyla test-tekrar test yapılarak ölçülür.
Geçerlik Geçerlik; bir ölçme aracının ölçmesi istenen özelliği başka özelliklerle karıştırmadan ölçebilme yeteneğidir. Geçerlik; Korelasyon analizi Regresyon modelleri Duyarlılık ve seçicilik tahminleri İKE altında kalan alanın değerlendirilmesi yoluyla ölçülür.
Değişime Duyarlılık Geçerlilik ve güvenirliğin açık tanımları olmasına rağmen, ölçme aracının değişime duyarlı olup olmadığının nasıl tanımlanacağı ve değerlendirileceği konusunda bir fikir birliğine varılamamıştır. Ancak literatürde İçsel Duyarlılık (Internal Responsiveness) Dışsal Duyarlık (External Responsiveness) olarak iki farklı temel bakış açısı ile değerlendirilmektedir.
İçsel Duyarlılık İçsel duyarlılık, belirlenen bir zaman diliminin sonunda ölçme aracının değişimi ölçebilme yeteneğidir. İçsel duyarlılığın değerlendirilmesinde genellikle kullanılan yöntem, daha önce etkili olduğu gösterilen bir tedaviyi içeren randomize klinik bir denemede ölçümde meydana gelen değişimi hesaplamaktır. Ölçümde meydana gelen değişim, klinik olarak anlamlı değişim olarak yorumlanır.
İçsel Duyarlılık İncelen ölçümde meydana gelen değişim, hastaların etkili olduğu bilinen bir tedavinin öncesi ve sonrasında değerlendirildiği tekrarlı ölçümlerde tek yönlü varyans analizi tasarımı kullanılarak da değerlendirilebilir. Bu strateji çeşitli sağlık ölçümlerinde karşılaştırma yapmak için kullanılır.
Dışsal Duyarlılık Dışsal duyarlılık, belirlenen bir zaman diliminin sonunda ölçme aracında ortaya çıkan değişimin, referans bir ölçme aracındaki değişimle ilişkisinin değerlendirilmesidir. Eğer ilişki kuvvetliyse, ölçme aracı sonraki çalışmalarda referans ölçme aracının yerine kullanılabilir. Diğer bir yorum olarak standartla yer değiştirmesinden ziyade, standarttaki değişim bir hastanın durumunda beklenen değişimin kabul edilen göstergesi olarak değerlendirilir.
2. Gösterimler
X1 ve X2 : İlk ve ikinci değerlendirme sonuçları Çalışmadaki her bir bireyin incelenen ölçme aracı ile iki zaman noktasında değerlendirildiği varsayılsın X1 ve X2 : İlk ve ikinci değerlendirme sonuçları DX=X2-X1 : Zaman noktaları arası değişim . : Başlangıç ve izlem değerlendirmeleri arasında beklenen ortalama değişim SD(X) : Birinci ve ikinci ölçüm değerleri için standart sapma tahmini (1. ve 2. ölçüm değerleri için eşit olduğu varsayılır)
SD(DX) : Değişim skorlarının standart sapması X1İ ve X2İ : Her bir hasta için birinci ve ikinci ölçüm yanıtlarını göstersin DXi= X2İ-X1İ : Her bir birey için ölçümler arası fark . : Birinci ve ikinci yanıtların ortalaması . : Yanıttaki ortalama değişim n : Toplam birey sayısı
3. İçsel Duyarlılık
3.1 Eşleştirilmiş t-testi Bu test istatistiği iki zaman noktası ölçümleri üzerinden ortalama yanıtta değişim olmadığı biçiminde kurulan hipotezin testinde kullanılır.
3.1 Eşleştirilmiş t-testi Eşleştirilmiş t-testi, ölçme aracında gözlenen değişimin istatistiksel anlamlılığı üzerinde odaklanır. Ancak istatistiksel anlamlılık, gözlenen değişimin büyüklüğüne, örneklem genişliğine ve ölçümün değişkenliğine bağlıdır. Sonuç olarak yaygın olarak kullanılmasına rağmen, eşleştirilmiş t-testi duyarlılığı değerlendirmek için uygun bir yöntem değildir.
Etki Genişliği İlk olarak Cohen tarafından önerilen etki genişliği istatistikleri, ölçümdeki değişimin büyüklüğü hakkında doğrudan bilgi sağlar. Bu sebepten, duyarlılığın göstergesi olarak kullanımları tavsiye edilir.
3.2 Etki Genişliği І (Standartlaştırılmış Etki Genişliği) İlk etki genişliği istatistiği, standartlaştırılmış etki genişliği olarak da adlandırılır: Böylece ortalama değişim skorları ile ilişkili olarak başlangıç değişkenliğin yüksek olması küçük bir etki genişliğine sahip olacaktır.
3.2 Etki Genişliği І (Standartlaştırılmış Etki Genişliği) Ölçümde gözlenen değişimin klinik önemiyle ilgili kararları kolaylaştırmak için farklı kriter kullanımları önerilmiştir: ESІ≤0.20 Düşük ESІ=0.50 Orta ESІ≥0.80 Yüksek
3.3 Etki Genişliği II: (Standartlaştırılmış Yanıt Ortalaması-SRM) Literatürde bu etki genişliği “Duyarlılık-Tedavi katsayısı” olarak ya da “etkinlik indeksi” olarak tanımlanır:
3.3 Etki Genişliği II: (Standartlaştırılmış Yanıt Ortalaması-SRM) ESII, gözlenen değişimin değişim skorlarının değişkenliğini yansıtan standart sapmaya oranıdır. Böylece ortalama değişim ile ilişkili olarak; değişim skorlarındaki yüksek değişkenlik, küçük bir etki genişliği değerine sahip olacaktır. 0.20,0.50 ve 0.80 ve üzeri değerleri duyarlılığı düşük, orta ve yüksek olarak temsil etmek için öne sürülmektedir.
3.4 Etki Genişliği III Guyatt, etki genişliği için bir başka indeks geliştirmiştir. : Klinik olarak anlamlı kabul edilen minimum değişim MSEx : Varyans analizinden elde edilen X’in hata kareler ortalamasıdır. [Her denekten iki ölçüm (önce-sonra) alındığında, değişim skorlarının standart sapmasıdır]
3.4 Etki Genişliği III ESI ve ESII’ye benzer olarak 0.20, 050, 0.80 ve üzeri değerler düşük, orta ve yüksek duyarlılığı temsil etmek için kullanılır. Bu indeks ESI ve ESII’ye göre daha üstün kabul edilse de, minimum klinik anlamlı değişimin bir çok ölçüm için bilinmiyor olması, bu indeksin kullanımının çok yaygın olmamasına neden olmuştur.
3.5 Etki Genişliği İstatistiklerinin Yorumlanması Etki genişliği istatistikleri genel olarak duyarlılığın incelenmesinde ölçümdeki değişime bağlı olarak değerlendirme yapan ve kolaylıkla hesaplanan değerlerdir. Literatürde yaygın olarak kullanılmaktadırlar. ESIII hariç, ESІ ve ESII gözlenen değişime bağlı indekslerdir. Ancak ölçümde gözlemlenen değişim hastanın durumundaki klinik olarak anlamlı değişmeyi yansıtmayabilir. Bu indekslerde hesaplamalar farklı olsa da yorumlamada kullanılan kesim noktaları aynıdır.
4. Dışsal Duyarlılık
4.1 İKE Yöntemi İKE eğrileri bir ölçüm ile değişimin dışsal bir göstergesi arasındaki ilişkiye çok etkili bir bakış açısı sağlar. İKE yönteminin belki de en büyük dezavantajı dışsal değişim skorunun iki sonuçlu hale getirilmek zorunda olmasıdır (hastalık gelişti, gelişmedi gibi). Bu işlem dışsal kriterdeki değişim miktarından elde edilecek bilginin azalmasına neden olur.
4.2 Korelasyon Korelasyon katsayısı duyarlılığı değerlendirmek için çok iyi bir yaklaşım olduğu düşüncesi ile literatürde sıklıkla kullanılır. Pearson korelasyon katsayısı iki ölçümün değişiminin skorlarına dayalı olarak hesaplanır:
4.2 Korelasyon Duyarlılığın değerlendirilmesinde korelasyon katsayısının tercih edilmesinin nedeni, bir ölçümün spesifik bir alternatif sonuca göre duyarlı olup olmadığını incelemesidir. Bir ölçümde değişimin, diğer bir ölçümde değişimi ne kadar iyi tahmin ettiğini yansıtır.
4.3 Regresyon Modelleri X: Yaşam kalitesiyle ilgili yeni bir sağlık ölçümü Y: Geleneksel klinik sonuç olsun. Basit doğrusal regresyon modeli: a: X’te değişiklik gözlemlenmediğinde Y’deki ortalama değişikliği gösterir. b: X’te bir birimlik değişiklik meydana geldiğinde Y’deki ortalama değişim miktarını gösterir. Dyi=a+bdxi+ei ei, (i=1,…,n) bağımsız N(0,σ2)
4.3 Regresyon Modelleri b’nin yüksek değerleri, X’deki değişimin Y’deki değişimle aynı yönlü olduğu anlamına gelir. b’nin istatistiksel anlamlılığının yanı sıra, aynı amaç için birden fazla ölçüm varsa, standartlaştırılmış regresyon katsayısı kullanılabilir. Çeşitli alternatif yöntemlerin aksine regresyon katsayısı b aracılığıyla duyarlılık için kolay yorumlanabilir bir indeks sağlar.
5. Örnek: Psoriatic Arthritis’te Duyarlılık
Veriler Toronto Üniversitesi psoriatic arthritis kliniğinden alınmıştır. 1994ve 1996 yılları arasında yapılan araştırmaya 70 hasta (27 kadın-43 erkek) alınmıştır. Çalışmada sağlık durumunu değerlendirmede üç ölçek (HAQ, AIMS2, SF-36) kullanılmıştır. Bu ölçekler kullanılarak yaklaşık 1-1.5 yıl ara ile iki zaman noktasında ölçüm alınmıştır.
Dışsal duyarlılık için hastalarda sağlıklarındaki değişimi sorgulayan, sağlık değişim indeksi referans ölçüm olarak kullanılmıştır. Hastalar iki test arasında sağlık durumlarında değişimleri 5’li likert ölçeğine göre değerlendirmişlerdir. 1=bir yıl öncesine göre çok daha iyi 2=bir yıl öncesine göre biraz daha iyi 3=hemen hemen aynı 4=bir yıl öncesine göre biraz daha kötü 5=bir yıl öncesine göre çok daha kötü
ESIII için klinik olarak minimum anlamlı değişim, sağlık durumlarını bir yıl öncesine göre biraz daha iyi olarak değerlendirenlerin ortalama değişimi ile sağlık durumlarını aynı olarak değerlendirenler için ortalama değişim arası fark alınarak tanımlanmıştır. Payda kısmı, sağlık durumunu aynı olarak değerlendiren hastalarda fiziksel fonksiyondaki değişimin standart sapmasıdır.
İKE analizi için sağlık durumlarında değişim iki kategorili olarak kodlanmıştır. Sağlık durumlarını bir yıl öncesine göre biraz daha iyi ve çok daha iyi olarak değerlendirenler, “gelişim/iyileşme var”, sağlık durumu bir yıl öncesine göre aynı, biraz daha kötü ve çok daha kötü olarak değerlendirenler “gelişim/iyileşme yok” olarak sınıflandırılmıştır.
Psoriatic Arthritis Hastalarında HAQ, AIMS2 ve SF-36 Boyutlarının Fiziksel Fonksiyonu İçin İçsel Duyarlılık İstatistikleri İçsel Duyarlılık Fiziksel Fonksiyon Skorları Etki Genişliği І Etki Genişliği II SRM Etki Genişliği III Guyatt İndeksi HAQ -0.055 -0.074 0.047 AISM2 0.05 0.031 -0.213 SF-36 0.086 0.126 0.416
İKE analizi sonucunda elde edilen eğri altında kalan alanlar, her bir ölçek için fiziksel fonksiyonellik değişim skorlarının, “iyileşen” ve “iyileşmeyen” hastalar arasında orta düzeyde ayrımsama yaptığını göstermektedir. İKE altında kalan alan, SF-36’nın HAQ ve AIMS2’ye göre daha iyi ayrımsama yaptığını ortaya koymaktadır. Dışsal Duyarlılık Fiziksel Fonksiyon Skorları İKE Altındaki Alan HAQ 0.609 AISM2 0.647 SF-36 0.751
Korelasyon analizleri de HAQ, AIMS2 ve SF-36 için fiziksel fonksiyonda değişim skorlarının sağlıkta algılanan değişimle ilişkili olduğunu ileri sürmektedir. Hem HAQ hem de AIMS2’nin sağlıkta algılanan değişimle ilişkinin zayıf olduğunu gösterirken, SF-36 ise sağlıkta algılanan değişimle orta düzey ilişki olduğunu göstermektedir. Dışsal Duyarlılık Fiziksel Fonksiyon Skorları Pearson Korelasyon katsayısı (p değeri) HAQ 0.37 (0.002) AISM2 0.33 (0.005) SF-36 -0.55 (p<0.001)
Doğrusal regresyon analizinde bireysel regresyon katsayıları, istatistiksel olarak anlamlıdır ve ölçümün herhangi bir fiziksel fonksiyonda bir birim değişimle bağlantılı sağlıkta değişimin miktarını gösterir. Örneğin, bu iki testte HAQ fiziksel fonksiyon değişim skorundaki bir birimlik değişim, sağlık geçiş indeksinde ortalama olarak, bir birimlik değişime karşılık gelmektedir. Dışsal Duyarlılık Fiziksel Fonksiyon Skorları Doğrusal Regresyon Yöntemi b (Std. Hata) R2 HAQ 1.05 (0.32)* 0.14 AISM2 0.32 (0.11)* 0.11 SF-36 -0.03 (1.01)** 0.31
HAQ için açıklanan değişim miktarı=%14 AIMS2 için açıklanan değişim miktarı=%11 SF-36 için açıklanan değişim miktarı=%31 R2 istatistiklerine dayanan bu bilgi, sağlık skorlarında değişim skorlarıyla sağlık durumunu ölçen araçlar arasında gösterilebilir bir ilişki var olduğunu gösterirken bu ilişkinin uygulama amaçları için yeterince iyi olmadığını gösterir. Eğer ölçüm dışsal standart için bir yer değiştirme olarak kullanılabilirse yüksek bir R2’nin elde edilmesi gerekir.
6. Tartışma
İçsel ve dışsal duyarlılık arasındaki fark önemlidir. Stucki, Kishner, Guyatt ve Felson klinik çalışmalarda basitliği ve etkinliğine dayanarak duyarlılık istatistiklerinin ikiye ayrılarak tanımlanmasının avantajlı olacağını ileri sürmektedirler. Çalışmalarda kullanılan duyarlılık istatistikleri genelde içsel duyarlılıktır. Bu bağlamda tek potansiyel zorluk ESIII değerleri için gerekli olan ölçümde, klinik olarak değişimin nasıl tarafsız olmasıyla ilgilidir.
ESI ve ESII’den hangisinin kullanılacağına karar vermek için ortalama farklarda uygun olana bakılır. Bu duyarlılık istatistikleri eşleştirilmiş t-testine göre örneklem çapından bağımsızdır. Dışsal duyarlılık istatistiklerinin kullanımında regresyon modellerinin kullanımı çok uygun olmaktadır. İKE ve korelasyon katsayısının da kullanımı bu metodolojinin kısıtlamalarını azaltabilir. İçsel duyarlılık istatistikleri hastanın ölçüm seviyesindeki değişiklik söz konusu olduğunda daha fazla önem kazanmaktadır.
KAYNAKLAR Deyo RA, Diehr P, Patrick DL. Reproducibility and responsiveness of health status measures. Statistics and strategies for evaluation. Controlled Clin Trial 1991;12:142S–158S. Guyatt G, Walter S, Norman G. Measuring change over time: assessing the usefulness of evaluative instruments. J Chron Dis 1987;40:171-8. Guyatt H, Deyo RA, Charlson M, Levine MN, Mitchell A. Responsiveness and validity in health status measurement: a clarification. J Clin Epidemiol 1989;42:403–8. Alpar R, Spor,Sağlık ve Eğitim Bilimlerinden Örneklerle Uygulamalı İstatistik ve Geçerlik-Güvenirlik. 1. bs., Detay Yayıncılık, 344 s., Ankara, 2010. Liang MH, Larson MG, Cullen KE, Schwartz JA. Comparative measurement efficiency and sensitivity of five health status instruments for arthritis research. Arthritis Rheum 1985;28:542–7. Çelik Y, Biyoistatistik Bilimsel Araştırma Spss. 1. bs.,483s-497s., 2011. Beckerman H,Roebroeck M, Lankhorst G, Becher J, Bezemer P, Verbeek A, Smallest Real Difference, a link between reproducibility and responsiveness. Amsterdam, 2001.
Kaynaklar Stucki G, Liang MH, Fossel AH, Katz JN. Relative responsiveness of condition-specific and generic health status measures in degenerative lumbar spinal stenosis. J Clin Epidemiol 1995;48:1369–78. Husted J, Gladman D, Farewell V, Long J. Relationship of the arthritis impact measurement scales (AIMS) to changes in articular status and functional performance in patients with psoriatic arthritis (PsA). J Rheumatol 1996;23:1932–7.
TEşekkürler