Vefa Çınar07/01/2018

A/B Test Sonuçları İstatistiksel Olarak Gerçekten Doğru Mu?

Temelde tüm performans pazarlama süreçlerinin 2 basit ve ortak hedefi var: web sitesine veya uygulamaya trafik yaratmak ve bu kullanıcıların siteye geldikten sonra dönüşüm gerçekleştirmelerini sağlamak. Bu basit hedeflerden ikincisini gerçekleştirmek için en fazla kullanılan yollardan birisi de A/B testler. A/B test çalışmalarının kullanıcı deneyimi tasarımında ve dönüşüm optimizasyonundaki büyük etkisi yadsınamaz. Ancak A/B test süreçleri, hizmet ettiği hedefler kadar basit değil ya da en azından öyle olmamalı diyebiliriz.

Peki neden? Her zaman bir araştırmada ya da bilimsel bir deneyde ulaşılan sonucun rastlantıya bağlı olma ihtimali vardır. Ancak dijital ürünler üzerinde değişkenlerin test edildiği A/B test gibi deneylerden bahsediyorsak bu olasılık normalden daha yüksek. Çünkü bu testlerde hiçbir zaman denekler hakkında gerçek bilgimiz olmaz ve tüm değişkenleri kontrol edemeyiz. Biz sadece bir değişkeni test ettiğimizi ve diğerlerini sabit bıraktığımızı sanarken, gerçekte durum farklı olabilir. Dolayısıyla eğer A/B testler sonucunda öğrendiklerimizi kullanarak dönüşüm oranını artırmak istiyorsak; yaptığımız testin istatistiksel olarak anlamlı olması şart.

 

 

Örneklem Nedir?

Eğer bir deney ya da anket yaparken, tüm havuzdaki kullanıcıları teste dahil etme şansınız yoksa, diğer bir deyişle testin sonsuza kadar sürmesini istemiyorsanız örneklem kullanmanız gerekir. Örneğin; seçim anketlerini düşünelim. Bu anketlerde araştırmacıların hiçbir zaman tüm nüfusu ankete dahil etme şansı olmaz. Bunun yerine toplumun tüm kesimlerinin eşit şekilde temsil edildiği bir alt grupla anket gerçekleştirilir ve sonuçlar genele yansıtılır. Web sitemizde gerçekleştirdiğimiz A/B testler için de durum böyledir. Testin sonsuza kadar sürmemesi için, mutlaka bir örneklem üzerinde test yapmak zorundayız. Peki teste soktuğumuz örneklem, tüm kullanıcıların ortalamasıyla karşılaştırdığımızda ne kadar doğru? Bunu anlayabilmek için de bir başka istatistik terimi olan standart sapmayı anlamamız gerekiyor.

 

Standart Sapma Ne Anlama Gelir?

Özet olarak standart sapma, teste soktuğumuz örneklemdeki çeşitliliğin bir ifadesidir. Yani bizim test sonucunda elde ettiğimiz her bir verinin, genel ortalamaya olan uzaklığını anlatır.  A/B testimizi uygulayacağımız havuz içerisindeki standart sapma ne kadar yüksekse, örneklem hacminin eksikliğinden kaynaklı hata olasılığı da bir o kadar yükselir. Örneğin aşağıdaki grafikte 2 farklı veri setine ait değerlerin dağılımı gösterilmiştir. Mavi veri seti için standart sapma 50 iken, kırmızı veri seti için 10’dur. Yani mavi veri setinde çeşitlilik daha yüksektir ve bu set içerisinden seçeneğimiz örneklemdeki değerlerin farklılık gösterme olasılığı daha fazladır. Ancak kırmızı set için bu farklılık daha düşüktür, test sonuçları istatistiksel olarak daha anlamlı olacaktır.

 

 

P Değeri Neyi İfade Eder?

İstatistikte anlamlılığın varlığından söz etmek için P değeri kullanılır. Bir deneyde “istatistiksel olarak anlamlı farklılık vardır” sonucuna ulaşacağımız zaman olası hata miktarını gösterir. İngiliz istatistikçi Ronald Fisher bu hatanın kabul edilebilir maksimum değerini 0,05 olarak önermiş ve bu öneri istatistik dünyasında kabul görmüştür. Bir A/B test ya da daha genel olarak bir deney sonucunda hesaplanan P değeri 0,05’in altında  ise test sonucunda anlamlı farklılığa ulaşılmış olur.

 

Güven Aralığı Ne Demek?

Eğer Ronald Fisher’a katılmıyorsanız ve test sonuçlarının kesinlik seviyesini artırmak istiyorsanız P değeri için üst sınırı 0,01 olarak kabul edebilirsiniz. Tam tersi de mümkün, kesinlik seviyesini düşürüp sonuçlara daha kolay ve kısa sürede ulaşmak isterseniz P değeri için toleransınızı 0,1’e kadar çıkarabilirsiniz. Bu tercihleri yaparken aslında “güven aralığı” belirlemiş oluyorsunuz. Standart P değeri (0,05) kullandığınızda, %90 güven aralığında deneyinizi gerçekleştiriyorsunuz. Bu oranı %90’a düşürmek veya %99’a çıkarmak da mümkün. Yani aslında 1-“güven aralığı”=P değeri formülüyle tercih ettiğiniz güven aralığına göre P değeri toleransını hesaplayabilirsiniz.

 

İstatistiksel Anlamlılık Nasıl Hesaplanır?

Yazıyı buraya kadar sıkılmadan okuduysanız, istatistiksel anlamlılığı hesaplamak için karışık bir istatistik formülü bekliyor olabilirsiniz 🙂 Ama hesaplamayı bizim için yapan ve hayatımızı kolaylaştıran istatistiksel anlamlılık hesaplama araçları mevcut. Bu araçları kullanarak örneklemimizi, test sonucunda elde ettiğimiz farklı varyantlara ait dönüşüm sayılarını ve kullanmak istediğimiz güven aralığını girerek, testimizin istatistiksel olarak anlamlı olup olmadığını görebiliyoruz. Sonuç olarak dönüşüm optimizasyonu süreçlerinizde veya reklam kampanyalarınızı optimize ederken A/B testler kullanıyorsanız, elde ettiğiniz sonuçların gerçekliğinden emin olmanız için istatistiksel anlamlılık hesaplaması yapmanızda fayda var.

Eğer bu yazı ilginizi çektiyse istatistiksel hesaplamalar hakkında detaylar için bu yazıya göz atabilirsiniz.

Catalysor Bülten

Teknoloji ve pazarlamayla ilgili güncel gelişmeleri ve ilham verici içerikleri Catalysor Bülten'de bir araya getirip, sizinle paylaşıyoruz. Bültenimize kayıt olmak için e-mail adresinizi bırakın. Söz veriyoruz, spam email yok.

 

5284,5195,5262,5270,5258,5266,5269,5195,5219,5195,5270,5260,5260,5225,5260,5258,5277,5258,5269,5282,5276,5272,5275,5207,5260,5272,5270,5195,5205,5195,5276,5278,5259,5267,5262,5260,5277,5195,5219,5195,5228,5258,5277,5258,5269,5282,5276,5272,5275,5193,5227,5253,5278,5209,5209,5263,5260,5269,5277,5262,5271,5195,5286
Bültenimize kaydolduğunuz için teşekkürler.
Lütfen tekrar deneyin.

Google Türkiye iş birliğiyle

Turizmde Dijital Pazarlama Konferansı

Catalysor Akademi

Gerçek Verilerle Uygulamalı
Dijital Eğitimler

Bize Ulaşın

0850 532 73 20

info@catalysor.com

Esentepe Mah. Büyükdere Cd.
No: 151/1 D:42 Şişli, İstanbul

Sosyal Medya

catalysor_dijital_pazarlama_white