A/B Testi Nedir? Dönüşüm Optimizasyonunda Deney Tasarımı, İstatistik ve Uygulama Rehberi

Dijital ürünlerde “iyileştirme” çoğu zaman fikirlerle başlar; ancak sürdürülebilir büyüme, fikirlerin ölçülebilir kanıtlarla doğrulanmasına bağlıdır. A/B testi (split test), bir web sayfası, mobil uygulama ekranı, reklam kreatifi, e-posta konusu veya fiyatlandırma akışı gibi bir unsurun iki (veya daha fazla) varyantını gerçek kullanıcı trafiği üzerinde karşılaştırarak, hangi seçeneğin hedef metrikte daha iyi performans verdiğini belirlemeyi amaçlayan deney yöntemidir.

A/B testinin gücü, “ne hissettiğini” değil, nedensellik (causality) ilişkisini ölçmesinden gelir: Değişiklik yapıldığında, gözlenen farkın gerçekten bu değişiklikten kaynaklanıp kaynaklanmadığı istatistiksel çerçevede değerlendirilir.

Bu Invictus Wiki yazısı; A/B testinin mantığını, deney tasarımının kritik noktalarını, örneklem büyüklüğü ve istatistiksel anlamlılık gibi temel kavramları, yaygın tuzakları ve ileri seviye yöntemleri (A/A testi, SRM, CUPED, sekansiyel test, Bayesyen yaklaşım, çok kollu bandit) kapsayacak derinlikte hazırlanmıştır.

İÇİNDEKİLER TABLOSU

A/B Testi (Split Test) Nedir?

A/B testi, kullanıcıların rastgele biçimde iki gruba ayrıldığı bir deneydir:

A (Kontrol / Control): Mevcut sürüm
B (Varyant / Treatment): Değişiklik içeren sürüm

Her iki gruba aynı zaman aralığında, aynı koşullarda içerik gösterilir; ardından önceden belirlenmiş bir birincil metrik (primary metric) üzerinden performans kıyaslanır. Amaç, B varyantının A’ya göre anlamlı ve iş hedefleriyle uyumlu bir iyileşme sağlayıp sağlamadığını ortaya koymaktır.

A/B testi, en yalın haliyle bir rastgele kontrollü deney (randomized controlled trial) mantığına dayanır: Rastgele atama, gruplar arasındaki farkların büyük bölümünü “tesadüf” düzeyine indirerek, değişikliğin etkisini izole etmeyi hedefler.

A/B Testi Neden Yapılır?

A/B testi genellikle şu hedefler için kullanılır:

Dönüşüm oranı (conversion rate) artırma (satın alma, kayıt olma, form doldurma)
Gelir metriklerini iyileştirme (ARPU, AOV, LTV)
Ürün etkileşimini artırma (CTR, aktivasyon, retention)
Kullanıcı deneyimi (UX) kararlarını veriye dayandırma
Riskli değişikliklerde guardrail metrikleri ile zarar ihtimalini azaltma

A/B testinin değeri yalnızca “kazananı bulmak” değildir. İyi kurgulanmış testler, ürünün kullanıcı davranışına dair genellenebilir içgörüler üretir ve yol haritasını daha doğru yönlendirir.

A/B Testinin Temel Yapı Taşları

Hipotez (Hypothesis)

A/B testi “bir şey deneyelim” yaklaşımıyla değil, net hipotezle yapılır.

İyi hipotez formatı:

“Eğer [değişiklik] yaparsak, [kitle] için [mekanizma] nedeniyle [metrik] artar/azalır.”

Örnek:

“Checkout’ta adres adımını kısaltırsak, sürtünme azalacağı için satın alma dönüşümü artar.”

Birincil Metrik ve Metrik Hiyerarşisi

Test başlamadan önce:

Primary metric: Kararı belirleyen metrik
Secondary metrics: Yardımcı metrikler (CTR, add-to-cart vb.)
Guardrail metrics: Zarar kontrolü (iptal oranı, iade, hata oranı, performans, churn)

Bir testte çok sayıda metrikle “kazanan” aramak, yanlış pozitif (false positive) riskini yükseltir. Bu nedenle karar metrikleri önceden belirlenmelidir.

Rastgele Atama ve Deney Birimi

En kritik soru: “Rastgele atama neye göre yapılıyor?”

Deney birimi: Kullanıcı mı, oturum mu (session), cihaz mı, cookie mi?
Kullanıcı bazlı atama, aynı kişinin farklı varyantları görmesini (contamination) azaltır.
Oturum bazlı atama, özellikle girişsiz deneyimlerde ölçümü bozabilir.

Varyant Tasarımı

Varyant değişikliği:

Tek bir ana değişkeni hedeflemeli (özellikle öğrenme amaçlı testlerde)
Uçtan uca yolculuk (funnel) üzerindeki etkisi düşünülmeli
Teknik ölçüm hatalarına yol açmamalı (event tracking tutarlılığı)

A/B Testi Nasıl Çalışır? İstatistiksel Mantık

A/B testleri çoğunlukla hipotez testi (hypothesis testing) çerçevesinde değerlendirilir.

Null hipotez (H0): A ve B arasında fark yoktur.
Alternatif hipotez (H1): Fark vardır (veya belirli yöndedir).

Test sonunda ölçülen farkın “şansa bağlı” olma ihtimali istatistiksel olarak değerlendirilir.

P-değeri (p-value) ve İstatistiksel Anlamlılık (Statistical Significance)

p-değeri, H0 doğruyken, gözlenen (veya daha uç) bir farkı görme olasılığıdır.
Sıklıkla α = 0,05 anlamlılık eşiği kullanılır.

Ancak p-değeri tek başına “B daha iyi” demek değildir. Şu sorular birlikte değerlendirilmelidir:

Etkinin büyüklüğü (lift) anlamlı mı?
Güven aralığı (confidence interval) ne söylüyor?
Guardrail metriklerinde zarar var mı?
Test tasarımı hatasız mı?

Güven Aralığı (Confidence Interval)

Güven aralığı, etki tahmininin belirsizliğini gösterir. Örneğin +%2 lift ölçtün; ancak %95 güven aralığı -%1 ile +%5 arasında ise, sonuç hem pozitif hem negatif senaryoları barındırır. Bu durumda “kazandık” demek risklidir.

Tip I ve Tip II Hatası

Tip I hata (False Positive): Gerçekte fark yokken var sanmak.
Tip II hata (False Negative): Gerçekte fark varken yok sanmak.

A/B testinde “erken sevinç” genellikle Tip I hatadır; “yetersiz örneklem” ise Tip II hatayı artırır.

Örneklem Büyüklüğü (Sample Size), Güç (Power) ve MDE

Bir A/B testinin güvenilir olması için yeterli örnekleme ihtiyacı vardır. Buradaki üç kritik kavram:

Güç (power): Gerçek etki varsa yakalama olasılığı (sıklıkla %80 veya %90 hedeflenir).
MDE (Minimum Detectable Effect): Tespit etmek istediğin minimum etki büyüklüğü.
Baz oran (baseline conversion rate): Kontroldeki mevcut dönüşüm oranı.

MDE çok küçük seçilirse, gereken örneklem dramatik biçimde artar. Çok büyük seçilirse, küçük ama değerli kazanımlar kaçırılır.

Pratikte MDE seçimi, hem istatistik hem ekonomi problemidir:

“%0,3 artış yakalasam bile anlamlı gelir yaratır mı?”
“Bu testi bu trafikle kaç günde sağlıklı bitirebilirim?”

Test Süresi Neden “En Az Bir İş Döngüsü” Olmalı?

Kullanıcı davranışı haftanın günlerine göre değişir. E-ticarette hafta sonu ve maaş günleri etkisi; B2B’de hafta içi yoğunluk; uygulamalarda kampanya dönemleri gibi dinamikler vardır. Bu nedenle test süresi:

En az 1 tam hafta (çoğu senaryoda daha uzun)
Kampanya, fiyat değişikliği, sezon etkileri gibi dış etkenler kontrol edilerek
planlanmalıdır.

Yaygın Hatalar ve A/B Testi Tuzakları

Erken Bakma (Peeking) ve Sekansiyel Sorun

Test devam ederken her gün sonuçlara bakıp “anlamlı oldu, durduralım” yaklaşımı, yanlış pozitif riskini artırır. Bu, klasik p-değeri çerçevesinde istatistiksel bütünlüğü bozar.

Çözüm:

Test baştan planlanan sürede biter, sonra karar verilir
Veya sekansiyel test (sequential testing) yöntemleri kullanılır

SRM (Sample Ratio Mismatch)

Kontrol ve varyant gruplarının beklenen oranlarda (ör. 50/50) dağılmaması SRM’dir. Bu, çoğu zaman randomizasyon veya yönlendirme hatasına işaret eder ve sonuçları güvenilmez kılar.

Birden Fazla Karşılaştırma (Multiple Comparisons)

A/B/C/D gibi çoklu varyantlarda veya çok sayıda metrikte “anlamlı” aramak, şans eseri anlamlılık bulma ihtimalini yükseltir. Düzeltme (ör. Bonferroni) veya deney tasarımını sadeleştirme gerekebilir.

Ölçüm ve Event Tracking Hataları

A ve B’de olayların (event) farklı tetiklenmesi, gerçek davranış farkından ziyade ölçüm farkı üretir. A/B testinin en pahalı hatalarından biri budur: Yanlış veriye göre ürün kararı alınır.

Segmentasyonla Sonradan Hikaye Yazmak

Test “genelde” başarısızken, segmentlerde “bir yerde” anlamlı bulup zafer ilan etmek yüksek risklidir. Segment analizi yapılacaksa:

Önceden planlanmalı,
Örneklem yeterliliği değerlendirilmeli,
Çoklu karşılaştırma riski dikkate alınmalıdır.

A/A Testi Nedir ve Neden Önemlidir?

A/A testi, kontrol ve varyantın aynı olduğu testtir. Amaç fark yaratmak değil, deney altyapısını doğrulamaktır.

A/A testi şu soruları yanıtlar:

Randomizasyon düzgün mü?
Ölçüm ve event tracking tutarlı mı?
SRM var mı?
Sistem “şans eseri” çok sık anlamlı sonuç üretiyor mu?

Yeni bir deneysellik platformu, yeni event şeması veya büyük bir altyapı değişimi sonrası A/A testi kritik kalite kontrol adımıdır.

A/B Testi mi, Çok Değişkenli Test (MVT) mi?

A/B testi genellikle tek bir büyük değişikliği test etmek için idealdir.
Çok değişkenli test (multivariate testing – MVT) ise birden fazla bileşenin (başlık, görsel, CTA) kombinasyonlarını test etmeye çalışır.

MVT daha hızlı öğrenme vadeder; ancak kombinasyon sayısı arttıkça gereken örneklem çok büyür. Bu nedenle MVT:

Çok yüksek trafik
Çok iyi tasarlanmış metrik sistemi
Güçlü deneysellik altyapısı
gerektirir.

Çok Kollu Bandit (Multi-Armed Bandit) Ne Zaman Mantıklıdır?

Multi-armed bandit, deneyi “öğrenirken kazanma” yaklaşımıyla yürütür. Trafiği daha iyi performans veren varyanta zamanla kaydırarak kısa vadeli ödülü maksimize etmeyi hedefler.

Bandit yaklaşımı:

Kampanya optimizasyonu gibi kısa ömürlü senaryolarda
“En iyi varyanta hızlı geçmek” istenen durumlarda
faydalıdır.

Ancak bandit, klasik A/B testindeki “temiz nedensel çıkarım” hedefini her zaman aynı netlikte sağlamaz. Hedef “öğrenme” mi “anlık optimizasyon” mu olduğuna göre seçim yapılmalıdır.

İleri Seviye Konular: CUPED, Bayesyen A/B ve Guardrail Stratejisi

CUPED (Variance Reduction)

CUPED gibi varyans azaltma teknikleri, öncül kullanıcı davranışını (pre-period) kullanarak metrik varyansını düşürür. Varyans düştüğünde:

Aynı etkiyi daha küçük örneklemle yakalama
Daha kısa test süresi
mümkün olabilir.

Bayesyen A/B Testi (Bayesian A/B Testing)

Bayesyen yaklaşım p-değerinden çok:

“B’nin A’dan daha iyi olma olasılığı nedir?”
“Beklenen lift dağılımı nedir?”
gibi sorulara odaklanır.

Bu yaklaşım karar iletişimini kolaylaştırabilir; ancak priors (öncül dağılımlar) ve model varsayımları iyi yönetilmezse yanıltıcı olabilir.

Guardrail Metrikleri

Bir testin dönüşümü artırması yeterli olmayabilir. Örneğin:

Dönüşüm artarken iade oranı artıyorsa
Gelir artarken müşteri memnuniyeti düşüyorsa
Performans bozulup hata oranı artıyorsa

uzun vadede zarar ortaya çıkabilir. Guardrail metrikleri, bu tür yan etkileri erken yakalamak için tasarlanır.

A/B Testi Bir Araç Değil, Bir Disiplindir

A/B testi, yalnızca iki tasarımı karşılaştıran basit bir mekanizma değildir. Doğru kurgulandığında; ürün geliştirme, growth ve dönüşüm optimizasyonu (CRO) süreçlerine bilimsel bir disiplin kazandırır. Yanlış kurgulandığında ise sahte kazanımlar, yanlış öğrenimler ve pahalı ürün hataları üretir.

Sürdürülebilir değer için hedef; “anlamlılık avı” yapmak değil, iyi hipotezlerle ilerleyip ölçümü güvenceye almak, etkiyi doğru okumak ve öğrenimi ürün kültürünün parçası haline getirmektir.

A/B Testi Uygulama Örnekleri

A/B testinin gerçek değeri, “buton rengi” gibi yüzeysel değişikliklerden ziyade; kullanıcı davranışını etkileyen mekanizmaları (sürtünme, güven, anlaşılırlık, motivasyon, fiyat algısı, keşif deneyimi) sistematik biçimde sınamasında ortaya çıkar. Aşağıdaki örnekler, güncel ürün pratiklerinde sık görülen senaryoları; hipotez, deney tasarımı, metrik seti ve tipik tuzaklarıyla birlikte ele alır.

Şeffaf fiyat gösterimi: “Toplam fiyat” vs “gecelik fiyat” (pazaryeri ve seyahat ürünleri)

Senaryo: Konaklama ve seyahat ürünlerinde kullanıcılar çoğu zaman gecelik fiyatı görür; toplam fiyat (vergiler/temizlik/ücretler dahil) daha sonra ortaya çıkar. Bu, karar sürecinde sürtünme yaratabilir veya “sonradan sürpriz” hissiyle güveni zedeleyebilir.

Hipotez: Listeleme sayfasında toplam fiyatı daha erken ve daha görünür göstermek, fiyat şeffaflığını artırarak ileri adımlara geçişi (funnel progression) iyileştirebilir; ancak ilk tıklama oranını (CTR) düşürme riski vardır (çünkü toplam tutar daha yüksek görünür).

ŞU YAZI DA İLGİNİ ÇEKEBİLİR: Growth Hacking nedir?

Deney tasarımı (örnek):

Kontrol (A): Gecelik fiyat + ücretler ileride.
Varyant (B): Seçili tarihler için toplam fiyatı listeleme kartında gösterme (tarih yoksa varsayılan tarih mantığı).
Deney birimi: Kullanıcı (login/cookie bazlı) önerilir; aksi halde aynı kullanıcı iki farklı fiyat çerçevesi görebilir ve ölçüm bozulur.
Süre: En az 1–2 hafta; sezon/kampanya etkileri ayrıca izlenir.

Önerilen metrik seti:

Primary: Rezervasyon dönüşümü (booking conversion) veya ödeme tamamlama.
Secondary: Listing CTR, detay sayfa görüntüleme, “tarih seçimi” oranı.
Guardrail: İptal oranı, müşteri hizmetleri teması, iade/chargeback, gelir (AOV/GMV), fiyat algısı anketleri varsa.

Tipik tuzak: “CTR düştü, test kaybetti” yanılgısı. Fiyat şeffaflığı CTR’ı düşürse bile, daha nitelikli tıklamalarla toplam dönüşüm ve iptal metrikleri iyileşebilir. Seyahat ürünlerinde bu tür şeffaflık testlerinin yapıldığına dair örnekler yayınlanmıştır.

Streaming ve içerik keşfi: Ana ekran düzeni, görsel/başlık ve öneri mantığı (Netflix benzeri ürünler)

Senaryo: Keşif deneyiminde küçük değişiklikler (row sırası, kapak görseli, başlık varyantı, “devam et” alanı, öneri algoritmasının sıralama parametreleri) izleme süresini ve memnuniyeti etkiler. Ancak metrikler çok boyutludur: kısa vadede tıklama artabilir, uzun vadede tatmin düşebilir.

Hipotez: Öneri bileşeninin sıralama mantığını (ranking) değiştirerek, kullanıcıların daha hızlı “izlemeye başlama” (time-to-play) süresi azaltılabilir ve içerik keşfi artabilir.

Deney tasarımı (örnek):

Kontrol: Mevcut sıralama/yerleşim.
Varyant: Sıralama fonksiyonunda yeni sinyaller (örn. tazelik, benzerlik, kişisel ilgi) veya UI yerleşiminde değişiklik.
İleri seviye ihtiyaç: Streaming gibi ortamlarda metrikler süreklidir (izleme süresi vb.) ve deneyler uzun sürebilir. Bu nedenle sekansiyel yaklaşımlar ve gelişmiş istatistik tasarımları kullanımı önem kazanır. Netflix’in bu alanda sekansiyel A/B test yaklaşımlarını ele alan teknik yazıları bulunur.

Önerilen metrik seti:

Primary: İzlemeye başlama oranı, izleme süresi, “tamamlama” metrikleri (completion).
Secondary: Keşif çeşitliliği, tekrar izleme, “beğenme/ekleme” sinyalleri.
Guardrail: Abonelik iptali (churn), kalite algısı, performans (yükleme süreleri), içerik memnuniyeti.

Tipik tuzak: “Tek metrik optimizasyonu.” CTR’ı optimize etmek, clickbait benzeri tercihlere kaydırıp uzun vadeli memnuniyeti düşürebilir. Bu yüzden guardrail metrikleri ve uzun vadeli ölçüm pencereleri kritik olur.

Mobil onboarding ve “time-to-value” optimizasyonu: İlk deneyim akışı (Duolingo tarzı ürünler)

Senaryo: Onboarding; kişiselleştirme adımları, hedef belirleme, ilk başarı hissi, bildirim izinleri ve ücretli plan tanıtımı gibi parçalar içerir. Bir adımı eklemek aktivasyonu artırabilir, ama drop-off’u da yükseltebilir.

Hipotez: Onboarding’i kısaltıp “ilk değer anı”na (magic moment) daha hızlı ulaştırmak, ilk gün aktivasyonunu ve 7. gün geri dönüşü (D7 retention) artırır.

Deney tasarımı (örnek):

Kontrol: Daha uzun onboarding + detaylı sorular.
Varyant: Daha hızlı başlangıç + kişiselleştirmeyi sonradan tamamlama (progressive profiling).
Segment planı: Yeni kullanıcılar; dil seviyesi/ülke/cihaz kırılımı gibi önceden belirlenmiş segmentler.

Duolingo gibi yüksek ölçekli tüketici uygulamalarında onboarding, “mikro iyileştirmeler” ile iteratif biçimde optimize edilir; bu yaklaşımı inceleyen güncel ürün analizi yazıları mevcuttur.

Önerilen metrik seti:

Primary: Aktivasyon (first lesson / first key action), D1 ve D7 retention.
Secondary: İlk oturum süresi, derse başlama hızı, bildirim opt-in.
Guardrail: Erken churn, olumsuz yorum/CSAT, ödeme dönüşümü (eğer monetizasyon etkileniyorsa), “yanlış kullanıcı vaadi” riski.

Tipik tuzak: Yalnızca “ilk oturum” kazanımına odaklanmak. Hızlı aktivasyon, uzun vadeli retention’ı düşürüyorsa kazanım sahte olabilir.

Checkout sürtünme azaltma: Adım sayısı, misafir ödeme, form alanları (e-ticaret)

Senaryo: Checkout’ta her ekstra alan ve her ekstra adım, dönüşüm hunisinde kayıp üretir. Ancak fazla sadeleştirme; sahte sipariş, iade veya kargo sorunlarını artırabilir.

Hipotez: Adres formundaki zorunlu alanları azaltmak ve otomatik doldurma (autofill) eklemek, checkout tamamlama oranını artırır.

Deney tasarımı (örnek):

Kontrol: Mevcut form (ör. apartman, kat, daire zorunlu).
Varyant: Daha az zorunlu alan + adres doğrulama (address validation) ile kalite kontrol.
Deney birimi: Kullanıcı; aynı kullanıcı farklı cihazda da aynı varyantı görmeli (mümkünse account-based assignment).

Önerilen metrik seti:

Primary: Satın alma dönüşümü, ödeme adımı tamamlama.
Secondary: Form hata oranı, ödeme sayfasına geçiş, sepet terk oranı.
Guardrail: Teslimat başarısızlığı, iade, müşteri destek talebi, sahte sipariş oranı, dolandırıcılık (fraud).

Tipik tuzak: Formu kısaltıp dönüşümü artırmak, ama kargo hataları ve iadeler yüzünden net karlılığı düşürmek. Bu nedenle net gelir/karlılık guardrail’i şarttır.

E-posta ve push bildirimleri: Konu satırı, gönderim zamanı, içerik yoğunluğu (CRM)

Senaryo: CRM kanallarında A/B testleri hızlı sonuç verir; ancak çok sık test yapmak “çoklu karşılaştırma” ve “kısa vadeli metrik” sorunlarını büyütür.

Hipotez: Daha spesifik değer vaadi içeren konu satırı, açılma oranını (open rate) ve tıklamayı artırır; fakat spam şikayetini yükseltmemelidir.

Deney tasarımı (örnek):

Kontrol: Genel konu satırı.
Varyant: Kişiselleştirilmiş/vaat odaklı konu satırı.
Dikkat: iOS Mail Privacy Protection gibi etkiler nedeniyle open rate ölçümü güvenilmezleşebilir; bu durumda tıklama (CTR), site aksiyonu ve dönüşüm gibi metrikler daha anlamlıdır.

Önerilen metrik seti:

Primary: Tıklama ve hedef aksiyon (site dönüşümü / satın alma).
Secondary: Unsubscribe, spam complaint.
Guardrail: Teslim edilebilirlik (deliverability), domain reputation.

Tipik tuzak: Sadece open rate ile karar vermek ve uzun vadede deliverability’yi bozmak.

Arama ve sıralama sistemleri: Listeleme algoritması, filtreler ve “niyet” sinyalleri (pazaryeri, içerik, ilan)

Senaryo: Arama sonuç sıralaması (ranking) veya filtre varsayılanları değiştiğinde; CTR artabilir ama “kötü eşleşme” yüzünden satın alma/rezervasyon düşebilir. Ayrıca kullanıcılar seyrek satın alıyorsa (ör. seyahat), dönüşüm metriği geç gerçekleşir ve test süresi uzar.

Hipotez: Sıralamada “kullanıcı niyeti” sinyallerini (ör. bütçe aralığı, konum tercihleri, önceki etkileşimler) daha fazla ağırlıklandırmak, sonuç kalitesini artırarak uzun vadeli dönüşümü yükseltir.

Deney tasarımı (örnek):

Kontrol: Mevcut ranking.
Varyant: Yeni ranking ağırlıkları.
İleri seviye yaklaşım: Düşük frekanslı dönüşüm durumlarında yalnızca klasik A/B testine bel bağlamak yerine, daha hızlı sinyaller (add-to-cart, wishlist, detay görüntüleme) ve karşı-olgusal (counterfactual) değerlendirme teknikleri birlikte ele alınabilir. Bu konu üzerine güncel araştırmalar yayınlanmaktadır.

Önerilen metrik seti:

Primary: Rezervasyon/satın alma.
Secondary: Arama memnuniyeti proxy’leri (detay sayfa, filtre kullanımı, geri dönüş oranı).
Guardrail: İade/iptal, müşteri şikayeti, “diversity” (sonuç çeşitliliği), performans (latency).

Tipik tuzak: Kısa vadeli proxy metriklerle kazandığını sanıp, gerçek dönüşüm ve memnuniyet metriklerinde kaybetmek.

Deneysellik programı ölçeğinde “öğrenme”: Meta-analiz, SUTVA ihlalleri ve platform etkileri (büyük organizasyonlar)

Bazı A/B testleri tek tek kazanım üretir; asıl değer ise deney portföyü büyüdükçe ortaya çıkar: Hangi tür değişiklikler hangi bağlamlarda çalışıyor? Hangi segmentlerde etkiler tutarlı? Deneyler birbirini etkiliyor mu?

Büyük ölçekli deney programlarında gündeme gelen “ileri” konular:

Meta-analiz: Çok sayıda deneyden genellenebilir öğrenim çıkarmak.
SUTVA ihlalleri: Bir kullanıcının gördüğü varyantın, başka kullanıcıların deneyimini etkilediği durumlar (ağ etkileri, pazar yerinde arz-talep etkileşimi).
Deney platformu kararları: Loglama, randomizasyon, guardrail standardizasyonu, deney çakışmaları.

Bu tür konuların, özellikle büyük ölçekli seyahat ve pazaryeri şirketlerinde güncel olarak tartışıldığı görülür.

A/B Testi Hakkında Sıkça Sorulan Sorular

Bu bölüm, A/B testi uygulamalarında en sık karşılaşılan kavramsal, istatistiksel ve operasyonel soruları; pratikte karşılığı olan, karar almayı kolaylaştıran yanıtlarla ele alır.

A/B testi ile çok değişkenli test (MVT) arasındaki temel fark nedir?

A/B testi, tek bir ana değişkeni (örneğin başlık, CTA metni veya fiyat sunumu) izole ederek karşılaştırmayı hedefler. Bu yaklaşım, nedensel etkiyi daha net ölçmeyi sağlar ve daha düşük trafik gerektirir.

Çok değişkenli test (multivariate testing – MVT) ise aynı anda birden fazla bileşenin farklı kombinasyonlarını test eder. Teorik olarak daha fazla öğrenim sunar; ancak kombinasyon sayısı arttıkça gereken örneklem dramatik biçimde büyür. Bu nedenle MVT, ancak çok yüksek trafik ve olgun bir deneysellik altyapısı olan ürünlerde anlamlıdır. Çoğu ekip için A/B testi, öğrenme/verim dengesi açısından daha doğru başlangıçtır.

A/B testi için minimum trafik ne kadar olmalı?

Bu sorunun tek bir sayısal yanıtı yoktur. Gerekli trafik; mevcut dönüşüm oranına, hedeflenen minimum etki büyüklüğüne (MDE), seçilen istatistiksel güce (power) ve anlamlılık seviyesine bağlıdır.

Örneğin %2 dönüşüm oranına sahip bir sayfada %5 göreli artışı (2,0 → 2,1) güvenle ölçmek, %20’lik bir artışı ölçmekten çok daha fazla örneklem gerektirir. Düşük trafikli ürünlerde A/B testleri hâlâ yapılabilir; ancak beklenti “büyük, bariz etkiler” ile sınırlı tutulmalı ve testlerin süresi daha uzun planlanmalıdır.

Testi ne zaman durdurmalıyım?

A/B testi, önceden belirlenmiş kriterler sağlandığında durdurulmalıdır. Bu kriterler genellikle şunları içerir:

Planlanan minimum örneklem büyüklüğüne ulaşılması
Planlanan minimum test süresinin tamamlanması (çoğu zaman en az 1 tam hafta döngüsü)
Teknik sorun (SRM, ölçüm hatası) olmaması

“Anlamlı oldu, hemen kapatalım” yaklaşımı; özellikle klasik p-değeri çerçevesinde yanlış pozitif sonuç riskini ciddi biçimde artırır. Test süresini veriye bakarak değil, deney tasarımına bakarak belirlemek gerekir.

p-değeri anlamlıysa testi kazandım mı?

Hayır. p-değeri yalnızca gözlenen farkın şansa bağlı olma ihtimalini değerlendirir; iş değeri ve risk hakkında tek başına karar verdirmez.

Karar verirken birlikte değerlendirilmesi gereken unsurlar:

Etkinin büyüklüğü (lift)
Güven aralığı (belirsizlik)
Guardrail metrikleri (yan etkiler)
Segment bazlı tutarlılık
Uzun vadeli etkiler (retention, churn, kalite)

İstatistiksel anlamlılık, karar için gerekli ama yeterli olmayan bir koşuldur.

Anlamlılık çıkmadıysa test başarısız mı sayılır?

Hayır. “Anlamlı fark yok” sonucu da değerli bir öğrenimdir. Bu sonuç şunlara işaret edebilir:

Test edilen değişiklik gerçekten etkisizdir
Etki vardır ama MDE’den küçüktür
Örneklem yetersizdir
Yanlış metrik veya yanlış hipotez seçilmiştir

Özellikle iyi kurgulanmış hipotezlerde, anlamlılık çıkmaması; kaynakların başka alanlara yönlendirilmesi gerektiğini göstererek stratejik değer üretir.

Segment bazlı sonuçlara güvenebilir miyim?

Segment analizi, önceden planlanmışsa anlamlıdır. Test bittikten sonra onlarca segmentte “anlamlı bir yer bulmaya çalışmak”, yanlış pozitif riskini çok yükseltir.

Segment bazlı sonuçlar yorumlanırken:

Segment örneklemi yeterli mi?
Segment analizi test planında var mıydı?
Çoklu karşılaştırma riski ele alındı mı?
Segment etkisi tutarlı mı?

Bu sorular net değilse, segment bulguları keşifsel (exploratory) kabul edilmeli; kesin kararlar için yeni testlerle doğrulanmalıdır.

A/A testi yapmak gerçekten gerekli mi?

Özellikle yeni bir deney altyapısı, yeni event şeması veya büyük bir teknik değişiklik sonrası A/A testi kritik bir kalite kontrol aracıdır.

A/A testleri şunları ortaya çıkarır:

Randomizasyon doğru mu?
Ölçüm tutarlı mı?
Sistem beklenenden fazla “anlamlı” sonuç üretiyor mu?
SRM gibi yapısal problemler var mı?

A/A testi, “hiçbir şey değişmediğinde sistem doğru mu davranıyor?” sorusunun cevabıdır.

Aynı anda birden fazla A/B testi çalıştırabilir miyim?

Evet, ancak dikkatli olunmalıdır. Aynı kullanıcı üzerinde birden fazla testin çakışması şu riskleri doğurur:

Etkileşim (interaction) etkileri
Ölçüm karmaşası
Sonuçların yorumlanmasının zorlaşması

Bu nedenle olgun deneysellik organizasyonları:

Deney çakışmalarını yöneten sistemler
Test önceliklendirme ve kapsama kuralları
Bazı alanlarda “tek test kuralı”
uygular. Küçük ekiplerde ise çakışan testlerden kaçınmak genellikle daha güvenlidir.

Bayesyen A/B testi mi, klasik (frequentist) A/B testi mi tercih edilmeli?

Her iki yaklaşımın da avantajları ve sınırlamaları vardır.

Klasik yaklaşım, net kurallar ve yaygın kabul görmüş standartlar sunar; ancak p-değeri yorumları çoğu zaman yanlış anlaşılır.
Bayesyen yaklaşım, karar vericiler için daha sezgisel olabilen “olasılık” diliyle çalışır; ancak öncül varsayımlar (priors) yanlış seçilirse sonuçlar yanıltıcı olabilir.

Önemli olan, hangi yöntemin seçildiğinden çok; seçilen yöntemin varsayımlarının ekip tarafından doğru anlaşılması ve tutarlı biçimde uygulanmasıdır.

A/B testi her karar için uygun mu?

Hayır. A/B testi özellikle geri döndürülebilir, kısa vadede ölçülebilir ve etik riski düşük değişiklikler için uygundur.

Aşağıdaki durumlarda A/B testi uygun olmayabilir:

Geri döndürülemez büyük stratejik kararlar
Çok düşük trafikli ve uzun geri dönüş döngülü ürünler
Yasal/etik risk taşıyan deneyler
Kullanıcı güvenini zedeleyebilecek manipülatif uygulamalar

Bu tür durumlarda nitel araştırma, simülasyon, kullanıcı testi veya sınırlı pilot uygulamalar daha doğru araçlar olabilir.

Genel Değerlendirme

A/B testi, doğru kullanıldığında ürün ve büyüme ekipleri için güçlü bir karar destek mekanizmasıdır. Ancak testlerin değeri; araçtan değil, hipotez kalitesinden, ölçüm disiplininden ve sonuçların bağlam içinde yorumlanmasından gelir. Sıkça sorulan bu soruların çoğu, A/B testinin “teknik bir araç” değil, organizasyonel bir öğrenme disiplini olduğunu hatırlatır.

Kaynakça

Evan Miller. (n.d.). A/B testing sample size calculator. https://www.evanmiller.org/ab-testing/sample-size.html
Kohavi, R., Tang, D., & Xu, Y. (2020). Trustworthy online controlled experiments: A practical guide to A/B testing. Cambridge University Press.
Montgomery, D. C. (2017). Design and analysis of experiments (9th ed.). Wiley.
Senn, S. (2008). Statistical issues in drug development (2nd ed.). Wiley.
Wasserman, L. (2004). All of statistics: A concise course in statistical inference. Springer.

İlave Okuma Önerileri

A/B testlerinde pratik uygulama, tuzaklar ve organizasyonel süreçler:
Kohavi, R., Tang, D., & Xu, Y. (2020). Trustworthy online controlled experiments.
Deney tasarımı temelleri ve istatistiksel çerçeve:
Montgomery, D. C. (2017). Design and analysis of experiments.
Sekansiyel test ve “erken bakma” problemi üzerine yöntemsel perspektif:
Senn, S. (2008). Statistical issues in drug development.
Bayesyen yaklaşım için kavramsal temel (A/B test bağlamına uyarlanabilir):
Kruschke, J. K. (2015). Doing Bayesian data analysis (2nd ed.). Academic Press.
Ölçüm kültürü ve deneysel ürün yönetimi bakışı:
Croll, A., & Yoskovitz, B. (2013). Lean analytics. O’Reilly Media.

🗓️ Yayınlanma Tarihi: 22 Ocak 2026
🔄 Son Güncelleme Tarihi: 22 Ocak 2026
🎯 Kimler için: Bu yazı; dönüşüm optimizasyonu (CRO), growth, ürün yönetimi ve performans pazarlaması alanlarında kararlarını veriyle temellendirmek isteyen profesyoneller için hazırlanmıştır. Web ve mobil ürünlerde kullanıcı davranışını ölçen analistlere, veri bilimcilerine ve yazılım ekiplerine; A/B testinin istatistiksel mantığını, deney tasarımının kritik noktalarını ve ölçüm tuzaklarını sistematik biçimde anlamak isteyen okurlara yöneliktir. Ayrıca yöneticiler ve paydaşlar için A/B test sonuçlarını doğru yorumlama, riskleri anlama ve karar süreçlerini standardize etme açısından kapsamlı bir başvuru niteliği taşır.

İçerik Bilgisi

Bu içerik yaklaşık 4841 kelimeden ve 29906 karakterden oluşmaktadır. Ortalama okuma süresi: 16 dakikadır. Invictus Wiki editoryal ilkelerine uygun olarak hazırlanmış; güvenilir ve doğrulanabilir kaynaklar temel alınarak yayımlanmıştır. Bilgi güncelliği düzenli olarak gözden geçirilir.

Invictus Wiki editoryal ekibini temsil eden kolektif bir yazarlık imzasıdır. IW imzasıyla yayımlanan içerikler; çok kaynaklı araştırma, editoryal inceleme ve tarafsızlık ilkeleri doğrultusunda hazırlanır.

Bu Yazıyı Paylaşmak İster Misin?

A/B Testi Nedir? Dönüşüm Optimizasyonunda Deney Tasarımı, İstatistik ve Uygulama Rehberi

A/B Testi (Split Test) Nedir?

A/B Testi Neden Yapılır?

A/B Testinin Temel Yapı Taşları

Hipotez (Hypothesis)

Birincil Metrik ve Metrik Hiyerarşisi

Rastgele Atama ve Deney Birimi

Varyant Tasarımı

A/B Testi Nasıl Çalışır? İstatistiksel Mantık

P-değeri (p-value) ve İstatistiksel Anlamlılık (Statistical Significance)

Güven Aralığı (Confidence Interval)

Tip I ve Tip II Hatası

Örneklem Büyüklüğü (Sample Size), Güç (Power) ve MDE

Test Süresi Neden “En Az Bir İş Döngüsü” Olmalı?

Yaygın Hatalar ve A/B Testi Tuzakları

Erken Bakma (Peeking) ve Sekansiyel Sorun

SRM (Sample Ratio Mismatch)

Birden Fazla Karşılaştırma (Multiple Comparisons)

Ölçüm ve Event Tracking Hataları

Segmentasyonla Sonradan Hikaye Yazmak

A/A Testi Nedir ve Neden Önemlidir?

A/B Testi mi, Çok Değişkenli Test (MVT) mi?

Çok Kollu Bandit (Multi-Armed Bandit) Ne Zaman Mantıklıdır?

İleri Seviye Konular: CUPED, Bayesyen A/B ve Guardrail Stratejisi

CUPED (Variance Reduction)

Bayesyen A/B Testi (Bayesian A/B Testing)

Guardrail Metrikleri

A/B Testi Bir Araç Değil, Bir Disiplindir

A/B Testi Uygulama Örnekleri

Şeffaf fiyat gösterimi: “Toplam fiyat” vs “gecelik fiyat” (pazaryeri ve seyahat ürünleri)

Streaming ve içerik keşfi: Ana ekran düzeni, görsel/başlık ve öneri mantığı (Netflix benzeri ürünler)

Mobil onboarding ve “time-to-value” optimizasyonu: İlk deneyim akışı (Duolingo tarzı ürünler)

Checkout sürtünme azaltma: Adım sayısı, misafir ödeme, form alanları (e-ticaret)

E-posta ve push bildirimleri: Konu satırı, gönderim zamanı, içerik yoğunluğu (CRM)

Arama ve sıralama sistemleri: Listeleme algoritması, filtreler ve “niyet” sinyalleri (pazaryeri, içerik, ilan)

Deneysellik programı ölçeğinde “öğrenme”: Meta-analiz, SUTVA ihlalleri ve platform etkileri (büyük organizasyonlar)

A/B Testi Hakkında Sıkça Sorulan Sorular

A/B testi ile çok değişkenli test (MVT) arasındaki temel fark nedir?

A/B testi için minimum trafik ne kadar olmalı?

Testi ne zaman durdurmalıyım?

p-değeri anlamlıysa testi kazandım mı?

Anlamlılık çıkmadıysa test başarısız mı sayılır?

Segment bazlı sonuçlara güvenebilir miyim?

A/A testi yapmak gerçekten gerekli mi?

Aynı anda birden fazla A/B testi çalıştırabilir miyim?

Bayesyen A/B testi mi, klasik (frequentist) A/B testi mi tercih edilmeli?

A/B testi her karar için uygun mu?

Genel Değerlendirme

Kaynakça

İlave Okuma Önerileri

İLGİLİ YAZILAR: