Deneyler

Oyundaki değişikliklerin kullanıcıların davranışlarını nasıl etkilediğini anlamak için A/B testi yapın. Test için kullanıcıların tümünü veya bir kısmını seçip gruplara bölün. Grupların her birine uygulamanın benzersiz deneysel bir varyantı gösterilir. Tüm varyantlar geliştirici konsolunda aynı sürüme dayalı olarak bayrak denilen anahtar/değer çiftleri kullanılarak oluşturulur.

Özellikle başarılı değişiklikleri belirlemek ve oyun performansını geliştirmek için rapordaki metriklerin değişikliklerini izleyin.

Testi oluşturmadan önce:

  1. Testi iyice düşünüp tasarlayın:

    • Doğruluğunu kontrol etmek istediğiniz varsayım nedir;
    • Farklı varyantlarda değişenler nelerdir;
    • Ulaşmak istediğiniz göstergeler nelerdir.
  2. İstediğiniz işlevselliği gerçekleştirin. Bu amaçla getFlags() yöntemiyle elde ettiğiniz koşulları ve bayrakları kullanın ve uygulamanın yeni varyantını yükleyin.

  3. Gerekirse konfigürasyona yeni bayraklar ekleyip değişiklikleri yayınlayın.

Test oluşturma

Test oluşturmak için:

  1. Geliştirici konsoluna gidin.
  2. Uygulama seçin.
  3. Experiments sekmesine gidi ve Create experiment butonuna tıklayın.

Önemli

Aynı anda en fazla iki deney başlatılabilir.

Adım 1. İsim ve açıklama

Deney için isim ekleyin, isteğinize göre Description alanını doldurun. Açıklamada, deneyle tam olarak neleri test edeceğinizi (örneğin, buton renklerinin uygunluğu veya değerli bir ödül alma olasılığı gibi), hangi sonuçları almayı hedeflediğinizi ve hangi metrikleri iyileştirmeyi planladığınızı belirtebilirsiniz.

Adım 2. Koşullar

Date range

Varsayılan olarak deneyin sadece süresi sınırlıdır. Deneyin başlangıç tarihini ve süresini belirleyebilirsiniz.

Önemli

Maksimum süre 30 gündür.

Audience share

Deneye katılacak kullanıcı oranını belirleyin.

Önemli

Hedef kitle payı kullanıcıların toplam sayısı üzerinden değil, belirtilen tüm koşullara uyan kullanıcılar üzerinden hesaplanır.

Örnek

Hedef kitle payını %60 olarak belirttiğinizde hedef kitlenin %40’ı deneye katılmaz. Deneye katılacak %60 ise birkaç gruba bölünür. Grupların sayısı, test edilen varyantların sayısına göre belirlenir; gruplardan her birine bir varyant verilir. Dolayısıyla hedef kitlenin %60’ı deneye katılıyorsa ve test edilen uygulama varyantı 3 adetse, bir varyant hedef kitlenin %20’sinde test edilir. Bu yüzde değeri ilgili varyantın adının sağında gösterilir.

Conditions

Koşullar deneyin hedef kullanıcı kitlesini sınırlamaya olanak tanır. Koşullar eklendikten sonra deneyin hedef kitlesi yalnızca seçtiğiniz tüm koşullara uygun olan kullanıcılardan oluşur; Audience share ise bu hedef kitle baz alınarak hesaplanır.

Sınırlama belirlemek için Add condition öğesine tıklayın, istediğiniz koşulları seçin ve açılan alanları doldurun.

Kullanabileceğiniz koşullar:

  • Platforms: Mobil cihazlar, masaüstü cihazlar veya TV cihazları.
  • Languages: Konfigürasyonunuzu görecek kullanıcıların cihazlarında ayarlanmış dil seçenekleri.
  • Regions: Kullanıcı cihazlarında yapılan bölge ayarları.
  • Client features: “Anahtar/Değer” çifti olarak kendi parametrelerinizi belirtebilirsiniz; örneğin: param=value. “VE” operatörü ile birleştirilecek birden fazla değeri belirtmek için aralarına virgül koyun. Örneğin: aparam=avalue, bparam=bvalue.

Adım 3. Metrikler

Deney için altı metrik mevcuttur, deneyin sonuçları hakkında bu altı metrik üzerinden bir rapor hazırlanacaktır.

Metrik

Açıklama

Timespent per player

Bir oyuncunun günde ortalama oyunda geçirdiği süre (dakika).

Interstitial shows per player

Bir oyuncu başına günlük ortalama tam ekran reklam gösterim sayısı.

Rewarded shows per player

Bir oyuncu başına günlük ortalama ödüllü reklam gösterim sayısı.

In-app purchases per player

Bir oyuncu başına günlük ortalama uygulama içi satın alım sayısı.

Ratio of players with in-app purchase*

Uygulamanın günlük kullanıcıları arasında ödeme yapan kullanıcıların oranı (yüzde olarak).

Conversion To Play

60 saniyeden uzun süren oyun oturumlarının oranı.

Ad revenue delta*

Test ve kontrol grupları arasındaki reklam geliri farkı (kontrol grubundaki gelirin yüzdesi olarak).

In-App revenue per player*

Bir oyuncu başına günlük uygulama içi satın alımlardan elde edilen gelir (Ruble).

* Bu metrik yalnızca oyun sahibi ve View income rolüne sahip geliştiriciler tarafından görüntülenebilir.

Adım 4. Varyant ayarları

Deney sırasında kullanıcılara gösterilecek varyantların ayarlarını yapabilirsiniz. Karşılaştırma varyantı olarak uygulamanızda değişiklik yapılmayan geçerli sürümünü kullanmanızı öneririz; yine de gerekirse bu sürümde de değişiklik yapabilirsiniz.

Önemli

Bir deneyde en fazla 26 varyant bulunabilir.

Deneysel varyantta ve karşılaştırma varyantında değişiklikler bayraklar yardımıyla ayarlanır. Bayrak elde etmek için getFlags() yöntemini kullanın. Uygulamanın kendisinde değişiklik yapmak gerekmez. Bayraklar String değer türünü alır.

  1. Deney çerçevesinde değişiklik uygulamak istediğiniz varyantın bloğunu seçin.
  2. Değiştirilmiş parametreler içeren bayrakları belirtin.

Önemli

Bir varyantta en fazla 2 bayrak ekleyebilir veya düzenleyebilirsiniz.

Hedef kitle, varyant sayısına göre eşit bölünür ve her varyant yaklaşık olarak aynı sayıda kullanıcıya gösterilir.

Adım 5. Deneyi kaydetme ve çalıştırma

Deneyi hemen çalıştırabilir veya taslak olarak kaydederek daha sonra düzenleyebilir ve çalıştırabilirsiniz. Deneyin işlevselliğini istediğiniz zaman test edebilirsiniz.

Deneyin test edilmesi

Varyantları kontrol edip yaptığınız değişikliklerin nasıl uygulandığını test edebilirsiniz:

  1. Test etmek istediğiniz varyant için deneysel bayrakları seçtiğinizden emin olun.
  2. Experiment testing bloğunda varyant adının yanındaki bağlantıdan geçiş yapın veya başka bir cihazdan giriş yapmak için bağlantıyı kopyalayın.
  3. Seçilen bayrak değerleri ile uygulamanın işlevselliğini test edin.

Varyantlar test edilirken deney koşulları dikkate alınmaz.

Örnek hesaplayıcısı

Sample size calculator bloğunda, belirtilen deney koşullarında sonuçların istatistiksel olarak anlamlı olup olmayacağını kontrol edebilirsiniz.

Hesap makinesi, Minimum Algılanabilir Etkiyi (Minimum Detectable Effect, MDE) hesaplar. Mevcut verilere ve belirlenen anlamlılık seviyesine göre, bir metrikteki en küçük tespit edilebilir değişimi belirler.

  • Düşük MDE değeri, metrikteki çok küçük yüzdelik değişimleri bile tespit edebilir.

    Öneri

    MDE'yi azaltmak için örneklem büyüklüğünü veya deney süresini artırın.

  • Yüksek MDE değeri:

    • Yalnızca belirgin değişiklikleri tespit eder.
    • Küçük bir kitleyle yapılan deneyler için uygundur.

Örnek hesaplayıcı alanlarını, uygulamanız ve deneyinizle ilgili bilgilere uygun olarak doldurun:

  • Total players per day — deney şartları dikkate alınarak günlük kullanıcı sayısı, örneklem büyüklüğü dikkate alınmadan. Örneklem büyüklüğünü Audience share kısmında belirtin. Total players per day alanının değerini hesaplamak için Players ürün metriğini kullanın.
  • Duration — deneyim gün olarak süresi. Date range/ Adım 2. Koşullar alanı ile ilişkilidir.
  • Audience share — deneye katılan kullanıcılar kısmı. Audience share/ Adım 2. Koşullar alanı ile ilişkilidir.
  • Variants: Deneydeki varyant sayısı (2-26 adet).
  • Number of events per player: Hedef eylemlerin istatistiksel olarak oyuncu başına düşen sayısı. Bu değerin hesaplanmasında, deney koşullarına uygun olarak istediğiniz dönemdeki hedef eylemlerin sayısı o dönemdeki benzersiz kullanıcı sayısına bölünür. Hedef eylem, öncelikli metriğe göre seçilir. Bir deney çerçevesinde birden fazla metriği test etmek için, metriklerden her biri için ayrı ayrı hesaplama yapın.

Borders of the detected effect: İstatistiksel olarak anlamlı olacak göstergeleri görmeyi sağlar. Daha az kırmızı, daha çok yeşil olmak üzere, bu sınırların dışında bulunan göstergeler anlamlı olur. Aralarındaki değerler karşılaştırma varyantına ait dönüşümden rastgele sapmalar olabilir. Bu fark çok fazlaysa ve daha küçük metrik değişiklikleriyle ilgileniyorsanız, örneğin süreyi veya hedef kitle payını artırarak deney koşullarını değiştirmeyi deneyin.

Deneyi çalıştırma

Önemli

Deney çalıştırıldıktan sonra koşullar, bayraklar veya varyantlar değiştirilemez.

Deneyi çalıştırmak için Save and run. Deneyin özetini okuyun ve Run’a tıklayın.

Deneme başlatıldığında, Flags içlerinden hangilerinin deneye dahil olduğuna dair bilgi görünür. Experiments sekmesine gidip raporun ön sürümüne erişebilirsiniz.

Deney sonuçları raporu

Raporda, karşılaştırma varyantına kıyasla deney varyantında metriklerin istatistiksel olarak anlamlı değişikliklerini görürsünüz.

Rapor nasıl okunur

Raporu görüntülemek için:

  1. Geliştirici konsoluna gidin.
  2. Uygulama seçin.
  3. Aşağıdaki sekmeye gidin Experiments ve deney adının altında View results butonuna tıklayın.

Deneyin kısa açıklamasının altında, kullanılabilen metriklerden herhangi birini ve raporlanacak zaman aralığını seçebilirsiniz. Test edilen tüm varyantlar için seçilen metriğin deney süresi boyunca saptanan değerler grafikte gösterilir.

Grafiğin altındaki tabloda sergilenen rakamsal değerler şunları gösterir:

  • Number of unique players gibi yardımcı metrikler.
  • Ana metrik Grafiğin altındaki menüden seçilebilir.
  • Δ: Metriğin, deney varyantı ile karşılaştırma varyantı değerlerinin arasındaki fark.
  • Δ, %: Metriğin, deney varyantı ile karşılaştırma varyantı değerlerinin arasındaki fark (karşılaştırma varyantı değerinin yüzdesi olarak gösterilir).
  • P-value: İstatistiksel kriterin işleyiş sonucunun temel sayısal değeri. Bu değer hakkında daha fazla bilgi için Rapor ne işe yarar bölümünü okuyun.

Metriğin rengi:

  • Yeşil ise, sonuçlar olumlu ve istatistiksel olarak anlamlıdır;
  • Kırmızı ise, sonuçlar olumsuz ve istatistiksel olarak anlamlıdır.

Rengin, P-value değerine bağlı olarak 3 yoğunluk derecesi vardır. Eşik değerleri: 0,05, 0,01 ve 0,001’dir.

Eğer metrikler hiçbir şekilde renklendirilmemişse, deneyin kullanıcıya etkisi olup olmadığını kesin bir şekilde belirlemek mümkün olmayabilir.

Rapor ne işe yarar

Deneyde test edilen varsayımlar:

  • H0: Metriğin değeri bu varyantta karşılaştırma varyantına kıyasla değişmedi.
  • H1: Metriğin değeri bu varyantta karşılaştırma varyantına kıyasla değişti.

“Bucketization” yöntemlerinin uygulandığı Mann-Whitney U testi, burada istatistiksel kriter olarak kullanılır. Küçük miktardaki veriler için ayrıca ayrıklık düzeltmeleri de uygulanır.

Deney sonuçları P-value kullanılarak değerlendirilir. Bu özellik değeri, metriğin değerinin değişmediği varsayımıyla (örnekte H0 varsayımı) aynı veya daha ekstrem sonuçları elde etme olasılığını belirlemeyi sağlar. Daha fazla bilgi için Vikipedi makalesini okuyun.

H0 varsayımı doğru çıkarsa rapordaki ilgili satır renkle işaretlenmez.

H0 varsayımını kabul etmenin, metriğin değişmeyeceği anlamına gelmediği unutulmamalıdır. Bu durumda emin olunabilecek tek şey, etkinin MDE değerini aşmadığıdır. Daha ufak değişiklikleri görmek için deneyin süresini uzatın veya hedef kullanıcı kitlesini artırın. Yeni değerleri belirlemek için Örnek Hesaplayıcı’yı kullanın.

H1 varsayımı P-value <= 0,05 düzeyinde doğru çıktığında rapordaki ilgili satır renkle işaretlenir.

Varsayım, P-value anlamlılık düzeyiyle karşılaştırılarak (P-value <= alpha) kabul edilir. Varsayılan eşik değeri alpha = 0,05’tir.

alpha değerinin Tip I hataların (“yanlış pozitif” hatalarının) olasılığını belirttiği anlaşılmalıdır. Bu durumda çok düşük alpha değerleri kullanmak, Tip II hataların (“yanlış negatif” hatalarının) olasılığını ve MDE’yi artıracağı için önerilmez.

Deney sonuçlarının kabulü

  1. Geliştirici konsoluna gidin.
  2. Uygulama seçin.
  3. Aşağıdaki sekmeye gidin Experiments ve deney adının altında View results butonuna tıklayın.
  4. Farklı varyantlardaki test metriklerini inceleyin ve test edilen değişikliklerin başarılı olup olmadığına karar verin.

Deneysel varyantı ana varyant olarak kullanmak için Add flags to config öğesine tıklayın. Yeni değerler uygulamanın son sürümünde uygulanacaktır.

Açık ve net bir sonuca varamadıysanız deney koşullarını değiştirmeyi deneyin. Deneyin yeni süresini veya hedef kitle payını belirlemek için Örnek Hesaplayıcı’yı kullanın.

Algılanabilen Minimum Etki (Minimum Detectable Effect).

P-value <= 0,05 olduğunda ilgili metrikteki iyileşmenin test edilen bayrak değişikliklerinden kaynaklanma ihtimali %95 veya daha fazla olur. Daha fazla bilgi için aşağıdaki bölüme bkz Rapor ne işe yarar.

P-value <= 0,05 olduğunda ilgili metrikteki kötüleşmenin test edilen bayrak değişikliklerinden kaynaklanma ihtimali %95 veya daha fazla olur. Daha fazla bilgi için aşağıdaki bölüme bkz Rapor ne işe yarar.