Validation Architecture v1.0

Simüle satın alma
gerçeği ne kadar öngörür?

Bu sorunun cevabı Dopshope'un bir araştırma şirketi mi, yoksa eğlenceli bir uygulama mı olacağını belirliyor. Bu belge o cevabı sistematik olarak bulmak için mimaridır — literatür taraması, sektör modellerinin analizi ve ölçülebilir başarı kriterleriyle.

Versiyon 1.0

Tarih Haziran 2026

Durum Aktif Tasarım

Önkoşul MVP başlamadan önce tamamlanmalı

Problemin Yeniden Tanımı

Üç farklı geçerlilik sorusu,
birbirinin yerine geçemiyor

Şimdiye kadar "simülasyon gerçeği öngörüyor mu?" sorusunu tek bir soru gibi ele aldık. Aslında bu üç ayrı soru — her biri farklı zorlukta, farklı metodoloji gerektiriyor, ve yanlış soruyu doğru şekilde test etmek en tehlikeli sonuç.

"Kullanıcıların ne istediğini bildirdikleri şey ile gerçekte ne yaptıkları arasındaki fark, pazar araştırmasının 60 yıllık temel problemidir. Dopshope bunu çözmüyor — ama karşılaştırmalı bir avantaj konumuna girebilir."

Validation Architecture'ın başlangıç noktası

Katman 1

Kategori Sıralaması

En Kolay

Soru

Sim'deki kategori öncelik sıraması gerçek harcama önceliğiyle örtüşüyor mu?

Ölçüm

Spearman ρ — kategori bazında harcama payları arasındaki sıralama korelasyonu

Neden kolay

Ordinal sıralama, hipotalik biasın en az etkilediği alan. Mutlak WTP ölçmüyoruz.

Katman 2

Fiyat Kademesi

Orta

Soru

Sim'de premium kademedeki ürünleri seçen biri gerçekte de premium segment satın alıyor mu?

Ölçüm

Price tier concordance — sim kademe ile gerçek satın alınan ürünün kademesi ne kadar örtüşüyor?

Neden orta

Bütçe kısıtları gerçek ile sim'i ayırır. Ama yön (premium vs. budget) öngörülebilir.

Katman 3

Reveal Threshold

En Zor / En Değerli

Soru

Hangi gelir seviyesinde bir tercih ilk ortaya çıktı — ve bu gerçek davranışla korelasyon üretiyor mu?

Ölçüm

Threshold-to-spend correlation — eşik seviyesi ile gerçek kategori harcama yoğunluğu arasındaki ilişki

Neden zor

Literatürde bu spesifik ölçüme dair önceden oluşturulmuş benchmark yok. Tamamen yeni bir sinyal.

Kritik tuzak: Katman 1'i test edip "geçti" diyip Katman 3'ü doğrulanmış gibi sunmak, en tehlikeli sahte-pozitif senaryodur. Her katman ayrı hipotez, ayrı test. Katman 1'in geçmesi Katman 3'ün geçeceğini garantilemez.

Literatür Taraması

60 yıllık araştırma
ne söylüyor?

Simüle/stated tercih ile gerçek/revealed tercih arasındaki mesafeyi pazar araştırması literatürü 1960'lardan bu yana inceliyor. Sonuçlar hem umut verici hem uyarıcı.

1.35×

Hipotalik Bias Medyanı

Murphy et al. (2005) 28 çalışmanın meta-analizinde: insanlar WTP'lerini medyan 1.35 kat abartıyor. Popüler mit "3×" — ama medyan çok daha düşük. Asıl sorun ciddi sağ-kuyruk: bazı durumlarda 10×'e kadar çıkıyor.

21%

Ortalama Hipotalik Bias

Tscheulin & Helmig (2019) meta-analizi: tüketici ürünleri için ortalama hipotalik bias %21. Choice-based yöntemler (seçim yapma, anket değil) bu biası önemli ölçüde azaltıyor.

±10%

BASES STM Doğruluk İddiası

Nielsen BASES: 40 yıllık kalibrasyon verisiyle satışlardan ±%10 sapma. Ama bu kalibrasyonlu tahmin — raw STM verisi bu kadar iyi değil.

Burke et al., 1992 Journal of Consumer Research, 19(1), 71-82

"Comparing Dynamic Consumer Choice in Real and Computer-Simulated Environments"

7 aylık gerçek süpermarket alımları ile tek oturumda lab simülasyonu karşılaştırıldı. Sonuç: simüle ortamlar pazar payı ve promosyon hassasiyetini "makul düzeyde" öngörüyor — sistematik biaslar var ama bunlar düzeltilebilir. Sıkıştırılmış simülasyonlar tahmin için geçerli bir zemin sunuyor.

→ Dopshope için: Dijital simüle alışveriş ortamlarının gerçek davranışı öngörebildiğine dair doğrudan literatür desteği. En yakın akademik referans.

Murphy et al., 2005 Environmental & Resource Economics, 30(3), 313-325

"A Meta-analysis of Hypothetical Bias in Stated Preference Valuation"

Önemli bulgu: insanlar WTP'lerini abartıyor ama tutarlı biçimde abartıyor. "Tüketiciler satın alma niyetlerini abartır; ama bunu tutarlılıkla yaparlar." (BASES'in kendi metodoloji açıklaması da bunu vurguluyor.) Tutarlı bias kalibre edilebilir bias demektir.

→ Dopshope için: Doğrulama çalışması "bias yok" çıkmazsa başarısız değil. Sistematik bir bias bulunması, kalibrasyon modelinin kurulabileceği anlamına geliyor. BASES'in 40 yıllık moat'ı tam da bu kalibrasyon veri setinden geliyor.

Silk & Urban, 1978 Management Science, 24(13), 1393-1410

ASSESSOR Modeli — MIT Sloan

Simüle test pazarlarının (STM) akademik temeli. Temel fikir: deneme (trial) ve tekrar (repeat) satın almayı ayrı ayrı modelleyen bir STM, gerçek pazar payını öngörebilir. Assessor modeli hâlâ endüstri standardı. Sınırlama: fiyat esnekliğini zayıf ölçüyor.

→ Dopshope için: Reveal threshold ölçümü Assessor'ın görmezden geldiği şeyi yapıyor — fiyat eşiğindeki davranışsal kırılmayı yakalamak. Bu metodolojik bir boşluk ve fırsat.

Lusk & Schroeder, 2004 American Journal of Agricultural Economics, 86(2)

"Do Fair Prices Bias Experimental Auction Bids?"

Hipotalik seçimler mutlak WTP'yi abartıyor ama marjinal WTP (iki ürün arasındaki fark) istatistiksel olarak anlamlı bias göstermiyor. Yani "bunu mu o kadar mı daha fazla isterim?" sorusu hipotalik olmaktan daha az zarar görüyor.

→ Dopshope için: Bütçe basamakları arasındaki marjinal ekleme sinyali (reveal threshold) mutlak tercih sinyalinden teorik olarak daha sağlıklı. Bu en değerli sinyalin aynı zamanda en az bozulmuş sinyal olduğunu ima ediyor.

Levitt & List, 2007 Science, 316(5829), 1558-1561

"What Do Laboratory Experiments Measuring Social Preferences Reveal About the Real World?"

Lab-to-field geçerliliğini sorgulayan temel makale. Üç problem: (1) scrutiny effect, (2) katılımcı seçim biası, (3) bağlam özgüllüğü. Ama: scrutiny etkisi gözlemlenmediğini düşünen katılımcılarda ortadan kalkıyor.

→ Dopshope için: Kullanıcı "araştırma yapılıyor" değil "alışveriş yapıyorum" hissederse scrutiny etkisi minimize oluyor. Dream Mode tasarımının "görünmez ölçüm" prensibi bu nedenle critical. Fakat seçim biası sorununu tamamen çözmüyor — validation panelinde demografik profili kayıt altına almak şart.

Green & Srinivasan, 1990 Journal of Marketing, 54(4), 3-19

"Conjoint Analysis in Marketing: New Developments"

Choice-based conjoint (seçim odaklı) yöntemler, rating-based (puanlama odaklı) yöntemlere göre gerçek pazar payını daha iyi öngörüyor. Neden: insanlar "ne kadar isterim" sorusuna değil, "bunu mu onu mu" sorusuna daha güvenilir cevap veriyor.

→ Dopshope için: Merdiven mekaniği doğası gereği choice-based — "bu bütçeyle neyi seçiyorum." Bu, anketten veya rating'den metodolojik olarak üstün bir tercih-yakalama mekanizması. B2B pitch'inde vurgulanmalı.

Literatürden Çıkan Net Sonuç

Simüle davranış gerçeği öngörebilir — ama koşullu: (1) ordinal/relative sinyaller cardinal/absolute sinyallerden daha sağlam, (2) choice-based mekanikler survey/rating mekaniklerden üstün, (3) sistematik bias varlığı başarısızlık değil — kalibre edilebilir bias ticari bir varlık. Dopshope'un merdiven mekaniği bu üç koşulun üçünü de doğru tarafta karşılıyor.

Sektör Modelleri

Benzer işler nasıl
doğrulama problemi çözdü?

Dopshope'un validation problemi benzersiz değil. Farklı sektörlerde, farklı biçimlerde aynı soruyu çözen iş modelleri var. Her birinden öğrenilebilecek spesifik bir ders var.

Şirket / Model	Ne Yapıyor	Doğrulama Yöntemi	Dopshope için Ders	Alaka
Nielsen BASES	Konsept gösterimi + satın alma niyeti skalası → lansmanı tahmin	Dönüşüm katsayıları: "definite buy" = %75 gerçek trial, "probably buy" = %25. 40 yılda kalibre.	Kalibrasyon modelinin kendisi moat. Raw data değil, kalibre edilmiş veri satar. Bizim hedefimiz de bu.	● Çok Yüksek
Numerator	Receipt scanning app → CPG satın alma davranışı paneli → B2B intelligence	Panel verisini POS (point-of-sale) data ile kalibre eder. Paneldeki alımlar gerçek raf satışlarıyla örtüşüyor mu?	Consumer değer önerisi (ödüller/rozetler) → behavioral data → B2B intelligence sırasının doğru olduğunu kanıtlıyor. $130M ciro. Bu Dopshope'un B/C/D modelinin proof-of-concept'i.	● Çok Yüksek
Ipsos STM / Designor	Simüle mağaza ortamı → yeni ürün pazar payı tahmini	Tarihsel launch verisiyle backtest. Ürün başarılı mı değil mi doğruluğu ~%75.	Simüle ortamın yeterince gerçekçi hissettirmesi gerekiyor — fiziksel STM'nin dijital eşdeğeri Dopshope. Müşterilerin bunu STM'ye alternatif olarak görmesi gerekiyor.	● Çok Yüksek
SimilarWeb	Web trafiğini direkt ölçmeden proxy sinyallerden tahmin eder	Bilinen sitelerin gerçek trafiğine karşı model kalibrasyonu. "Doğru değil ama tutarlı hata."	Proxy data satılabilir — ama "metodoloji şeffaflığı" şart. Müşteriler proxy olduğunu bilse de satın alıyor, çünkü başka seçenek yok ve sapma sistematik/öngörülebilir.	● Yüksek
Stitch Fix	Kişiselleştirilmiş giysiler gönderir → müşteri tutar/iade eder → revealed preference → algorithm	Her iade/tutma kararı gerçek revealed preference. Stated preference (stil anketi) ile karşılaştırılır.	Challenge Mode'un mantığı bu: gerçek kısıt altında seçim yapmak, revealed preference üretir. Stitch Fix'in fiziksel "satın alıp iade et" mekaniğinin dijital simülasyonu.	● Yüksek
Fetch Rewards	Receipt scanning app → ödül puanı → CPG satın alma verisi → B2B	Receipt veri doğrulaması. Consumer tarafı "ödüller" → Data tarafı CPG analytics.	Türkiye'de mümkün olan en yakın validation data kaynağı. Benzer bir partnership ya da kendi receipt pipeline'ı validation panel'in ground truth kaynağı olabilir.	● Yüksek
Spotify / Netflix	İzleme/dinleme davranışından preference öğrenir → içerik tavsiye eder	Öneri → tıklama → izleme tamamlama oranı. Stated preference (beğeniler) ile karşılaştırma.	Behavioral signal (ne seçtiğin) stated signal'dan (ne sevdiğini söylemen) daha güçlü öngörü yapıyor. Dopshope'un "merdivende ne seçtin" sinyali, "ne alırdın diye düşünüyorsun" anketinden üstün olmanın argümanı.	● Orta

BASES'in moat'ı teknoloji değil. 40 yıllık kalibre edilmiş tahmin verisi. Dopshope'un moat'ı da aynı yerde kurulacak: Türkiye özelinde, kategori özelinde, zaman içinde biriken simülasyon → gerçek satın alma eşleşme veri seti.

Bu nedenle doğrulama çalışması gider değil — yatırım.

Kritik Fark: BASES vs Dopshope

BASES / Geleneksel STM

Mutlak trial tahmini

"Bu ürünü piyasaya sürünce ilk yıl X bin adet satar." Bu cardinal, mutlak bir tahmin — çok zor, çok biaslanmış, 40 yıllık kalibrasyon gerektiriyor. Yanlış çıkınca müşteri "metodoloji hatalı" diyor.

Dopshope — Yapısal Avantaj

Göreceli tercih + eşik tespiti

"Bu segment, bu fiyat aralığında bu tür ürünleri statü sinyali olarak görüyor." Bu ordinal, göreceli bir bilgi — literatürün en az bias'lı bulduğu ölçüm türü. Daha savunulabilir, daha hızlı kalibre edilebilir.

Validation Tasarımı

Protokol, ground truth,
örneklem, metrik

Doğrulama protokolü MVP ile paralel tasarlanmalı — MVP bittikten sonra değil. Çünkü hangi davranışları logladığımız, nasıl logladığımız, hangi kullanıcıların ground truth'a erişilebileceği — bunlar mimariye bağlı kararlar.

Ground Truth Kaynakları — Sıralı Değerlendirme

Yol A — Prospektif Fiş Takibi

Önce sim → sonra gerçek

Kullanıcı sim'i tamamlar. 30 günlük pencerede TÜM online sipariş onayı emaillerini tek adrese yönlendirir. Seçici değil — tam pencere.

Avantaj: Yarın başlanabilir.
Dezavantaj: Gerçek penetrasyon ~%5 — ve o %5 tekno-optimist, yüksek angajman. Bias'lı panel.

Teşvik: premium DNA raporu (bütçe ödülü değil — predictor'ı bozar).

Destek Yolu

Yol B — Risk-Free Pilot (Birincil)

Önce değer ver → sonra veri iste

DTC'ye teklif: "Geçmiş verinizi vermeyin. Piyasaya çıkmamış ürününüzü Dopshope kataloğuna yükleyin, lansman öncesi talep tahminini ücretsiz yapalım. Tahmin tutarsa sonraki ürün için ground truth paylaşımını konuşuruz."

Markanın başlangıç riski sıfır. Güven önce, veri sonra.

İlk pilot için: henüz piyasaya çıkmamış, fiyatı hassas 1 SKU seçilmeli.

Kapı 3'ün Asıl Dayanağı

Yol C — Loyalty / Fiş Ekosistemi

Altın standart — ama geç

Market fişleri, banka harcaması veya sadakat kartı verisi. Numerator modeli.

Avantaj: Tam, doğrulanmış, longitudinal.
Dezavantaj: KVKK ağırlığı, entegrasyon maliyeti, partner bağımlılığı.

Zaman: Panel > 10k ve Kapı 2 geçildikten sonra.

Ölçek Sonrası

MVP için Strateji

Yol B birincil, Yol A destek. Sadece Yol A'ya güvenmek sahte pozitif üretir — bias'lı %5 panel. Sadece Yol B'yi beklemek Kapı 3'ü geciktirir. Risk-Free Pilot yaklaşımıyla Yol B Ay 0'da başlar; Yol A erken sinyal için paralel koşulur. DTC ortaklığı bekleme listesi ile eş zamanlı, en az 3 marka ile ön anlaşma.

Doğrulama Protokolü — Aşamalar

Faz 0

Tasarım, Altyapı ve DTC Ortaklık

MVP ile paralel — Hafta 1-8

Yapılacak

Event schema finalleştir. Threshold operasyonel tanımı yaz (fedakârlık prensibi). Risk-Free Pilot teklifini hazırla. En az 3 DTC markasıyla ön anlaşma — bekleme listesi ile eş zamanlı. Ground truth pipeline (email yönlendirme sistemi) test et.

Kritik Karar

Threshold: aktif yer değiştirme (K1) veya oturum arası yeniden ekleme (K2) sinyali — zaman değil fedakârlık. displacement_event ve readd_event şemaları Faz 0'da tanımlanmalı.

İzlenecek

Displacement oranı (hedef %60-70) ve displacement sonrası churn oranı (hedef <%15). İkisi birlikte izlenir — yalnızca displacement oranı yanıltıcı.

Başarı Kriteri

Tüm event'ler loglanmaya hazır. Risk-Free Pilot teklifi en az 1 markaya sunulmuş. Ground truth pipeline test edilmiş.

Faz 1

Küçük N Pilot

Hafta 8-16 · n=50-100

Hedef

Sadece Katman 1: kategori sıralama korelasyonu. Büyük N gereksiz — sinyal var mı yok mu sorusu, ölçüm hatası değil.

Ground Truth

Seçenek A (prospektif email yönlendirme, 30 günlük pencere). Teşvik: premium DNA raporu. Ödül sim bütçesi değil — bütçe ödülü predictor'ı bozar.

Ölçüm

Spearman ρ — her kullanıcı için sim kategori sıralaması ile gerçek kategori harcama sıralaması arasında. Kişi bazında, sonra ortalama.

Karar Eşiği

ρ ≥ 0.30 (p<0.10): sinyal var, Faz 2'ye geç.
ρ < 0.15: sinyal zayıf, hipotezi revize et.
0.15-0.30: belirsiz, örneklemi büyüt.

Faz 2 ← Kritik

Kapı 3 Testi

Hafta 16-28 · n=300-500

Hedef

Katman 1 + Katman 2. DTC ortak verisiyle temiz ground truth. Backtest: 60 günlük pencerede DTC'nin gerçek satışları ile panel sinyali ne kadar örtüşüyor?

Ground Truth

Seçenek B (DTC ortak). Aynı SKU'lar hem Dopshope kataloğunda hem gerçek mağazada. Kullanıcıların gerçek satın alma kaydı DTC'nin kendi sisteminden geliyor.

Ölçümler

(1) Katman 1: Spearman ρ ≥ 0.40
(2) Katman 2: Price tier concordance ≥ 60%
(3) Reveal threshold: threshold değişkeni gerçek kategori harcamasıyla anlamlı korelasyon üretiyor mu? (β istatistiksel olarak anlamlı)

Kill Kriteri

Tüm üç ölçümde başarısız + sistematik bir bias örüntüsü de yoksa: B2B tez çöker. Consumer app olarak yeniden konumlandır. Bu karar gecikmemeli.

Faz 3

Kalibrasyon

Hafta 28-52 · n=500+

Hedef

Faz 2'de bulunan sistematik bias oranları Türkiye-özelinde kalibre ediliyor. Kategori bazında dönüşüm katsayıları inşa ediliyor — tıpkı BASES gibi.

Sonuç

İlk ücretli B2B sunumunda "kalibre edilmiş tahmin" sunulabilir. Rakiplerin kopyalayamayacağı proprietary kalibrasyon seti oluşmaya başlıyor.

Ürün

Model 1 (araştırma hizmetleri) Faz 3 verisiyle B2B'ye satılmaya hazır. İlk ücretli pilot bu fazda.

DNA Drift Başlangıcı

Faz 3'te aynı kullanıcıların longitudinal verisi toplanmaya başlıyor. İlk 6 aylık drift analizi yapılabilir.

Başarı ve Başarısızlık Kriterleri

Sayısal eşikler,
önceden tanımlanmış

En tehlikeli senaryo: Kapı 3 testinin sonunda "yeterince iyi mi değil mi" sorusu tartışmalı hale geliyor. Bunu önlemek için eşikler şimdi, veri gelmeden önce tanımlanmalı. Sonuç geldikten sonra eşiği ayarlamak validation'ı geçersiz kılar.

Geçer — B2B Tezi Tuttu

Katman 1 Spearman ρ ≥ 0.40 (n≥300, p<0.05)

Katman 2 price tier concordance ≥ 60% en az 2 kategoride

Reveal threshold β istatistiksel olarak anlamlı (p<0.10) en az 1 kategoride

Bias sistematik ve yönlü — kalibre edilebilir

DTC ortak backtest: directional accuracy ≥ 65%

Geçemez — B2B Tezi Çöktü

Katman 1 Spearman ρ < 0.15 (n≥300) ve p değeri anlamlı değil

Katman 2 concordance < 45% tüm kategorilerde

Bias rassal — sistematik değil, kalibre edilemiyor

DTC backtest directional accuracy %50 civarında (coin flip)

Seçim biası o kadar ağır ki panel Türkiye ortalamasına hiç benzemiyor ve bu kalibrasyon imkansız

Belirsiz — Araştırmaya Devam

Katman 1 ρ 0.15-0.35 arası — sinyal var ama zayıf

Bazı kategorilerde güçlü, bazılarında yok

Bias var ama tutarsız yön

N yetersiz — daha büyük örneklem gerekiyor

Başarısızlık Halinde Plan B

Consumer app olarak yeniden konumlandır — eğlence değer önerisi geçerli

B2B: aggregate trend data sat (kişi bazında prediction değil, kitle bazında)

Araştırma metodolojisini revize et — hangi kategorilerde daha iyi çalışıyor?

Longitudinal Identity Graph değeri B2B prediction'dan bağımsız var olmaya devam eder

Ambiguous scenario tuzağı: "Belirsiz — araştırmaya devam" kararı, aslında en tehlikeli karar. Kaynak tüketilir, momentum kaybolur, pivot gecikmesi şirketi öldürür. Ambiguous eşikte kalma süresi maksimum 60 gün ve ek örneklem büyüklüğü somutlaştırılmış olmalı. "Biraz daha bakalım" bir strateji değil.

Longitudinal Identity Graph & Moat

Gerçek hendek nerede
ve nasıl inşa edilir?

GPT'nin değerlendirmesindeki en değerli katkı bu. Şimdiye kadar moat'ı "veri seti" olarak konumlandırdık. Ama veri seti kopyalanabilir. Moat'ın gerçek doğası başka bir yerde.

Kopyalanabilir Moat

Clickstream verisi

"Kullanıcıların ne eklediği/çıkardığı" verisi. Rakip benzer bir platform kurabilir ve aynı veriyi üretebilir. Ölçek avantajı var ama defensible değil.

Savunulabilir Moat — Kısa Vade

Kalibre edilmiş tahmin seti

Türkiye-özelinde, kategori-özelinde, simülasyon → gerçek satın alma kalibrasyon faktörleri. BASES'in 40 yıllık moat'ının başlangıcı. Her geçen ay daha güçlü — kopyalamak için aynı zaman gerekiyor.

Savunulabilir Moat — Uzun Vade

Longitudinal Identity Graph

Aynı kişinin yıllarca nasıl değiştiği. Evlenince, çocuk olunca, gelir artınca, kriz yaşayınca. Bu veri seti başka hiçbir yerde yok — ve biriktirmek için zaman şart.

Longitudinal Identity Graph — Neden Başka Hiçbir Yerde Yok?

Nielsen paneli neyin satıldığını izliyor. Trendyol geçmiş siparişleri biliyor. Ama ikisi de şunu bilmiyor: bir insanın aspirasyonel kimliği zaman içinde nasıl değişiyor? Hangi life event hangi tüketim kaymalarını tetikliyor? Gelir artışı ne zaman statü alışverişi, ne zaman güvenlik alışverişi üretiyor?

Bu soruların cevabı Dopshope'ta toplanabiliyor çünkü platform aspirasyonları ölçüyor — gerçekleşmiş satın almaları değil. Gerçekleşen satın alma, kısıt altında filtrelenmiş arzu. Aspirasyon, kısıt olmaksızın kim olunmak istendiği.

Ay 0-6

Temel Arketip + İlk Sinyal

Kullanıcının Senaryo 1 baseline'ı. Kalibre edilmemiş ama var. Longitudinal grafiğin başlangıç noktası.

Ay 6-12

İlk Drift Ölçümü

Aynı kullanıcı 6 ay sonra tekrar oynuyor. Arketip değişti mi? Hangi basamakta? "DNA'n değişti mi?" notification mekanik burada devreye giriyor.

Ay 12-24

Life Event Korelasyonu

Yeterli N ile: "evlenen kullanıcılarda ortalama X ay içinde Kurucu arketipine kayma var" gibi hipotezler test edilebilir. Markalara satılabilecek en değerli sinyal.

Ay 24+

Türkiye Tüketici Kimliği Haritası

"Türkiye'de orta gelir grubunda gelir artışının ilk yıldaki kategori kaymalarının haritası." Bu veri seti dünyada başka hiçbir yerde yok. Uluslararası araştırma şirketleri için lisanslanabilir.

BASES'in moat'ı çok açık söylenemiyor: yeni rakip 40 yıl boyunca doğru tahminler yapmadan aynı kalibrasyon setini üretemez. Dopshope'un Longitudinal Identity Graph'ı da aynı mekanizmayı taşıyor — ama çok daha büyük bir piyasaya hitap eden bir soru için.

Eğer Kapı 3 geçilirse buradaki asıl değer bir SaaS subscription değil — bir veri lisans şirketi.

Ek — Operasyonel Tanımlar

Sayısal tanımlar
şimdi kalibre edilmeli

Reveal Threshold — Operasyonel Tanım

Minimum spec

Kullanıcı bütçe basamağı B'de, C kategorisinde, P fiyat seviyesinin üzerinde bir ürün ekler ve o ürün en az T saniye sepette kalırsa — threshold basamak B'de gerçekleşti sayılır.

MVP için başlangıç: T = 30 saniye, P = kategori medyanının 1.5×. Faz 2 verisiyle kalibre edilecek.

Edge case: Kullanıcı aynı ürünü ekledi-çıkardı-yeniden ekledi → son ekleme zaman damgasına göre değerlendirilir, toplam süre hesaplanır.

Arketip Confidence Score — Minimum Spec

Belirsiz kullanıcı işlemi

Her kullanıcı için 5 arketipe 0-1 skor vektörü hesaplanır. Baskın arketip skoru ≥ 0.55 ise etiket atanır. Altında kalıyorsa kullanıcı "Hibrit / Belirsiz" olarak işaretlenir.

Belirsiz kullanıcılar: Reveal kartında "Profil Gelişiyor" gösterimi. Daha fazla senaryo tamamlandıkça skor güçlenir.

Test-retest stabilite hedefi: 30 gün sonra aynı kullanıcı tekrar oynayınca arketip değişmeme oranı ≥ %70 (Senaryo 1 vs Senaryo 1).

Ground Truth Penceresi

Prospektif, eksiksiz, önyargısız

Kullanıcı sim'i tamamladıktan sonraki 30 gün izleme penceresi (retrospektif değil). Bu 30 günde tüm online siparişler — seçici değil. Mail yönlendirme tam pencereyi yakalar; fotoğraf/screenshot seçici olma riski taşıdığı için sadece Faz 1'de kabul edilir.

Offline alışveriş: Şimdilik kapsam dışı. E-ticaret kategorileriyle sınırlı — Trendyol, Hepsiburada, Amazon.

Örneklem Büyüklüğü Hesabı

Faz 1 ve 2 için minimum N

Spearman ρ = 0.35 saptamak için güç analizi (α=0.05, güç=0.80): minimum n = 62. Faz 1 hedefi n=75-100 (dropoff toleransı için).

Faz 2: Kategori bazında alt-grup analizi için minimum n = 300. Hedef n=400-500.

Önemli: Gönüllüler sadece en angaje kullanıcılar. Seçim biası kaydedilmeli: validation panelinin demografik profili ile genel platform kitlesinin profili karşılaştırılmalı.

Simüle satın almagerçeği ne kadar öngörür?

Üç farklı geçerlilik sorusu,birbirinin yerine geçemiyor

60 yıllık araştırmane söylüyor?

Benzer işler nasıldoğrulama problemi çözdü?

Kritik Fark: BASES vs Dopshope

Protokol, ground truth,örneklem, metrik

Ground Truth Kaynakları — Sıralı Değerlendirme

Doğrulama Protokolü — Aşamalar

Sayısal eşikler,önceden tanımlanmış

Gerçek hendek neredeve nasıl inşa edilir?

Longitudinal Identity Graph — Neden Başka Hiçbir Yerde Yok?

Sayısal tanımlarşimdi kalibre edilmeli

Simüle satın alma
gerçeği ne kadar öngörür?

Üç farklı geçerlilik sorusu,
birbirinin yerine geçemiyor

60 yıllık araştırma
ne söylüyor?

Benzer işler nasıl
doğrulama problemi çözdü?

Protokol, ground truth,
örneklem, metrik

Sayısal eşikler,
önceden tanımlanmış

Gerçek hendek nerede
ve nasıl inşa edilir?

Sayısal tanımlar
şimdi kalibre edilmeli