Veri bilimi, yalnızca algoritmaların değil kavramların da disiplinidir. Aynı veriye bakan iki kişinin bambaşka sonuçlara varmasının nedeni çoğu zaman “model seçimi” değil; terimleri aynı anlamda kullanmamak, metrikleri yanlış yorumlamak ya da süreç adımlarını birbirine karıştırmaktır.
Veri Bilimi ve Veri Analitiği Terimleri Sözlüğü, veri bilimi ve veri analitiği pratiğinde en sık karşılaşılan kavramları kısa ama kavramsal olarak doğru, gerektiğinde de “ne değildir?” ayrımını yaparak açıklar. Her maddede amaç, tanımı ezberletmek değil; terimi iş akışında nereye koyacağınızı netleştirmektir.
A
A/B Testi
İki (veya daha fazla) varyantın (A: kontrol, B: deney) kullanıcıya rastgele gösterilerek hedef metrikte (dönüşüm, gelir, elde tutma vb.) anlamlı fark olup olmadığının ölçüldüğü deney tasarımıdır. Yanlış pozitifleri azaltmak için örneklem büyüklüğü, durdurma kuralı ve çoklu karşılaştırma etkisi mutlaka ele alınmalıdır.
A/A Testi
A/B testi öncesi “sistem kontrolü” gibi düşünülebilir: Aynı deney koşullarında iki grubun gerçekte aynı olması beklenir. A/A testinde anlamlı fark çıkıyorsa ölçüm altyapısında, randomizasyonda veya veri akışında problem olma olasılığı yüksektir.
Accuracy (Doğruluk Oranı)
Sınıflandırmada doğru tahminlerin tüm tahminlere oranıdır. Dengesiz sınıflarda (ör. %95 “negatif”) yanıltıcı olabilir; bu yüzden tek başına kullanılmamalı, precision/recall, F1 ve ROC-AUC gibi metriklerle birlikte değerlendirilmelidir.
Action Space (Aksiyon Uzayı)
Pekiştirmeli öğrenmede (RL) ajanın seçebileceği eylemlerin kümesidir. Aksiyon uzayı ayrık (ör. sağ/sol) veya sürekli (ör. hız, açı) olabilir; model ve algoritma seçimini doğrudan etkiler.
Active Learning (Aktif Öğrenme)
Etiketleme maliyetinin yüksek olduğu problemlerde modelin “en çok bilgi kazandıracak” örnekleri seçerek insan/uzman etiketlemesine sunması yaklaşımıdır. Amaç, daha az etiketle daha iyi performans elde etmektir; örnek seçim stratejisi (belirsizlik örneklemesi, çeşitlilik vb.) kritik rol oynar.
Activation Function (Aktivasyon Fonksiyonu)
Sinir ağlarında nöronun çıktısını doğrusal olmayan hale getiren fonksiyondur (ReLU, sigmoid, tanh vb.). Aktivasyon, ağın karmaşık örüntüleri öğrenmesini sağlar; yanlış seçim gradyan sönmesi/taşması gibi eğitim sorunlarını büyütebilir.
AdaBoost
Zayıf öğrenicileri (genellikle küçük karar ağaçları) ardışık biçimde eğitip zor örneklere daha fazla ağırlık vererek güçlü bir model oluşturan boosting yöntemidir. Gürültülü etiketlere hassas olabilir; outlier’lar performansı bozabilir.
Adam (Optimizer)
Derin öğrenmede yaygın bir optimizasyon algoritmasıdır; momentum ve adaptif öğrenme oranını birleştirir. Pratikte hızlı yakınsar; ancak bazı durumlarda genelleme performansı için öğrenme oranı planı (scheduler) ve ağırlık çürümesi (weight decay) ayarları önemlidir.
Adagrad
Her parametre için geçmiş gradyanların kareleriyle ölçeklenen adaptif öğrenme oranı kullanan optimizasyondur. Seyrek özellikli problemlerde faydalı olabilir; ancak öğrenme oranı zamanla fazla düşüp eğitimi “kilitleyebilir”.
Adversarial Example (Düşmanca Örnek)
Modele çok küçük ama hedefli bir gürültü eklenerek tahminin yanlış yöne itilmesiyle oluşan girdidir. Özellikle görüntü sınıflandırmada bilinir; güvenlik kritik sistemlerde sağlamlık (robustness) testlerinin parçasıdır.
Algorithmic Bias (Algoritmik Önyargı)
Modelin, eğitim verisindeki tarihsel/örnekleme kaynaklı eşitsizlikleri öğrenip belirli grupları sistematik biçimde dezavantajlı hale getirmesidir. Çözüm; sadece “daha çok veri” değil, veri temsiliyeti, adalet metrikleri, model denetimi ve süreç yönetişimidir.
Alias (Takma Ad / Değişken Eşlemesi)
Veri analitiğinde aynı nesneye farklı adlarla referans verme durumudur (özellikle SQL ve feature engineering’de). Görünüşte masumdur ama büyük projelerde veri sözlüğü (data dictionary) olmadan “aynı şey mi?” karmaşası üretir.
Aggregation (Agregasyon / Toplulaştırma)
Ham veriyi daha üst düzey birimlere indirgemedir (günlük kullanıcı başına ortalama gelir gibi). Agregasyon, gürültüyü azaltır ama yanlış seviyede yapılırsa Simpson paradoksu gibi yanılsamalar yaratabilir.
Airflow (Orkestrasyon Mantığı)
Teknik olarak bir ürün adı olsa da veri ekosisteminde “iş akışı orkestrasyonu” kavramıyla anılır: ETL/ELT adımlarının bağımlılıklarıyla planlanması, izlenmesi ve yeniden çalıştırılabilir hale getirilmesidir. Kavram, veri boru hattı (pipeline) güvenilirliğinin temelidir.
Anomaly Detection (Anomali Tespiti)
Beklenen davranıştan sapmaları bulma problemidir (dolandırıcılık, arıza, saldırı, sensör bozukluğu). “Anomali” çoğu zaman bağlama bağlıdır; iyi tanımlanmış bir “normal” referansı yoksa yanlış alarm oranı yükselir.
ANOVA (Varyans Analizi)
Gruplar arasında ortalama farkı olup olmadığını test eden istatistiksel yöntemdir. Deney tasarımında sık kullanılır; varsayımlar (normallik, varyans homojenliği) ihlal edildiğinde sonuçlar yanıltıcı olabilir.
ARIMA
Zaman serisi modelleme yaklaşımıdır: Otoregresyon (AR), fark alma (I) ve hareketli ortalama (MA) bileşenlerini birleştirir. Mevsimsellik güçlü ise SARIMA gibi uzantılar düşünülür; durağanlık varsayımı önemli bir ön koşuldur.
Association Rule Mining (Birliktelik Kuralı Madenciliği)
“Birlikte görülen” öğelerden kurallar çıkarır (market sepeti analizi). Support, confidence ve lift gibi ölçülerle değerlendirilir; yüksek confidence her zaman “ilginç kural” demek değildir, lift ile bağlam güçlendirilmelidir.
Apriori Algoritması
Birliktelik kuralları madenciliğinde sık kullanılan, sık öğe kümelerini kademeli biçimde büyüterek arayan algoritmadır. Veri çok büyükse maliyet artabilir; FP-Growth gibi alternatifler düşünülür.
AUC (Area Under the Curve)
Genelde ROC eğrisinin altındaki alanı ifade eder ve ikili sınıflandırma ayrıştırma gücünü özetler. Ancak sınıf dengesizliği yüksekse PR-AUC (Precision–Recall AUC) daha anlamlı olabilir.
AUROC (ROC-AUC)
Gerçek pozitif oranı (TPR) ile yanlış pozitif oranı (FPR) arasındaki değişimi özetleyen ROC eğrisi altında kalan alandır. Modelin eşik bağımsız ayrıştırma performansını gösterir; “olasılık kalibrasyonu” ile karıştırılmamalıdır.
Average Precision (Ortalama Kesinlik)
Precision–Recall eğrisi üzerinden hesaplanan özet ölçüdür; özellikle dengesiz sınıflarda ve bilgi erişimi benzeri problemlerde tercih edilir. PR-AUC ile yakın akrabadır; metrik tanımı kullanılan hesaplama yöntemine göre değişebilir, kıyaslamada tutarlılık şarttır.
Aşırı Uyum (Overfitting)
Modelin eğitim verisini “ezberleyip” yeni veride performans kaybetmesidir. Genelde model kapasitesi yüksek, veri az veya gürültülü olduğunda artar; çözüm düzenlileştirme, daha iyi doğrulama şeması, veri artırma ve erken durdurmadır (early stopping).
Aşırı Basitleştirme (Underfitting)
Modelin verideki gerçek yapıyı yakalayamayacak kadar basit kalmasıdır. Hem eğitimde hem testte kötü performans görülür; çözüm daha zengin özellikler, daha güçlü model ailesi veya daha iyi optimizasyon olabilir.
Attribution (Katkı Payı / Özellik Atfı)
Bir tahminde hangi özelliklerin ne kadar etkili olduğunu açıklamaya çalışan yaklaşımların genel adıdır (SHAP, permutation importance vb.). “Nedensellik” iddiası taşımaz; çoğu yöntem korelasyon tabanlı açıklanabilirlik sunar.
Ayrıklaştırma (Discretization / Binning)
Sürekli değişkenleri aralıklara bölerek kategorik hale getirme işlemidir (yaş → 18–24, 25–34 gibi). Yorumlanabilirliği artırabilir; fakat bilgi kaybı ve sınır etkileri yaratabileceği için dikkatli kullanılmalıdır.
Augmentation (Veri Artırma)
Eğitim verisini dönüştürerek çeşitlendirme tekniğidir (görüntüde döndürme/kırpma; metinde paraphrase; tabularda gürültü). Amaç genelleme gücünü artırmaktır; gerçek dünya dağılımını bozacak dönüşümler ters etki yapabilir.
AutoML
Model seçimi, hiperparametre araması ve bazen özellik mühendisliğini otomatikleştiren araç ve yaklaşımlardır. Zaman kazandırır; fakat veri sızıntısı (leakage), yanlış doğrulama kurgusu veya amaç fonksiyonunun eksik tanımı hatalı “yüksek skor” illüzyonu üretebilir.
Autoregressive Model (Otoregresif Model)
Bir değişkenin mevcut değerini geçmiş değerleriyle açıkladığı model ailesidir. Zaman serilerinde temel bir yapı taşıdır; gecikme (lag) seçimi ve durağanlık gibi konular performansı belirler.
B
Backfilling (Geri Doldurma)
Veri boru hattında (pipeline) bir gecikme, düzeltme veya yeni kural nedeniyle geçmiş dönem verilerinin yeniden üretilip sisteme yazılmasıdır. Backfilling yapılırken sürümleme (versioning), idempotency ve “hangi tarihe kadar düzeltildi?” kaydı tutulmazsa raporlar arasında tutarsızlık oluşur.
Backpropagation (Geriye Yayılım)
Sinir ağlarında hata sinyalinin katmanlar boyunca geriye doğru taşınarak ağırlıkların gradyanla güncellenmesini sağlayan öğrenme mekanizmasıdır. Uygulamada “öğrenme oranı”, aktivasyon seçimi ve gradyan patlaması/sönmesi problemleri eğitimin kaderini belirler.
Backtesting (Geriye Dönük Test)
Finansal strateji veya zaman serisi tahmin yaklaşımının geçmiş veride denenerek performansının ölçülmesidir. En sık hata: geleceğe ait bilgiyi fark etmeden kullanmak (look-ahead bias) ve işlem maliyetlerini/likiditeyi yok saymaktır.
Bagging (Bootstrap Aggregation)
Aynı modelin farklı bootstrap örneklemler üzerinde eğitilip sonuçların birleştirilmesiyle varyansı düşürmeyi amaçlayan topluluk (ensemble) yaklaşımıdır. Özellikle karar ağaçlarıyla etkilidir; Random Forest bu fikrin yaygın bir türevidir.
Balanced Accuracy (Dengelenmiş Doğruluk)
Sınıflar dengesizken accuracy’nin yanıltıcılığını azaltmak için her sınıfın doğruluğunu ayrı hesaplayıp ortalamasını alan metriktir. Örneğin nadir olay tespitinde (fraud) tek başına accuracy yerine daha anlamlı bir özet sunar.
Balanced Class Weights (Dengeli Sınıf Ağırlıkları)
Modelin kayıp fonksiyonunda az görülen sınıfların hatasını daha maliyetli hale getirerek öğrenmeyi dengeler. Oversampling/undersampling yerine “kayıp düzeyinde” müdahaledir; aşırı ağırlıklandırma, yanlış pozitifleri patlatabilir.
Baseline Model (Baz Model)
“İyileştirme” iddiasının anlamlı olabilmesi için en basit, en açıklanabilir kıyas modelidir (ör. lojistik regresyon, naive predictor). Baseline zayıf kurulursa sonraki modellerin başarısı sahte bir ilerleme gibi görünebilir.
Batch (Yığın / Parti)
Model eğitiminde veya çıkarımda verinin parça parça işlenmesini ifade eder. Batch yaklaşımı hesaplamayı verimli kılar; ancak yanlış batch kurgusu veri sırasına bağımlılık veya dağılım kaymasına karşı körlük yaratabilir.
Batch Gradient Descent (Toplu Gradyan İnişi)
Her adımda tüm eğitim verisinin gradyanını hesaplayarak parametreleri günceller. Kararlı ama pahalıdır; büyük veri senaryolarında mini-batch veya stochastic yöntemler pratikte daha yaygındır.
Batch Inference (Toplu Çıkarım)
Modelin tahmin üretimini gerçek zamanlı değil, periyodik paketler halinde yapmasıdır (gece çalışıp sabaha skor üretmek gibi). Düşük maliyet ve operasyonel basitlik sağlar; fakat gecikmeye tolerans yoksa uygun değildir.
Batch Normalization
Derin ağlarda katman girişlerini normalize ederek eğitimi hızlandıran ve stabil hale getiren tekniktir. Her zaman “mucize” değildir; küçük batch boyutlarında performans düşebilir, bu durumda LayerNorm gibi alternatifler düşünülür.
Batch Size (Batch Boyutu)
Bir eğitim adımında kullanılan örnek sayısıdır. Büyük batch daha stabil gradyan üretir ama genelleme bazen zayıflar; küçük batch gürültülüdür ama kaçış (escape) sağlayabilir. Donanım belleği ile doğrudan ilişkilidir.
Bayesian A/B Testing (Bayesyen A/B Testi)
A/B testinde sonucu p-değeri yerine “A’nın B’den daha iyi olma olasılığı” gibi posterior olasılıklarla ifade eder. Karar dili daha sezgiseldir; ancak öncül (prior) seçimi ve durdurma kuralı şeffaflaştırılmalıdır.
Bayesian Hierarchical Model (Bayesyen Hiyerarşik Model)
Gruplar arası farklılıkları (şehirler, mağazalar, kullanıcı segmentleri) ortak bir üst düzey dağılımla bağlayarak “kısmi havuzlama” yapan model ailesidir. Veri az olan gruplarda abartılı tahminleri frenler; pratikte segment analitiğinde çok değerlidir.
Bayesian Inference (Bayesyen Çıkarım)
Gözlemler geldikçe inancı (prior) güncelleyip posterior dağılıma ulaşan çıkarım yaklaşımıdır. Nokta tahmini yerine belirsizliği dağılım olarak taşır; karar süreçlerinde risk yönetimi açısından güçlüdür.
Bayesian Network (Bayesyen Ağ)
Değişkenler arası koşullu bağımlılıkları yönlü asiklik grafikle (DAG) temsil eden olasılıksal modeldir. Nedensellik ile karıştırılmamalıdır: Grafik yapısı nedensel varsayım içeriyorsa nedensel yorum yapılabilir, yoksa yalnızca bağımlılık yapısıdır.
Bayesian Optimization (Bayesyen Optimizasyon)
Pahalı hedef fonksiyonları (model hiperparametreleri gibi) az sayıda deneme ile optimize etmeyi amaçlar. Keşif–sömürü dengesi kurar; dar bütçeyle iyi ayar bulmada grid/random search’e göre avantajlı olabilir.
Bayesian Regression (Bayesyen Regresyon)
Regresyon katsayılarını sabit değerler değil, dağılımlar olarak ele alır. Küçük veri ve yüksek belirsizlik durumlarında daha dürüst (uncertainty-aware) tahmin sunar; ayrıca düzenlileştirme “prior” üzerinden doğal biçimde yapılır.
Bayes Factor (Bayes Faktörü)
İki hipotezin veriyi açıklama gücünü oranlayarak karşılaştıran Bayesyen kanıt ölçüsüdür. “p<0.05” gibi eşikçi dilden farklı bir kanıt çerçevesi sağlar; yorum eşikleri (anecdotal/strong evidence) alan literatürüne bağlıdır.
Bayes Teoremi (Bayes’ Theorem)
Koşullu olasılıkları ters yönde hesaplamayı sağlar: “B olduysa A olasılığı nedir?” gibi. Veri biliminde sınıflandırma (Naive Bayes), teşhis ve risk tahmini gibi alanlarda temel yapı taşıdır.
BERT
Metin temsillerini bağlama duyarlı biçimde öğrenen transformer tabanlı dil modeli ailesidir. Veri analitiğinde; metin sınıflandırma, bilgi çıkarımı ve gömleme (embedding) üretimi için yaygın bir başlangıç noktasıdır.
Beta Distribution (Beta Dağılımı)
0 ile 1 arasındaki olasılıkları modellemek için kullanılan esnek dağılımdır. Dönüşüm oranı gibi metriklerin Bayesyen güncellenmesinde (özellikle A/B testlerinde) doğal bir seçimdir.
Bias (Önyargı / Sapma)
(1) İstatistiksel anlamda: Tahmin edicinin beklenen değerden sistematik sapması. (2) Makine öğrenmesinde daha geniş anlamda: Modelin belirli gruplara karşı sistematik hatası veya verinin temsil sorunları. Hangi anlamda kullanıldığı açık yazılmalıdır.
Bias Correction (Sapma Düzeltimi)
Ölçüm hatası, örnekleme yanlılığı veya modelleme kaynaklı sistematik sapmayı azaltmak için yapılan düzeltme adımlarıdır. Örneğin anket verisinde ağırlıklandırma veya zaman serisinde sensör drift düzeltimi bu kapsama girer.
Bias–Variance Tradeoff (Sapma–Varyans Dengesi)
Basit modeller düşük varyans ama yüksek sapma; karmaşık modeller düşük sapma ama yüksek varyans eğilimindedir. Pratik amaç “en düşük test hatası”dır; bunun yolu çoğu zaman doğru düzenlileştirme ve iyi doğrulama şemasıdır.
BIC (Bayesian Information Criterion)
Model seçimi için kullanılan bilgi kriteridir; uyumu ödüllendirirken parametre sayısını cezalandırır. AIC’ye göre karmaşıklığı daha sert cezalar; büyük örneklemlerde “aşırı karmaşık” modeli elemede etkilidir.
Big Data (Büyük Veri)
Sadece “çok veri” değil; hacim (volume), hız (velocity), çeşitlilik (variety) ve güvenilirlik (veracity) gibi boyutlarda klasik yöntemleri zorlayan veri problemlerinin şemsiyesidir. Çözüm çoğu zaman yalnızca teknoloji değil, veri yönetişimi ve süreç tasarımıdır.
Binarization (İkili Dönüşüm)
Sürekli veya çok sınıflı bir değişkeni iki duruma indirgeme işlemidir (ör. “yüksek risk / düşük risk”). Yorumlamayı kolaylaştırır; fakat bilgi kaybı yaratır ve eşik seçimi politik/operasyonel sonuçlar doğurabilir.
Binary Classification (İkili Sınıflandırma)
Çıktısı iki sınıftan biri olan sınıflandırma problemidir (fraud/not fraud, churn/not churn). Metriğin seçimi (ROC-AUC vs PR-AUC) sınıf dengesine ve iş maliyetlerine göre yapılmalıdır.
Binary Cross-Entropy (İkili Çapraz Entropi)
İkili sınıflandırmada olasılık tahminini cezalandıran kayıp fonksiyonudur. Modelin “doğru sınıfı yüksek olasılıkla” vermesini teşvik eder; ancak olasılık kalibrasyonu ayrıca kontrol edilmelidir.
Binomial Distribution (Binom Dağılımı)
Sabit sayıda bağımsız denemede başarı sayısını modelleyen dağılımdır. Dönüşüm sayıları, tıklama başarıları gibi analitik problemlerde temel bir istatistiksel yapı taşıdır.
Binning (Kovalamaya Bölme / Dilimleme)
Sürekli değişkeni aralıklara ayırma işlemidir. EDA’da (keşifsel analiz) trendleri netleştirebilir; fakat modelleme tarafında gereksiz binning sinyali zayıflatabilir, özellikle ağaç tabanlı modellerde çoğu zaman gerekmez.
Bloom Filter
Bir öğenin bir kümede “muhtemelen var” veya “kesin yok” diye hızlı kontrolünü yapan olasılıksal veri yapısıdır. Yanlış pozitif üretebilir; veri mühendisliğinde büyük ölçekli eşleşme/filtrelemede performans için kullanılır.
Bonferroni Correction (Bonferroni Düzeltmesi)
Çoklu hipotez testlerinde yanlış pozitif (Type I error) birikimini kontrol etmek için p-değeri eşiğini sıkılaştırır. Basittir ama aşırı konservatif olabilir; test sayısı çoksa gücü (power) düşürür.
Bootstrap (Özyinelemeli Örnekleme)
Veriden tekrar seçerek (replacement ile) birçok sahte örneklem üretip belirsizlik (güven aralığı) tahmin etmeye yarayan yöntemdir. Kapalı formülün zor olduğu metriklerde pratik bir çözümdür.
Bootstrap Aggregation (Bagging)
Bootstrap örneklemler üzerinde birden fazla model eğitip tahminleri birleştirme yaklaşımıdır. Amaç; özellikle yüksek varyanslı modellerde (karar ağacı gibi) genelleme performansını artırmaktır.
Boundary (Karar Sınırı)
Sınıflandırmada sınıfları ayıran yüzey/çizgidir. Yüksek boyutta karar sınırı çoğu zaman sezgisel değildir; bu yüzden modelin “neden böyle ayırdığını” açıklamak için açıklanabilirlik yöntemleri gerekir.
Box Plot (Kutu Grafiği)
Dağılımı medyan, çeyrekler arası aralık (IQR) ve aykırı değerlerle özetleyen görselleştirmedir. Hızlı EDA için idealdir; ancak çok modlu dağılımlarda detay kaybı yaratabilir.
Box-Cox Transformation (Box–Cox Dönüşümü)
Pozitif değerli verilerde varyansı stabilize etmek ve dağılımı normale yaklaştırmak için kullanılan parametrik dönüşümdür. Lineer regresyon gibi varsayım hassas modellerde faydalı olabilir; sıfır/negatif değerlerde uygulanamaz.
Breakpoint / Change Point (Kırılma Noktası)
Zaman serisinde istatistiksel özelliklerin (ortalama, varyans, trend) değiştiği noktadır. Ürün büyümesi, fiyat politikası, sistem arızası gibi olayların etkisini yakalamada kritik ipucu sağlar.
Bucketization (Kovalama / Kutuplama)
Binning’in analitik/ürün metrikleri bağlamındaki kullanımına sık verilen addır (ör. kullanıcıları “0–1, 2–5, 6–10 işlem” kovalarına ayırmak). Segment raporlamayı kolaylaştırır; ama yanlış kova sınırları yanlış iş kararlarına yol açabilir.
Business Intelligence (BI) (İş Zekası)
Kurumsal karar süreçlerini desteklemek için veri toplama, modelleme, raporlama ve görselleştirme pratiklerinin bütünüdür. Veri bilimine göre daha “operasyonel raporlama” ağırlıklıdır; ancak modern BI, semantik katman ve ölçüm yönetimiyle stratejik hale gelebilir.
Business Metric (İş Metriği)
Teknik metriklerden (latency, accuracy) farklı olarak doğrudan iş sonucunu temsil eden ölçüdür (gelir, dönüşüm, elde tutma). Model performansı iyi olsa bile iş metriği kötüleşiyorsa problem genellikle ölçüm tanımı, hedef fonksiyonu veya dağıtım (deployment) yan etkilerindedir.
Business Rule (İş Kuralı)
Modelin yanında veya yerine çalışan deterministik karar kurallarıdır (ör. “limit > X ise manuel inceleme”). Veri ürünlerinde hibrit yaklaşım yaygındır: kurallar istikrar sağlar, modeller esneklik kazandırır; çakışma yönetimi şarttır.
C
CAGR (Bileşik Yıllık Büyüme Oranı)
Bir metriğin (gelir, kullanıcı sayısı, sipariş vb.) belirli bir dönem boyunca “eşit hızla büyümüş gibi” varsayılarak yıllık ortalama büyüme oranını verir. Trend kıyaslaması için pratiktir; ancak ara dönem dalgalanmalarını gizler.
Calibration (Kalibrasyon)
Sınıflandırma modelinin ürettiği olasılıkların gerçeği ne kadar iyi temsil ettiğini ifade eder. “%80 olasılık” dediğinde, benzer örneklerin gerçekten yaklaşık %80’inin pozitif çıkması beklenir; yüksek ROC-AUC, iyi kalibrasyon garantisi değildir.
Calibration Curve (Kalibrasyon Eğrisi / Reliability Diagram)
Tahmin olasılıklarını aralıklara bölüp (binning) her aralıkta gerçekleşen pozitif oranı çizerek olasılıkların güvenilirliğini görselleştirir. Eğri diyagonale yakınsa kalibrasyon iyidir; sapma varsa Platt scaling veya isotonic regression gibi düzeltmeler düşünülebilir.
Call Center Analytics (Çağrı Merkezi Analitiği)
Çağrı kayıtları, konuşma metinleri, bekleme süreleri ve çözüm oranları üzerinden operasyon performansı ve müşteri memnuniyeti çıkarımı yapma alanıdır. Metin analizi ve zaman serisi yaklaşımı genellikle birlikte kullanılır.
CAN (Cancellation / İptal Oranı)
Abonelik veya sipariş odaklı işlerde iptal davranışını ölçen metrik ailesidir. “Churn” ile akrabadır; fakat iptal, churn’ün bir tür nedenidir—tanım net değilse ekipler farklı şeyleri “aynı metrik” sanabilir.
Candidate Feature (Aday Özellik)
Modelleme için potansiyel olarak kullanılabilecek ham veya türetilmiş değişkendir. Aday özellik havuzu geniş tutulur; seçimi ise doğrulama, iş mantığı ve sızıntı (leakage) kontrolü belirler.
Canonicalization (Kanonikleştirme)
Aynı anlama gelen farklı biçimleri tek bir “standart” forma indirme işlemidir (ülke adları, ürün kodları, tarih formatları, büyük-küçük harf, Unicode). Veri kalitesini ve join başarısını dramatik artırır.
CAP Theorem (CAP Teoremi)
Dağıtık sistemlerde tutarlılık (Consistency), erişilebilirlik (Availability) ve bölünme toleransı (Partition tolerance) üçlüsünden aynı anda en fazla ikisinin “tam” sağlanabileceği fikridir. Veri ürünlerinde olay akışları, replikasyon ve gecikmeli tutarlılık kararlarını etkiler.
Cardinality (Kardinalite)
Bir kategorik değişkenin benzersiz değer sayısıdır (ör. 10 şehir vs 50.000 ürün). Yüksek kardinalite, one-hot encoding’i şişirir; hedef kodlama (target encoding) veya gömleme (embedding) gibi yaklaşımlar gündeme gelir.
Cascade (Kademeli Modelleme / Aşamalı Karar)
Birden fazla model veya kuralın ardışık çalıştığı mimaridir (ön eleme → daha pahalı model → manuel inceleme). Maliyet/latency avantajı sağlar; ancak her aşama, sonraki aşamanın veri dağılımını değiştirir.
CatBoost
Kategorik değişkenlerle çalışmada güçlü olan gradient boosting tabanlı bir model ailesidir. Kategorik özellikleri daha “doğal” ele aldığı için bazı tabular problemlerde az feature engineering ile iyi sonuç verebilir.
Categorical Feature (Kategorik Özellik)
Sayısal olmayan, sınıf/etiket türü değişkendir (şehir, cihaz türü, kampanya adı). Doğrudan modele verilemeyebilir; uygun kodlama seçimi (one-hot, ordinal, target encoding) performansı belirler.
Categorical Encoding (Kategorik Kodlama)
Kategorik değişkenleri modele uygun sayısal temsile dönüştürme sürecidir. Yanlış kodlama, sızıntı (target encoding’i yanlış doğrulama ile yapmak) veya gereksiz boyut patlaması yaratabilir.
Causal Effect (Nedensel Etki)
“X arttığında Y değişir mi?” sorusunun, korelasyondan ayrı olarak nedensel çerçevede yanıtıdır. Nedensel etkiyi tahmin etmek için deney (randomized) veya sağlam gözlemsel yöntemler (matching, IV, DiD) gerekir.
Causal Inference (Nedensel Çıkarım)
Veriden nedensel sonuç çıkarma disiplinidir. A/B testleri altın standarttır; mümkün değilse varsayımları açık olan gözlemsel yöntemler kullanılır. En büyük risk: “korelasyonu nedensellik sanmak.”
Causal Graph (Nedensel Grafik / DAG)
Değişkenler arası nedensel ilişkileri yönlü asiklik grafikle ifade eder. Hangi değişkene kontrol uygulayacağınızı (confounder), hangisine uygulamayacağınızı (collider) belirlemede rehberdir.
Censoring (Sansürleme / Gözlemin Tamamlanmaması)
Özellikle hayatta kalma analizi (survival analysis) bağlamında, olayın gerçekleşip gerçekleşmediğinin gözlem süresi içinde kesinleşmemesidir (örn. kullanıcı hâlâ abonelikte). Censoring göz ardı edilirse churn süresi ve risk tahmini yanlı olur.
Centering (Merkezleme)
Bir değişkenden ortalamasını çıkararak dağılımı sıfır etrafına çekme işlemidir. Bazı modellerde optimizasyonu kolaylaştırır; regularization ve etkileşim terimleri yorumunu da etkileyebilir.
Change Data Capture (CDC)
Kaynak sistemdeki ekleme/güncelleme/silme değişikliklerini yakalayıp hedef sistemlere akıtma yaklaşımıdır. Gerçek zamanlıya yakın analitik ve veri ambarı güncellemelerinde kritik bir veri mühendisliği tekniğidir.
Change Point Detection (Kırılma Noktası Tespiti)
Zaman serisinde ortalama/trend/varyans gibi özelliklerin değiştiği anları bulma problemidir. Kampanya, fiyat değişimi, sistem hatası gibi olayların etkisini ölçmede sık kullanılır.
Chatbot Analytics (Sohbet Botu Analitiği)
Kullanıcı niyeti, çözüm oranı, devretme (handoff) oranı, yanıt kalitesi ve memnuniyet gibi metriklerle bot performansını ölçer. Dil modelleri kullanılıyorsa halüsinasyon riski ve güvenlik filtreleri ayrı bir kalite boyutudur.
Chi-Square Test (Ki-Kare Testi)
Kategorik değişkenler arasında bağımsızlık testi için kullanılır (örn. cihaz türü ↔ satın alma). Büyük örneklemlerde çok küçük farklar bile “anlamlı” çıkabilir; etki büyüklüğü ayrıca değerlendirilmelidir.
Churn (Müşteri Kaybı / Terk)
Bir kullanıcının belirli bir dönem içinde ürünü terk etmesi veya aboneliği sonlandırmasıdır. “Churn tanımı” iş modeline göre değişir (7 gün pasif mi, abonelik iptali mi?); tanım net değilse model hedefi çöker.
Churn Rate (Churn Oranı)
Belirli bir dönemde churn olan kullanıcıların toplam kullanıcıya oranıdır. Cohort bazlı takip edilmezse büyüme dönemlerinde yanıltıcı olabilir.
Class Imbalance (Sınıf Dengesizliği)
Pozitif sınıfın çok nadir olduğu durumdur (fraud, arıza). Accuracy yanıltır; PR-AUC, recall, cost-sensitive learning ve örnekleme stratejileri öne çıkar.
Class Weighting (Sınıf Ağırlıklandırma)
Dengesiz sınıflarda kayıp fonksiyonuna sınıf bazlı ağırlık ekleyerek modelin az görülen sınıfa daha duyarlı olmasını sağlar. İş maliyetleriyle (false negative maliyeti) uyumlu ayarlanmalıdır.
Classification (Sınıflandırma)
Girdilerden ayrık sınıf etiketleri tahmin etme problemidir. Çıktı olasılık üretiyorsa eşik seçimi (threshold) iş maliyetlerine göre optimize edilmelidir.
Classifier (Sınıflandırıcı)
Sınıflandırma problemini çözen modeldir (lojistik regresyon, SVM, ağaçlar, sinir ağları). “En iyi sınıflandırıcı” genellikle veri tipi, yorumlanabilirlik ihtiyacı ve üretim kısıtlarıyla belirlenir.
Click-Through Rate (CTR / Tıklama Oranı)
Gösterim başına tıklama olasılığını ölçer. Reklam, öneri ve arama sistemlerinde temel metriktir; tek başına optimize edilirse clickbait ve kalite düşüşü gibi yan etkiler doğurabilir.
Clipping (Kırpma)
Aykırı değerleri belirli bir aralığa sınırlama işlemidir (winsorization ile akraba). Robust istatistik için yararlı olabilir; ancak gerçek sinyali “bastırma” riskine karşı domain bilgisi gerekir.
Clustering (Kümeleme)
Etiket olmadan benzer örnekleri gruplama problemidir. Sonuç “doğru-yanlış”tan çok “işe yarar segment mi?” sorusuyla değerlendirilir; metrikler (silhouette) tek başına yeterli değildir.
Cohort Analysis (Kohort Analizi)
Kullanıcıları ortak bir başlangıç olayına göre (ilk satın alma, ilk kayıt) gruplandırıp zaman içinde davranışlarını izler. Retention ve churn yorumunda “büyüme yanılsamasını” azaltır.
Cold Start (Soğuk Başlangıç)
Öneri sistemlerinde yeni kullanıcı veya yeni ürün için yeterli etkileşim verisi olmaması problemidir. İçerik tabanlı özellikler, popülerlik prior’ları veya keşif (exploration) stratejileriyle yönetilir.
Collaboration Filtering (İşbirlikçi Filtreleme)
Kullanıcı–öğe etkileşimlerinden benzerlik öğrenerek öneri üreten yöntem ailesidir. Soğuk başlangıçta zorlanır; veri seyrekse matris faktörizasyonu ve düzenlileştirme kritik olur.
Collider (Çarpışan Değişken)
Nedensel analizde iki değişkenin ortak sonucudur. Collider’a kontrol uygulamak (conditioning) sahte korelasyon üretebilir; bu yüzden “her şeyi kontrol edelim” yaklaşımı nedensel analizde tehlikelidir.
Collinearity (Çoklu Doğrusal Bağlantı)
Özelliklerin birbirine yüksek derecede bağlı olmasıdır. Lineer modellerde katsayıların kararsızlaşmasına yol açar; VIF, düzenlileştirme (Ridge/Lasso) veya özellik seçimiyle yönetilir.
Columnar Storage (Kolon Bazlı Depolama)
Veriyi satır yerine kolonlar halinde depolayan yapı yaklaşımıdır (analitik sorgular için verimlidir). Büyük ölçekte raporlama ve veri ambarlarında tercih edilir.
Combinatorial Explosion (Kombinatoryal Patlama)
Özellik kombinasyonları veya arama uzayı büyüdükçe olasılık sayısının katlanarak artmasıdır. Özellik çaprazları, grid search ve kural tabanlı sistemler bu riske açıktır.
Confidence Interval (Güven Aralığı)
Bir tahminin belirsizliğini aralıkla ifade eder. A/B testinde yalnızca “anlamlı mı?” değil, etkinin büyüklüğünü ve olası aralığını konuşmayı sağlar.
Confounding (Karıştırıcı Etki)
Hem sebep hem sonuçla ilişkili üçüncü bir değişkenin, ilişkiyi çarpıtmasıdır. Nedensel analizde en temel tuzaktır; randomizasyon yoksa confounder seti dikkatle belirlenmelidir.
Confounder (Karıştırıcı Değişken)
X ile Y arasındaki ilişkiyi yanlış gösteren, ikisiyle de bağlantılı değişkendir. Doğru kontrol edilmezse “etki” sandığınız şey aslında karıştırıcının etkisi olabilir.
Confusion Matrix (Karmaşıklık Matrisi / Hata Matrisi)
Sınıflandırma sonuçlarını TP, FP, TN, FN olarak özetler. Precision, recall, specificity gibi metriklerin temel yapı taşıdır; iş maliyetlerini buradan türetmek kolaydır.
Concept Drift (Kavram Kayması)
Zamanla veri dağılımının veya “etiketleme kuralının” değişmesiyle model performansının düşmesidir. Model izleme (monitoring), yeniden eğitim ve veri/etiket sözleşmesi (data contract) ile yönetilir.
Conditional Probability (Koşullu Olasılık)
Bir olayın, başka bir olay gerçekleştiğinde olasılığıdır. Naive Bayes’ten risk skorlama sistemlerine kadar birçok modelin dilidir.
Confidence Score (Güven Skoru)
Modelin tahminine eşlik eden “ne kadar emin?” sinyalidir. Her modelin güven skoru kalibre değildir; ham skor ile gerçek olasılık aynı şey değildir.
Conformal Prediction (Konformal Tahmin)
Tahminlere istatistiksel kapsama garantisi veren, belirsizlik aralığı üreten çerçevedir. “Bu tahminin yanlış olma olasılığı en fazla %α” gibi daha güvenli karar mekanizmaları kurmaya yardım eder.
Consistency (Tutarlılık)
(1) İstatistikte: Örneklem büyüdükçe tahminin gerçeğe yaklaşması. (2) Veri sistemlerinde: Aynı sorgunun farklı zamanlarda aynı sonucu vermesi. Hangi bağlamda kullanıldığı açık olmalıdır.
Constraint (Kısıt)
Optimizasyon veya modelleme sürecindeki sınır koşullarıdır (örn. bütçe, kapasite, fairness kısıtı, monotonicity). Gerçek dünya karar sistemlerinde “en iyi” çözüm çoğu zaman kısıtlarla tanımlanır.
Contamination (Kirlenme Oranı)
Anomali tespitinde veri içinde anomali oranına dair varsayımdır (bazı yöntemlerde parametre). Yanlış contamination, modeli aşırı hassas veya aşırı kör yapabilir.
Control Group (Kontrol Grubu)
Deneylerde müdahale görmeyen gruptur. Ölçüm sapması, seçilim (selection bias) ve sızıntı yoksa etki kıyasının temelidir.
Convergence (Yakınsama)
Optimizasyon sürecinde kaybın stabil bir minimuma yaklaşmasıdır. Yakınsama “iyi çözüm” demek değildir; yanlış hedef fonksiyonu veya veri sızıntısı varsa hızlı yakınsama yanlış yere götürür.
Correlation (Korelasyon)
İki değişkenin birlikte değişme derecesini ölçer. Korelasyon nedensellik değildir; ancak keşifsel analizde hipotez üretmek için güçlü bir işarettir.
Cosine Similarity (Kosinüs Benzerliği)
Vektörlerin yön benzerliğini ölçer; özellikle metin gömlemelerinde (embeddings) iki metnin anlam yakınlığını kıyaslamak için kullanılır. Vektör normundan bağımsız olması, yüksek boyutlu metin uzaylarında avantaj sağlar.
Cost Function (Maliyet / Kayıp Fonksiyonu)
Modelin minimize etmeye çalıştığı hedef ölçüttür. İş metriği ile kayıp fonksiyonu uyumsuzsa model “matematiksel olarak iyi” ama “iş olarak kötü” sonuç üretebilir.
Cost-Sensitive Learning (Maliyet Duyarlı Öğrenme)
Hata türlerinin maliyetini eşit görmeyen yaklaşım. Örneğin fraud’da false negative çok pahalıysa, model ve eşik buna göre optimize edilir.
Counterfactual (Karşı-Olgusal)
“Eğer müdahale olmasaydı ne olurdu?” sorusunun yanıtıdır. Nedensel etkinin özü budur; deneyler counterfactual’i randomizasyonla, gözlemsel yöntemler varsayımlarla yaklaşır.
Covariance (Kovaryans)
İki değişkenin birlikte değişiminin ölçüsüdür; korelasyonun “ölçeklenmemiş” hali gibi düşünülebilir. PCA gibi yöntemlerde temel yapı taşlarından biridir.
CPU-Bound / IO-Bound
Bir işin darboğazının işlemci mi (CPU-bound) yoksa veri okuma-yazma mı (IO-bound) olduğuna işaret eder. Veri analitiğinde performans optimizasyonu, doğru darboğazı teşhis etmekle başlar.
Credit Scoring (Kredi Skorlama)
Birey/işletmenin kredi riskini tahmin eden analitik problem alanıdır. Regülasyon, açıklanabilirlik ve adalet (fairness) gereksinimleri nedeniyle “sadece skor” değil, gerekçe ve izlenebilirlik de önemlidir.
Cross-Entropy (Çapraz Entropi)
Tahmin edilen olasılık dağılımı ile gerçek dağılım arasındaki farkı ölçen kayıp fonksiyon ailesidir. Sınıflandırmada standarttır; iyi optimize eder ama kalibrasyon ayrıca kontrol edilmelidir.
Cross-Validation (Çapraz Doğrulama)
Modelin genelleme performansını daha güvenilir ölçmek için veriyi birden fazla kat (fold) halinde farklı eğitim/test bölünmeleriyle değerlendirir. Zaman serisinde rastgele CV yapılmaz; “time-aware” doğrulama gerekir.
CTR Lift (Tıklama Artışı)
Bir müdahalenin CTR üzerindeki göreli etkisini ölçer (örn. yeni öneri algoritması CTR’yi %x artırdı). Lift yorumunda sezonsallık ve deney tasarımı hataları yanıltıcı olabilir.
Curse of Dimensionality (Boyutsallık Laneti)
Boyut arttıkça veri uzayının seyrekleşmesi ve uzaklık/benzerlik ölçülerinin anlam kaybetmesi problemidir. Çözüm; özellik seçimi, düzenlileştirme, boyut indirgeme ve daha fazla veri olabilir.
Customer Lifetime Value (CLV / Müşteri Yaşam Boyu Değeri)
Bir müşterinin ilişki süresi boyunca yaratması beklenen net değer tahminidir. Churn, gelir, maliyet ve indirimleme (discounting) varsayımlarına çok duyarlıdır; “tek sayı” gibi sunulsa da belirsizlik içerir.
Cumulative Gain (Kümülatif Kazanç)
Sıralama/segmentleme problemlerinde, en üstteki %k’lık dilimde ne kadar pozitif yakalandığını gösterir. Kampanya hedefleme ve risk skorlama değerlendirmesinde pratik bir görselleştirmedir.
Curation (Kürasyon)
Veri veya içerik havuzunu kalite, tutarlılık ve amaç uyumuna göre seçme/temizleme sürecidir. Özellikle eğitim verisi oluştururken, “daha çok veri” yerine “daha doğru veri” etkisi belirleyici olabilir.
Cutoff / Threshold (Eşik)
Olasılık üreten bir modelde karar sınırını belirleyen değerdir (p>0.7 ise pozitif gibi). Eşik seçimi teknik değil iş kararıdır; hata maliyetleri, kapasite ve risk toleransı ile birlikte belirlenmelidir.
D
DAG (Directed Acyclic Graph) / Yönlü Asiklik Grafik
Düğümler (değişkenler/iş adımları) ve yönlü oklarla kurulan, döngü içermeyen grafik yapısıdır. Nedensel analizde değişken ilişkilerini; veri mühendisliğinde ise iş akışı bağımlılıklarını (pipeline orchestration) modellemek için kullanılır.
Daily Active Users (DAU) / Günlük Aktif Kullanıcı
Bir gün içinde üründe “aktif” kabul edilen eylemi (oturum açma, içerik görüntüleme, işlem yapma vb.) gerçekleştiren benzersiz kullanıcı sayısıdır. “Aktif” tanımı net değilse DAU karşılaştırmaları yanıltıcı olur.
Dashboard (Gösterge Paneli)
Kritik metrikleri tek ekranda izlenebilir hale getiren raporlama arayüzüdür. İyi bir dashboard yalnızca görsellik değil; doğru metrik tanımı, tazelik (freshness), kırılım (segment) ve veri kalitesi güvencesi ister.
Data (Veri)
Gözlem, ölçüm veya kayıt yoluyla elde edilen ham işaretlerdir. Veri, bağlam ve amaç olmadan “bilgi”ye dönüşmez; bu yüzden veri analitiğinde en kritik adım çoğu zaman toplama değil, tanım ve ölçüm sözleşmesidir.
Data Access Layer (Veri Erişim Katmanı)
Uygulama/analitik araçların veri kaynaklarına (DB, lake, API) tutarlı ve güvenli biçimde erişmesini sağlayan soyutlama katmanıdır. Yetkilendirme, denetim izi (audit) ve performans optimizasyonu bu katmanda yönetilir.
Data Annotation (Veri Etiketleme)
Makine öğrenmesi için ham veriye (metin, görüntü, ses, tablo) hedef etiketlerin insan/uzman tarafından eklenmesidir. Etiket yönergeleri net değilse tutarlılık düşer; bu da modelin “yanlış şeyi öğrenmesine” yol açar.
Data API
Veriyi uygulamalara veya analitik iş akışlarına servis eden programatik arayüzdür. Versiyonlama, oran sınırlama (rate limiting) ve şema sözleşmesi yoksa kırılgan entegrasyonlar ortaya çıkar.
Data Catalog (Veri Kataloğu)
Kurumsal veri varlıklarının (tablo, rapor, model, metrik, veri seti) “ne, nerede, kime ait, nasıl kullanılır?” bilgisini tuttuğu envanterdir. Keşfi hızlandırır, veri tekrarını azaltır ve yönetişimi güçlendirir.
Data Cleaning (Veri Temizleme)
Eksik, hatalı, tutarsız veya aykırı kayıtları analiz/ML için daha güvenilir hale getirme sürecidir. Temizleme, veriyi “güzel” yapmak değil; ölçüm hatalarını azaltıp anlamı korumaktır.
Data Contract (Veri Sözleşmesi)
Üretici (producer) ile tüketici (consumer) arasında; şema, alan anlamı, tazelik, gecikme, kalite eşikleri ve değişiklik bildirimleri gibi beklentileri tanımlayan anlaşmadır. Sözleşme yoksa kırılan raporlar “sürpriz” olur.
Data Deduplication (Veri Tekilleştirme)
Aynı varlığın birden çok kayıtla temsil edilmesini azaltma işlemidir (mükerrer müşteri, tekrar eden event). Doğru anahtar (ID) ve eşleştirme kuralı (fuzzy matching) seçilmezse gerçek kayıtlar yanlış birleştirilebilir.
Data Dictionary (Veri Sözlüğü)
Bir veri setindeki alanların isim, tanım, birim, örnek değer, geçerli aralık ve iş kuralı gibi açıklamalarını içeren dokümantasyondur. “Aynı kelime, farklı anlam” problemini azaltır.
Data Drift (Veri Kayması)
Model girdilerinin dağılımının zamanla değişmesidir (ör. cihaz dağılımı, kullanıcı profili, fiyat aralığı). Veri drift, performans düşüşünün erken sinyali olabilir; ancak tek başına “model bozuldu” kanıtı değildir.
Data Engineering (Veri Mühendisliği)
Verinin toplanması, taşınması, dönüştürülmesi, saklanması ve güvenilir biçimde servis edilmesi disiplinidir. “Model performansı” kadar “veri hattı güvenilirliği” de ürün değerini belirler.
Data Enrichment (Veri Zenginleştirme)
Ham veriye yeni alanlar ekleyerek bağlamı artırma işlemidir (coğrafi eşleme, demografik segment, ürün hiyerarşisi). Zenginleştirme, sinyali büyütebilir; fakat yanlış eşleme sistematik hatayı da büyütür.
Data Governance (Veri Yönetişimi)
Verinin sahipliği, erişimi, güvenliği, kalite standartları ve yaşam döngüsünü yöneten politika ve süreçlerin bütünüdür. İyi yönetişim, “hız” ile “kontrol” arasında sürdürülebilir denge kurar.
Data Granularity (Veri Granülaritesi / Detay Seviyesi)
Verinin en küçük birim düzeyi (satır seviyesi event, günlük özet, kullanıcı-hafta agregasyonu vb.). Yanlış granülarite, yanlış yorum (Simpson paradoksu gibi) ve yanlış optimizasyon hedefi üretebilir.
Data Imputation (Eksik Veri Tamamlama)
Eksik değerleri istatistiksel veya model tabanlı yöntemlerle doldurma işlemidir (ortalama/medyan, KNN, MICE vb.). Doldurma stratejisi, eksikliğin mekanizmasına (MCAR/MAR/MNAR) duyarlıdır.
Data Integrity (Veri Bütünlüğü)
Verinin doğruluk, tutarlılık ve referans bütünlüğü (foreign key gibi) açısından bozulmamasıdır. Bütünlük bozulursa model ne kadar iyi olursa olsun çıktı güvenilmez hale gelir.
Data Lake (Veri Gölü)
Ham veya az işlenmiş verinin ölçeklenebilir biçimde depolandığı havuzdur. Esneklik sağlar; fakat şema ve yönetişim yoksa “data swamp” (veri bataklığı) riskine dönüşür.
Data Lakehouse
Data lake’in esnekliğini, veri ambarının (warehouse) performans ve yönetilebilirliğiyle birleştirmeyi hedefleyen mimari yaklaşımıdır. Amaç: tek kopya üzerinde hem analitik hem de bazı operasyonel iş yüklerini daha düzenli yönetmek.
Data Lineage (Veri Soy Ağacı)
Bir alanın/raporun nereden geldiğini, hangi dönüşümlerden geçtiğini ve hangi çıktıları etkilediğini gösteren izlenebilirlik bilgisidir. Hata ayıklama, etki analizi ve uyumluluk (compliance) için kritiktir.
Data Mart
Belirli bir iş alanına (pazarlama, finans, operasyon) odaklı, konu bazlı veri depolama katmanıdır. Doğru tasarlanırsa erişimi hızlandırır; yanlış tasarlanırsa silolaşmayı artırabilir.
Data Mesh
Veriyi merkezi bir ekibin ürünü değil, domain ekiplerinin sahip olduğu “veri ürünleri” olarak ele alan organizasyonel/mimari yaklaşımdır. Başarı, teknikten çok sahiplik, standartlar ve sözleşmelerle gelir.
Data Modeling (Veri Modelleme)
Veri varlıklarının (müşteri, sipariş, ürün) ilişkilerini ve şema tasarımını belirleme sürecidir. İyi modelleme, analitik doğruluğu artırır ve raporlama maliyetini düşürür.
Data Normalization (Veri Normalizasyonu)
(1) Veri tabanında tekrarları azaltan normal formlar; (2) ML’de ölçekleme/standardizasyon gibi dönüşümler için kullanılan genel isim. Hangi anlamda kullanıldığı belirtilmezse ekipler farklı şeyden bahsediyor olabilir.
Data Observability (Veri Gözlemlenebilirliği)
Veri boru hatlarında tazelik, hacim, dağılım ve şema değişimlerini izleyip anomaliyi erken yakalama pratiğidir. “Model monitoring” kadar “veri monitoring” de üretim kalitesinin temelidir.
Data Pipeline (Veri Boru Hattı)
Verinin kaynaklardan hedef sistemlere akarken geçtiği adımların (ingestion → transform → serve) bütünüdür. İyi pipeline; idempotent, izlenebilir, yeniden çalıştırılabilir ve versiyonlanabilir olmalıdır.
Data Provenance (Veri Menşei / Kaynak İzleri)
Verinin kaynağı, toplanma yöntemi, zaman damgası, dönüşümleri ve yetkilendirme geçmişi gibi köken bilgisidir. Bilimsel tekrar üretilebilirlik ve kurumsal denetim açısından kritiktir.
Data Quality (Veri Kalitesi)
Doğruluk, tamamlık, tutarlılık, güncellik ve benzersizlik gibi boyutlarla ölçülen uygunluk seviyesidir. “Kalite” tek sayı değildir; kullanım amacına göre kalite eşiği tanımlanır.
Data Retention (Veri Saklama Politikası)
Verinin ne kadar süre tutulacağını ve ne zaman silineceğini belirleyen kural setidir. Regülasyon, maliyet ve analitik ihtiyaçlar arasında denge gerektirir.
Data Sampling (Veri Örnekleme)
Büyük veriden temsil edici alt küme seçme işlemidir. Yanlış örnekleme yanlılığı (sampling bias) üretir; özellikle offline değerlendirmede sahte başarı yaratabilir.
Data Science (Veri Bilimi)
Veriden değer üretmek için istatistik, programlama, alan bilgisi ve ürün düşüncesini birleştiren disiplindir. Başarı kriteri yalnızca model skoru değil; karar kalitesi ve operasyonel etkidir.
Dataset (Veri Seti)
Belirli amaç için bir araya getirilmiş veri koleksiyonudur. Veri setinin kapsamı, toplama koşulları ve etiketleme kuralları dokümante edilmezse sonuçlar tekrarlanamaz.
Data Silo (Veri Silosu)
Verinin ekipler arasında paylaşılmadan, kapalı biçimde birikmesi durumudur. Kısa vadede hız gibi görünür; uzun vadede tutarsız KPI’lar ve tekrar iş üretir.
Data Steward (Veri Sorumlusu)
Bir veri alanının tanımından kalite takibine kadar sahipliğini üstlenen rol/kişidir. Sorumluluk netliği, veri yönetişiminin pratikte işlemesini sağlar.
Data Transformation (Veri Dönüşümü)
Bir veri setini başka bir biçime/şemaya/ölçeğe dönüştürme işlemleridir (join, agregasyon, encoding, log dönüşümü). Dönüşümlerin izlenebilir olması, hatayı geriye sarma (rollback) için şarttır.
Data Validation (Veri Doğrulama)
Verinin belirlenen şema ve kurallara uyup uymadığını otomatik kontrollerle test etme yaklaşımıdır (ör. aralık, null oranı, benzersizlik). “Test yoksa kalite yoktur” ilkesi veri için de geçerlidir.
Data Versioning (Veri Sürümleme)
Veri setlerinin zaman içinde değişen sürümlerini izleme ve gerektiğinde geri dönebilme pratiğidir. Model eğitimi/karşılaştırma için “hangi veriyle eğittik?” sorusunun tek güvenli cevabıdır.
Data Warehouse (Veri Ambarı)
Analitik sorgular için yapılandırılmış, genellikle temizlenmiş ve iş kurallarıyla modellenmiş veri deposudur. Güçlü semantik katman ve yönetişim sağlar; esneklik için lake ile birlikte tasarlanabilir.
DataOps
Veri üretim süreçlerini yazılım mühendisliği disiplinleriyle (CI/CD, test, izleme, otomasyon) yönetme yaklaşımıdır. Amaç, veri pipeline’larını daha güvenilir ve daha hızlı teslim edilebilir hale getirmektir.
DBSCAN
Yoğunluk temelli kümeleme algoritmasıdır; küme sayısını baştan vermeden, sık bölgeleri küme olarak bulur. Gürültü (noise) noktalarını “outlier” gibi işaretleyebilir; parametre seçimi (eps, min_samples) kritiktir.
DDL (Data Definition Language)
SQL’de şema tanımlayan komut sınıfıdır (CREATE, ALTER, DROP). Analitik sistemlerde şema değişiklikleri, downstream rapor ve modelleri etkileyebileceği için kontrollü yönetilmelidir.
DML (Data Manipulation Language)
SQL’de veri üzerinde işlem yapan komut sınıfıdır (SELECT, INSERT, UPDATE, DELETE). Analitik ortamda DML’nin “tek gerçek kaynak” (single source of truth) ilkesini bozmayacak şekilde kullanılması önemlidir.
De-identification (Kimliksizleştirme)
Kişisel veriyi doğrudan tanımlayıcı öğelerden arındırma sürecidir (isim, TCKN, e-posta vb.). Ancak kimliksizleştirme her zaman yeniden tanımlanamazlık (re-identification risk) garantisi vermez; risk değerlendirmesi gerekir.
Decision Rule (Karar Kuralı)
Model çıktısını eyleme dönüştüren if-then mantığıdır (örn. “risk skoru > 0.8 ise manuel inceleme”). Karar kuralı, modelin kendisinden bağımsız olarak iş maliyetlerini ve kapasiteyi kodlar.
Decision Threshold (Karar Eşiği)
Olasılık üreten bir sınıflandırıcıda “pozitif” kararını verecek sınırdır. Eşik seçimi teknik bir ayar değil; yanlış pozitif/yanlış negatif maliyetleriyle şekillenen bir iş optimizasyonudur.
Decision Tree (Karar Ağacı)
Özellik uzayını ardışık kurallarla bölen, yorumlanabilirliği yüksek model ailesidir. Tek ağaç aşırı uyuma yatkın olabilir; bagging/boosting ile daha güçlü topluluk modellerine temel olur.
Decomposition (Ayrıştırma)
Zaman serisini trend, mevsimsellik ve artık (residual) bileşenlerine ayırma yaklaşımıdır. Anomali tespiti ve tahminleme öncesi serinin yapısını anlamayı kolaylaştırır.
Deduplication (Tekilleştirme)
Mükerrer kayıtları tespit edip birleştirme veya kaldırma işlemidir. “Gerçekten aynı mı?” sorusu domain kuralıdır; kör tekilleştirme, veri kaybı ve yanlış müşteri eşleşmesi üretebilir.
Deep Learning (Derin Öğrenme)
Çok katmanlı sinir ağlarıyla temsil öğrenimi yapan yöntem ailesidir. Büyük veri ve karmaşık örüntülerde güçlüdür; ancak açıklanabilirlik, veri ihtiyacı ve operasyonel maliyetler dikkate alınmalıdır.
Dense Layer (Tam Bağlantılı Katman)
Bir sinir ağında her giriş nöronunun her çıkış nöronuna bağlı olduğu katmandır. Özellikle tabular veride sık kullanılır; aşırı parametreleşme overfitting riskini büyütebilir.
Denormalization (Denormalizasyon)
Veri tabanında sorgu performansını artırmak için bazı tekrarları bilinçli olarak kabul etme yaklaşımıdır. Analitik sistemlerde (özellikle star schema) sık görülür; tutarlılık kontrolleri şarttır.
Deployment (Dağıtım / Üretime Alma)
Modelin veya analitik çıktının gerçek kullanıcıya/operasyona sunulmasıdır (API, batch skor, embedded model). Üretimde asıl mesele skor değil; izleme, geri dönüş (rollback), sürümleme ve güvenliktir.
Descriptive Analytics (Betimleyici Analitik)
“Ne oldu?” sorusunu cevaplayan analiz katmanıdır: raporlama, özet istatistik, trend ve kırılımlar. İleri analitiğin (tahmin/optimizasyon) temelini oluşturur; doğru KPI tanımı burada başlar.
Detrending (Trend Giderme)
Zaman serisindeki uzun dönemli trend bileşenini çıkarma işlemidir. Mevsimsellik analizi, korelasyon ve bazı modelleme tekniklerinde seriyi daha analiz edilebilir hale getirir.
Dimensionality Reduction (Boyut İndirgeme)
Yüksek boyutlu veriyi daha düşük boyuta indirip bilgi kaybını kontrol etmeyi amaçlayan yöntemlerdir (PCA, UMAP, t-SNE vb.). Görselleştirme ve gürültü azaltma için güçlüdür; yorum dikkat ister.
Dimension Table (Boyut Tablosu)
Veri ambarlarında “kim/neyin” boyutlarını (müşteri, ürün, tarih) tanımlayan tablodur. Fakt tablolarıyla birlikte star schema’nın temelidir; doğru boyut tasarımı metrik tutarlılığını artırır.
Dirty Data (Kirli Veri)
Eksik, hatalı, tutarsız, kopya veya yanlış biçimlendirilmiş veriyi ifade eder. Kirli veri, çoğu analitik hatanın ana kaynağıdır; çözüm tek seferlik temizlik değil, süreç ve testlerle sürdürülebilir kalite yönetimidir.
Disparate Impact (Ayrımcı Etki)
Model veya karar kuralının, korunan gruplar üzerinde orantısız olumsuz sonuç üretmesidir. Fairness değerlendirmesi yapılmadan “yüksek doğruluk” tek başına güvenli kullanım anlamına gelmez.
Distribution (Dağılım)
Bir değişkenin değerlerinin nasıl yayıldığını (merkez, yayılım, kuyruklar) ifade eder. Dağılımı anlamadan yapılan modelleme, outlier’lar ve kaymalar yüzünden sürpriz sonuçlar üretir.
Distribution Shift (Dağılım Kayması)
Eğitim verisi ile üretim verisi arasındaki istatistiksel farktır. Kavram kaymasından (concept drift) farklı olarak, etiket ilişkisi değişmeyebilir; ama yine de performansı bozabilir.
Divergence (Iraksama) / KL Divergence
İki olasılık dağılımı arasındaki farkı ölçen kavram ailesidir. Veri drift ölçümünde veya modelleme hedeflerinde (örn. variational inference) kritik rol oynar.
Document Frequency (DF) / Doküman Frekansı
Bir terimin kaç dokümanda geçtiğini ifade eder. TF-IDF gibi metin temsillerinde IDF bileşeninin temelidir; çok yaygın kelimelerin etkisini azaltmaya yardım eder.
Domain Adaptation (Alan Uyarlaması)
Bir kaynak domainde eğitilen modelin, dağılımı farklı hedef domainde çalışacak şekilde uyarlanmasıdır. Veri toplamak zor olduğunda değerlidir; ancak yanlış uyarlama “negatif transfer” üretebilir.
Domain Knowledge (Alan Bilgisi)
Verinin üretildiği bağlama dair uzman bilgidir. En iyi özellikler, en doğru metrikler ve en güvenli karar kuralları çoğu zaman domain bilgisinden doğar.
Domain Shift (Alan Kayması)
Modelin uygulandığı ortamın/kullanıcı kitlesinin kaynak veriden farklılaşmasıdır (ülke değişimi, yeni ürün segmenti, farklı cihaz ekosistemi). Domain shift, veri drift ile birlikte izlenmelidir.
Downsampling (Alt Örnekleme)
(1) Dengesiz sınıflarda çoğunluk sınıfını azaltmak; (2) Zaman serisi/sinyalde örnekleme frekansını düşürmek anlamında kullanılır. Hangi bağlamda olduğu belirtilmezse yanlış yöntem uygulanabilir.
Drift Detection (Kayma Tespiti)
Veri veya model performansında zamanla oluşan kaymaları otomatik algılama sürecidir. En iyi uygulama, istatistiksel testleri iş metrikleri ve alarm yönetimiyle birleştirir.
Dropout
Derin öğrenmede eğitim sırasında bazı nöronları rastgele “devre dışı” bırakarak overfitting’i azaltan düzenlileştirme tekniğidir. Aşırı dropout öğrenmeyi zorlaştırabilir; oran seçimi probleme duyarlıdır.
Double Descent (Çift Düşüş)
Model kapasitesi arttıkça hata eğrisinin önce düşüp sonra yükselip tekrar düşebildiğini anlatan modern genelleme gözlemidir. Pratikte “daha büyük model her zaman kötü genellemez” fikrini açıklar; yine de doğrulama ve izleme şarttır.
DVC (Data Version Control)
Veri ve model artefaktlarını sürümleyip deneyleri izlenebilir kılmayı hedefleyen yaklaşım/araç kategorisidir. Amaç, “hangi veri + hangi kod + hangi parametre” birleşimiyle hangi sonucun çıktığını tekrarlanabilir hale getirmektir.
Dynamic Time Warping (DTW) / Dinamik Zaman Bükme
Farklı hızlarda gerçekleşen zaman serilerini hizalayarak benzerlik ölçen yöntemdir. Aktivite/sensör sinyallerinde benzer desenleri yakalamada güçlüdür; ancak ölçek büyüdükçe hesaplama maliyeti artabilir.
E
Eager Execution (Anında Çalıştırma)
Bir işlemin “tanımlandığı anda” yürütülmesi yaklaşımıdır. Bazı sistemlerde (özellikle dağıtık veri işleme çerçevelerinde) bunun karşıtı lazy evaluation’dır; eager yaklaşım daha sezgiseldir ama bazı optimizasyon fırsatlarını (sorgu birleştirme, gereksiz adımı atlama) azaltabilir.
Early Stopping (Erken Durdurma)
Model eğitiminde doğrulama (validation) kaybı iyileşmeyi bıraktığında eğitimi sonlandırarak overfitting’i azaltma tekniğidir. “Kaç epoch sabredeyim?” (patience) parametresi kritik olup, gürültülü doğrulama eğrilerinde yanlış erken durdurma riski vardır.
EDA – Exploratory Data Analysis (Keşifsel Veri Analizi)
Model kurmadan önce veri dağılımını, eksikliği, aykırılığı, ilişki yapısını ve ölçüm hatalarını anlamaya yönelik analiz aşamasıdır. EDA’nın hedefi “grafik üretmek” değil; yanlış varsayımları erken yakalayıp doğru problem formülasyonunu kurmaktır.
Edge Case (Sınır Durum / Uç Senaryo)
Verinin nadir ama kritik köşelerinde görülen örneklerdir (çok uzun isimler, sıfır fiyat, olağandışı saatlerde işlem vb.). Üretimde arızaların büyük kısmı edge case’lerden çıkar; bu yüzden test verisi sadece “ortalama kullanıcıyı” değil uçları da temsil etmelidir.
Edge Computing (Uç Bilişim)
Veriyi buluta göndermek yerine cihazın/yerel düğümün üzerinde işleyerek gecikmeyi düşürme ve bant genişliği maliyetini azaltma yaklaşımıdır. Gerçek zamanlı analitik ve model çıkarımı (inference) için kritik olabilir; ancak model güncelleme ve izleme daha zor hale gelir.
Effect Size (Etki Büyüklüğü)
Bir farkın “istatistiksel olarak anlamlı” olmasından bağımsız şekilde “ne kadar büyük” olduğunu ölçer (Cohen’s d, odds ratio vb.). A/B testlerinde p-değeri tek başına karar verdirmez; etki büyüklüğü ve güven aralığı birlikte yorumlanmalıdır.
Elastic Net (Elastik Ağ)
Lineer modellerde L1 (Lasso) ve L2 (Ridge) düzenlileştirmeyi birleştiren yaklaşımdır. Çoklu doğrusal bağlantı (collinearity) olan veride daha stabil seçim yapabilir; hem sparsity hem de katsayı stabilitesi hedeflenir.
Elbow Method (Dirsek Yöntemi)
Kümeleme (özellikle k-means) için uygun küme sayısını seçmede, “k arttıkça hata azalımı” eğrisindeki kırılma noktasını arar. Sezgisel bir yöntemdir; tek başına kesin karar verdirmez, iş anlamlılığı ve stabiliteyle desteklenmelidir.
ELT (Extract–Load–Transform)
Önce ham veriyi hedef depoya (lake/warehouse) yükleyip dönüşümü içeride yapan yaklaşımdır. Modern bulut veri ambarlarında yaygındır; ham veri korunur, dönüşümler versiyonlanabilir olur. ETL’e göre yönetişim ve maliyet yönetimi farklılaşır.
Embedding (Gömleme / Vektör Temsil)
Metin, ürün, kullanıcı gibi varlıkları yüksek boyutlu vektörlerle temsil ederek “benzerlik” ve “ilişki”yi matematiksel uzaya taşır. Embedding, özellik mühendisliğini azaltabilir; fakat drift, bias ve yanlış benzerlikler üretim riskidir.
Embedding Drift (Gömleme Kayması)
Zamanla yeni veri geldiğinde embedding uzayının anlamının değişmesi durumudur. Aynı benzerlik eşiğiyle çalışan sistemler (arama/öneri) bir anda farklı sonuçlar üretmeye başlayabilir; bu yüzden embedding’ler de izlenmeli ve gerekirse yeniden eğitilmelidir.
Embedding Space (Gömleme Uzayı)
Embedding vektörlerinin yaşadığı geometrik uzaydır; yakınlık çoğu zaman kosinüs benzerliğiyle ölçülür. Uzayın “neye göre” şekillendiği (hedef fonksiyon, negatif örnekleme, veri) açıklanmadıkça vektör yorumları yanıltıcı olabilir.
Empirical Distribution (Ampirik Dağılım)
Teorik bir dağılım varsaymadan, gözlemlenen verinin oluşturduğu dağılımdır. Veri bilimi pratikte çoğu karar ampirik dağılım üzerinden verilir; özellikle kuyruk riskleri ve outlier analizi için önemlidir.
Endogeneity (İçsellik)
Bir açıklayıcı değişkenin hata terimiyle ilişkili olması durumudur; regresyon katsayıları yanlı hale gelir. Fiyatın satışa etkisini ölçerken “fiyatın da satış beklentisine göre ayarlanması” tipik içsellik örneğidir; IV (instrumental variables) gibi yöntemler gerekebilir.
Entity Resolution (Varlık Eşleştirme / Kimlik Birleştirme)
Farklı kaynaklarda aynı gerçek dünyadaki varlığı (aynı müşteri/aynı şirket) bulup birleştirme problemidir. E-posta/telefon gibi kesin anahtarlar yoksa fuzzy matching, kurallar + model hibriti ve hata maliyetleri birlikte ele alınır.
Entropy (Entropi)
Bir dağılımın belirsizliğini ölçer; sınıflar eşit dağılıyorsa entropi yüksektir. Karar ağaçlarında bölme kriteri (information gain) olarak kullanılır; bilgi teorisi temelli bir “sinyal/karmaşa” ölçüsüdür.
Epoch (Epok)
Model eğitiminde, tüm eğitim verisinin bir kez görüldüğü turdur. Epoch sayısı tek başına kalite ölçüsü değildir; öğrenme oranı planı, batch boyutu ve erken durdurma ile birlikte değerlendirilmelidir.
Error Budget (Hata Bütçesi)
SRE/observability bağlamında, bir hizmetin izin verilen hata payını nicel olarak tanımlar (örn. %99.9 SLO → aylık belirli dakika hata). Veri ürünlerinde bu kavram “gecikme/tazelik/kalite ihlali” bütçesi olarak da uyarlanabilir.
Error Metric (Hata Metriği)
Model tahmin hatasını ölçen metrik ailesidir (MAE, RMSE, MAPE vb.). Yanlış metrik seçimi yanlış optimizasyona yol açar; örneğin kuyruk hataları kritikse RMSE daha duyarlı olabilir.
ETL (Extract–Transform–Load)
Veriyi kaynaktan çekip dönüştürüp sonra hedef sisteme yükleme yaklaşımıdır. Kontrollü şema ve kalite kapıları sunar; ancak ham veriyi kaybetme ve dönüşüm değişikliklerinde geçmişi yeniden üretme maliyeti yaratabilir.
Event (Olay Kaydı)
Kullanıcı veya sistem tarafından gerçekleşen bir eylemin zaman damgalı kaydıdır (sayfa görüntüleme, satın alma, hata). Event tasarımı (şema, isimlendirme, idempotency) doğru değilse analitik güvenilirliği çöker.
Event Time (Olay Zamanı)
Olayın gerçekten gerçekleştiği zamanı ifade eder; “işleme zamanı” (processing time) ile karıştırılmamalıdır. Geç gelen veride (late arriving data) event time doğru yönetilmezse pencereli metrikler bozulur.
Event Sourcing (Olay Kaynaklı Tasarım)
Sistemin “mevcut durumunu” değil, durumu oluşturan olayları kalıcı gerçek olarak saklama yaklaşımıdır. Analitik için güçlü izlenebilirlik sağlar; ancak şema evrimi ve olay geri oynatma (replay) maliyetini yönetmek gerekir.
Evaluation (Değerlendirme)
Model/analiz çıktısının beklenen hedeflere ne kadar uyduğunu ölçme sürecidir. Offline metrikler (AUC) ile online metrikler (CTR, gelir) arasında fark olabilir; bu yüzden değerlendirme çok katmanlı tasarlanmalıdır.
Exogenous Variable (Dışsal Değişken)
Modelin dışında belirlenen ve sistem tarafından etkilenmeyen değişkendir (hava durumu, takvim etkisi gibi). Zaman serilerinde dışsal değişkenler (ARIMAX vb.) tahmini güçlendirebilir; fakat yanlış seçilirse gürültü enjekte eder.
Expectation / Expected Value (Beklenen Değer)
Bir rastgele değişkenin uzun dönem ortalamasıdır. Risk ve maliyet kararlarında temel ölçüdür; ancak “beklenen değer aynı” iki senaryo farklı risk profiline sahip olabilir (varyans ve kuyruklar önemlidir).
Explainability (Açıklanabilirlik)
Modelin neden o tahmini verdiğini, hangi sinyallere dayandığını insanın anlayabileceği biçimde ifade etme çabasıdır. Açıklanabilirlik “nedensellik” değildir; çoğu yöntem korelasyonel katkı (attribution) sunar.
Explainer (Açıklayıcı Yöntem / Açıklayıcı Model)
Bir modeli açıklamak için kullanılan araç/yöntemdir (SHAP, LIME, permutation importance). Açıklayıcıların kendisi de varsayım içerir; özellikle korelasyonlu özelliklerde “katkı payı” yorumları dikkat gerektirir.
Exploration (Keşif)
Öneri sistemleri ve pekiştirmeli öğrenmede, yeni seçenekleri deneme davranışıdır. Keşif olmazsa sistem kısa vadede iyi görünen dar bir alana sıkışır; uzun vadeli öğrenme ve çeşitlilik düşer.
Exploitation (Sömürü / En İyi Bilineni Kullanma)
Mevcut bilgiye göre en iyi görünen seçeneği tercih etme davranışıdır. Aşırı exploitation kısa vadede metrikleri iyileştirirken keşfi öldürerek uzun vadeli performansı düşürebilir; denge, ürün stratejisidir.
Epsilon-Greedy (Epsilon-Açgözlü Strateji)
Bandit/RL bağlamında, çoğu zaman en iyi bilinen seçeneği seçip küçük bir olasılıkla (ε) rastgele keşif yapan stratejidir. Basittir ve etkilidir; ancak keşfi “rastgelelik”e bıraktığı için bazı problemler için yetersiz kalabilir.
Euclidean Distance (Öklid Uzaklığı)
İki nokta arasındaki düz çizgi mesafesidir. Yüksek boyutlu veride boyutsallık laneti nedeniyle anlamı zayıflayabilir; bu yüzden metin/embedding uzayında çoğu zaman kosinüs benzerliği tercih edilir.
Exponential Smoothing (Üstel Düzgünleştirme)
Zaman serilerinde yakın geçmişe daha fazla ağırlık vererek düzleştirme yapan yöntem ailesidir. Trend ve mevsimsellik bileşenleri için uzantıları vardır (Holt, Holt-Winters); kısa vadeli tahminde pratik ve hızlıdır.
Extrapolation (Dışa Tahmin)
Gözlenen aralığın dışına tahmin yapmaktır. Regresyon çizgisi güzel görünse bile dışa tahmin yüksek risklidir; özellikle veri kapsamadığı bölgeye gidildikçe belirsizlik hızla büyür.
Experiment (Deney)
Bir müdahalenin etkisini ölçmek için kontrollü karşılaştırma düzenidir (A/B, çok kollu bandit). Deneyin gücü (power), randomizasyon kalitesi ve ölçüm hatası yönetilmeden “deney yaptık” demek güvenli değildir.
Experiment Design (Deney Tasarımı)
Örneklem büyüklüğü, metrik, segment, randomizasyon birimi, durdurma kuralı ve guardrail metriklerini belirleme sürecidir. Tasarım zayıfsa sonuçlar üretimde yanlış kararlar doğurur.
Experimentation Platform (Deney Platformu)
Deneylerin kurulmasını, randomizasyonu, metrik hesaplarını, guardrail kontrollerini ve raporlamayı standardize eden altyapıdır. Platform, ekiplerin aynı dili konuşmasını sağlar; aksi halde her ekip kendi “A/B testi”ni farklı yapar.
External Validity (Dış Geçerlilik)
Deney/analiz sonucunun farklı zaman, coğrafya veya kullanıcı kitlesine genellenebilirliğidir. Bir A/B testinin “kazananı” her zaman her segmentte kazanmayabilir; rollout stratejisi bu yüzden kademeli olmalıdır.
Extreme Values (Aşırı Değerler)
Dağılımın uçlarında yer alan gözlemlerdir. Bazısı gerçek sinyaldir (VIP müşteri), bazısı hatadır (ölçüm/entry). Aşırı değer yönetimi “silmek” değil; sınıflandırmak ve doğru işlemektir.
F
F1 Skoru (F1 Score)
Precision ve recall’ın harmonik ortalamasıdır. Dengesiz sınıflarda accuracy’den daha anlamlıdır; özellikle “yanlış pozitif” ile “yanlış negatif” maliyetlerinin benzer önem taşıdığı senaryolarda iyi bir özet metrik verir.
Fβ Skoru (F-beta Score)
F1’in genelleştirilmiş hâlidir: β>1 recall’ı, β<1 precision’ı daha çok önemser. İş maliyetleri asimetrikse (ör. fraud’da kaçırma pahalıysa) uygun β seçimi daha gerçekçi optimizasyon sağlar.
Fact Table (Fakt Tablosu)
Veri ambarı modellemesinde ölçümler ve olaylar (sipariş, ödeme, tıklama) gibi “sayılabilir” gerçekleri tutan tablodur. Boyut tablolarına (müşteri, ürün, tarih) anahtarlarla bağlanır; metrik tutarlılığının omurgasıdır.
Factor Analysis (Faktör Analizi)
Gözlenen değişkenlerin ortak varyansını daha az sayıda gizil faktörle açıklamayı amaçlayan istatistiksel yöntemdir. Boyut indirgeme gibi görünse de amacı çoğu zaman “yorumlanabilir gizil yapı” çıkarmaktır; varsayımlar ve örneklem yeterliliği kritiktir.
Factorial Design (Faktöriyel Deney Tasarımı)
Birden fazla faktörün (fiyat, sayfa tasarımı, kargo mesajı gibi) etkisini aynı deneyde, etkileşimleriyle birlikte test etmeyi sağlar. Tek tek A/B yerine daha verimli olabilir; ancak tasarım karmaşıklığı ve örneklem ihtiyacı artar.
Fairness (Adalet / Eşitlik)
Modelin veya karar sisteminin farklı gruplara karşı sistematik biçimde haksız sonuç üretmemesi hedefidir. “Adil” tek bir tanım değildir; kullanım senaryosuna göre fırsat eşitliği, sonuç eşitliği, hata oranı eşitliği gibi kriterler çatışabilir.
Fairness Metric (Adalet Metriği)
Adaleti ölçmek için kullanılan nicel kriterlerdir (demographic parity, equal opportunity, equalized odds vb.). Tek metrikle “adalet sağlandı” demek risklidir; metrik seçimi hukuki/etik/iş bağlamıyla birlikte yapılmalıdır.
False Discovery Rate (FDR / Yanlış Keşif Oranı)
Pozitif tahmin edilenlerin (veya reddedilen hipotezlerin) içinde yanlış olanların oranını ifade eder. Çoklu hipotez testlerinde özellikle önemlidir; “ne kadar yanlış alarmı tolere ediyorum?” sorusuna karşılık gelir.
False Negative (FN / Yanlış Negatif)
Gerçekte pozitif olan bir örneğin model tarafından negatif tahmin edilmesidir. Fraud, arıza veya hastalık taraması gibi alanlarda FN maliyeti çok yüksek olabilir; eşik ve metrik seçimini belirler.
False Negative Rate (FNR / Yanlış Negatif Oranı)
Pozitiflerin ne kadarının kaçırıldığını ölçer: FN / (TP+FN). FNR düşürmek genelde recall’ı artırmak anlamına gelir; ama bunu yaparken false positive’lar artabilir.
False Omission Rate (FOR / Yanlış Dışlama Oranı)
Negatif tahmin edilenler içinde gerçekte pozitif olanların oranıdır: FN / (FN+TN). “Negatif dediğimde ne kadar yanılıyorum?” sorusunu cevaplar; özellikle tarama sistemlerinde güven metriği olarak değerlidir.
False Positive (FP / Yanlış Pozitif)
Gerçekte negatif olan bir örneğin model tarafından pozitif tahmin edilmesidir. İnceleme kapasitesinin sınırlı olduğu süreçlerde (manuel inceleme, risk ekibi) FP patlaması operasyonu kilitleyebilir.
False Positive Rate (FPR / Yanlış Pozitif Oranı)
Negatiflerin ne kadarının yanlışlıkla pozitif işaretlendiğini ölçer: FP / (FP+TN). ROC eğrisinin temel bileşenidir; güvenlik ve fraud sistemlerinde “alarm gürültüsü”nün nicel ifadesidir.
Fault Tolerance (Hata Toleransı)
Sistem arızalarında (düğüm kaybı, gecikme, kısmi kesinti) hizmetin çalışmaya devam edebilme kapasitesidir. Veri boru hatlarında hata toleransı yoksa küçük bir kesinti büyük veri boşluklarına ve rapor tutarsızlıklarına dönüşür.
Feature (Özellik / Nitelik)
Modelin girdi olarak kullandığı ölçülebilir değişkendir. İyi özellik, hedefle ilişkilidir ama hedefi “sızdırmaz”; aynı zamanda üretimde güvenilir biçimde üretilebilir olmalıdır.
Feature Engineering (Özellik Mühendisliği)
Ham veriden model için daha anlamlı sinyaller türetme sürecidir (oranlar, gecikmeler, etkileşimler, log dönüşümleri). Modern modeller bazı alanlarda bunu azaltır; tabular problemlerde hâlâ en büyük kaldıraçlardan biridir.
Feature Extraction (Özellik Çıkarımı)
Veriden özellik “üretme”nin daha sistematik tarafıdır; özellikle metin/görüntü/sinyal gibi ham veri tiplerinde temsil çıkarımı (TF-IDF, embedding, spektral özellikler) anlamına gelir.
Feature Scaling (Özellik Ölçekleme)
Değişkenleri benzer ölçeğe getirme işlemidir (standardizasyon, min-max). KNN, SVM, lojistik regresyon ve sinir ağları gibi ölçeğe duyarlı yöntemlerde performansı doğrudan etkiler.
Feature Selection (Özellik Seçimi)
Tahmine katkısı düşük veya zararlı özellikleri eleme sürecidir. Amaç yalnızca performans değil; modelin sadeleşmesi, daha az veri bağımlılığı ve üretimde daha az kırılganlıktır.
Feature Importance (Özellik Önem Skoru)
Modelin hangi özellikleri ne kadar kullandığını özetleyen ölçüdür (gain, permutation importance vb.). Önem ≠ nedensellik; korelasyonlu özelliklerde önem paylaşımı yanıltıcı olabilir.
Feature Interaction (Özellik Etkileşimi)
Bir özelliğin etkisinin başka bir özelliğe bağlı değişmesidir. Ağaç tabanlı modeller etkileşimleri doğal yakalayabilir; lineer modellerde etkileşim terimleri açıkça eklenmelidir.
Feature Leakage (Özellik Sızıntısı / Leakage)
Modelin eğitimde hedefe çok yakın veya hedef sonrası bilgiyi dolaylı biçimde kullanmasıdır (ör. “iadeye gitti mi” alanıyla churn tahmini). Offline skorları şişirir; üretimde model “çöker” çünkü aynı bilgi gerçek zamanda yoktur.
Feature Store (Özellik Deposu)
Üretimde özelliklerin tutarlı, izlenebilir ve tekrar kullanılabilir biçimde üretilmesini sağlayan katmandır. Eğitim–servis sapmasını (training-serving skew) azaltır ve özelliklerin “tek doğrusu”nu oluşturur.
Feature Hashing (Özellik Karmaşalama)
Yüksek kardinaliteli kategorileri sabit boyutlu vektöre hash fonksiyonuyla yansıtma tekniğidir. Bellek/performans avantajı sağlar; ancak çakışmalar (collision) bilgi kaybına yol açabilir.
Federated Learning (Federatif Öğrenme)
Veriyi merkeziye taşımadan, cihazlarda/kurumlarda yerinde eğitip yalnızca güncellemeleri birleştirme yaklaşımıdır. Gizlilik ve regülasyon açısından caziptir; fakat heterojen veri, iletişim maliyeti ve saldırı yüzeyi yönetimi zordur.
Feedback Loop (Geri Besleme Döngüsü)
Model çıktılarının gelecekteki veriyi şekillendirmesi durumudur (öneri sistemi → kullanıcı davranışı → yeni eğitim verisi). Döngü yönetilmezse çeşitlilik düşer, bias güçlenir ve model kendi kendini “onaylayan” bir sisteme dönüşür.
Few-shot Learning (Az Örnekle Öğrenme)
Çok az etiketli örnekle anlamlı performans elde etmeyi hedefleyen yaklaşım ailesidir. Genelde güçlü ön-eğitim (pretraining) ve iyi temsil (embedding) gerektirir; veri etiketleme maliyetini düşürmede stratejiktir.
Fidelity (Açıklama Sadakati)
Açıklayıcı yöntemin (SHAP/LIME vb.) gerçek model davranışını ne kadar doğru temsil ettiğini ifade eder. Yüksek sadakat yoksa “güzel görünen açıklama” yanlış güven üretir.
Fine-tuning (İnce Ayar)
Önceden eğitilmiş bir modeli, hedef göreve özel veriyle yeniden eğiterek uyarlama sürecidir. Başarı; veri kalitesi, etiket tutarlılığı ve aşırı uyum riskini yöneten eğitim stratejisine bağlıdır.
Finite Sample (Sonlu Örneklem) Etkisi
Örneklem sayısı sınırlıyken metriklerin ve tahminlerin oynak olması durumudur. A/B testlerinde “erken karar” hatalarının önemli nedeni budur; güven aralığı ve güç analiziyle yönetilir.
Fisher’s Exact Test (Fisher Kesin Testi)
Küçük örneklemlerde 2×2 kontenjans tabloları için kullanılan, ki-kare’ye alternatif bağımsızlık testidir. Nadir olaylarda daha güvenilir olabilir; ancak etki büyüklüğünü ayrı değerlendirmek gerekir.
Fixed Effects (Sabit Etkiler)
Panel veride gözlenemeyen ama zaman içinde sabit kalan birim özelliklerini (kullanıcı, mağaza, ülke) kontrol ederek daha “temiz” ilişki tahmini yapmayı amaçlayan modelleme yaklaşımıdır. Nedensel yorum için varsayımlar net olmalıdır.
Forecasting (Tahminleme / Öngörü)
Zaman içinde değişen bir metriğin gelecekteki değerlerini tahmin etme problemidir. Model başarısı yalnızca hata metriği değil; tahmin ufku, belirsizlik aralığı ve karar süreçlerine entegrasyonla ölçülür.
Forecast Horizon (Tahmin Ufku)
Tahminin ne kadar ileriye yapıldığını ifade eder (1 gün, 4 hafta, 12 ay). Ufuk uzadıkça belirsizlik artar; metrikler ve model seçimi ufka göre değişmelidir.
Fourier Transform (Fourier Dönüşümü)
Zaman alanındaki sinyali frekans bileşenlerine ayırır. Mevsimsellik, periyodiklik ve titreşim örüntülerini yakalamada kullanılır; özellikle sensör verisi ve zaman serisi özellik çıkarımında etkilidir.
FP-Growth
Birliktelik kuralı madenciliğinde sık öğe kümelerini, aday üretimini azaltan bir yapı (FP-tree) üzerinden verimli bulmayı amaçlayan algoritmadır. Büyük veri setlerinde Apriori’ye göre daha ölçeklenebilir olabilir.
Full Outer Join (Tam Dış Birleştirme)
İki tablonun tüm kayıtlarını koruyarak birleştiren SQL join türüdür; eşleşmeyen kayıtlar null ile doldurulur. Veri karşılaştırma ve mutabakat (reconciliation) işlerinde vazgeçilmezdir.
Full Refresh (Tam Yenileme)
Bir veri setini artımlı güncellemek yerine baştan üretip yeniden yazma yaklaşımıdır. Basit ve tutarlı olabilir; fakat maliyetli ve yavaş olduğundan büyük tablolarda dikkatli tasarlanmalıdır.
Funnel Analysis (Huni Analizi)
Kullanıcının adım adım ilerlediği süreçte (ziyaret → sepete ekle → ödeme) hangi aşamada ne kadar kayıp olduğunu ölçer. Tanım (adımlar, pencere süresi) doğru değilse “huni” gerçekte farklı davranışları karıştırır.
Funnel Conversion Rate (Huni Dönüşüm Oranı)
Huninin bir aşamasından bir sonrakine geçenlerin oranıdır. Toplam dönüşümün nerede kaybedildiğini görmeyi sağlar; ancak farklı kullanıcı segmentlerinde huni dinamikleri farklı olabilir.
Fuzzy Matching (Bulanık Eşleştirme)
Tam eşleşmeyen metinleri benzerlik ölçüleriyle (Levenshtein, Jaro-Winkler vb.) eşleştirme yaklaşımıdır. Entity resolution’da çok işe yarar; fakat yanlış eşleşmenin maliyeti yüksekse eşik ve manuel doğrulama kurgusu şarttır.
Fuzzy Clustering (Bulanık Kümeleme)
Bir gözlemin tek bir kümeye “kesin” değil, olasılıksal/üyelik derecesiyle ait olabildiği kümeleme yaklaşımıdır (ör. Fuzzy C-Means). Segmentlerin birbirine karıştığı durumlarda daha gerçekçi olabilir; yorumlama dikkat ister.
Free-form Text (Serbest Metin)
Önceden tanımlı kategorilere girmeyen, kullanıcı tarafından yazılmış metin alanıdır (şikâyet, yorum, destek talebi). Gürültülüdür ama zengindir; NLP boru hattı, gizlilik ve toksisite filtreleriyle ele alınmalıdır.
Fraud Detection (Dolandırıcılık Tespiti)
Nadir olay sınıflandırmasının tipik örneğidir; veri dengesizliği, konsept kayması ve adversarial davranış birlikte görülür. Başarı, yalnızca metrik değil; alarm kalitesi, inceleme kapasitesi ve geri bildirim döngüsünün yönetimidir.
G
Gage R&R (Ölçüm Sistemi Analizi)
Bir ölçüm sisteminin tekrar edilebilirlik (repeatability) ve yeniden üretilebilirliğini (reproducibility) değerlendirir. Veri analitiğinde çoğu hata “model”den önce ölçüm sisteminde başlar; sensör, etiketleme veya operasyonel kayıtların güvenilirliğini test etmek için kritik bir yaklaşımdır.
Gain (Kazanç)
(1) Karar ağaçlarında bir bölmenin saflığı ne kadar artırdığını ölçen bilgi kazancı. (2) Modelleme/ürün kararlarında, bir aksiyonun getirdiği net fayda. Hangi bağlamda kullanıldığı belirtilmezse yanlış anlaşılır.
Gamma Distribution (Gama Dağılımı)
Pozitif, sağa çarpık (right-skewed) sürekli değişkenleri modellemek için kullanılır (bekleme süreleri, ödeme tutarları gibi). Kuyruk davranışı önemli olan metriklerde log-normal ile birlikte sık adaydır.
Gap Analysis (Boşluk Analizi)
Mevcut durum ile hedef durum arasındaki farkı ölçme yaklaşımıdır. Veri ürünlerinde; kapsanmayan kullanıcı segmentleri, eksik veri alanları veya ölçülmeyen süreç adımlarını görünür kılmak için kullanılır.
Gaussian Distribution (Normal Dağılım)
Ortası simetrik çan eğrisi dağılımıdır. Birçok istatistiksel yöntemin varsayımı olarak görünür; ancak gerçek dünya verisi sıkça çarpık ve kuyrukludur, bu yüzden “normal varsayımı” otomatik kabul edilmemelidir.
Gaussian Mixture Model (GMM)
Verinin birden fazla normal dağılımın karışımı olarak modellenmesidir. Kümeleme ve yoğunluk tahmini için kullanılır; k-means’e göre daha esnektir çünkü kümelere olasılıksal üyelik verir.
Gaussian Process (Gauss Süreci)
Fonksiyonlar üzerinde olasılıksal prior tanımlayan, belirsizliği doğal biçimde üreten model ailesidir. Bayesyen optimizasyonda sık kullanılır; yüksek boyut ve büyük veri ölçeğinde maliyeti artabilir.
Generalization (Genelleme)
Modelin eğitimde görmediği yeni veride de iyi performans gösterebilmesidir. “Test skoru” bir göstergedir; ancak dağılım kayması, geri besleme döngüsü ve veri kalitesi bozulmaları üretimde genellemeyi zayıflatabilir.
Generalization Error (Genelleme Hatası)
Modelin gerçek dünyadaki beklenen hatasıdır; eğitim hatasından farklıdır. İyi doğrulama şeması (time split, group split) kullanılmazsa genelleme hatası sistematik olarak hafife alınır.
Generative Model (Üretici Model)
Verinin nasıl üretildiğine dair olasılıksal bir model kurup yeni örnek üretebilen yaklaşım ailesidir (VAE, GAN, diffusion vb.). Veri artırma ve sentetik veri üretimi için kullanılır; ancak sentetik veri bias’ı taşıyabilir.
Gini Impurity (Gini Safsızlığı)
Karar ağaçlarında düğüm saflığını ölçen kriterlerden biridir. Saflık arttıkça safsızlık düşer; bölme seçimi Gini veya entropi gibi ölçütlerle yapılabilir.
Gini Coefficient (Gini Katsayısı)
Eşitsizlik ölçüsü olarak bilinir; veri analitiğinde dağılımın ne kadar “konsantre” olduğunu anlatmak için de kullanılır (gelirin belli kullanıcıya yığılması gibi). Sadece tek sayı olarak okunmamalı; dağılım grafikleriyle desteklenmelidir.
Global Optimum (Küresel Optimum)
Bir hedef fonksiyonun tüm arama uzayındaki en iyi çözümüdür. Derin öğrenmede çoğu zaman yerel/platoya yakın çözümlerle çalışılır; pratikte hedef, iyi genelleyen “yeterince iyi” çözümdür.
Gradient (Gradyan)
Bir fonksiyonun parametrelerine göre türev vektörüdür; optimizasyonun yön bilgisini sağlar. Gradyan tabanlı öğrenmenin kalitesi, öğrenme oranı ve kayıp yüzeyinin koşulluluğuna (conditioning) bağlıdır.
Gradient Boosting (Gradyan Artırma)
Hataları ardışık olarak düzeltmek için zayıf öğrenicileri ekleyerek güçlü model oluşturma yaklaşımıdır (XGBoost, LightGBM, CatBoost). Tabular veride sıklıkla en güçlü baseline’dır; ancak overfitting ve leakage kontrolü şarttır.
Gradient Clipping (Gradyan Kırpma)
Eğitim sırasında çok büyük gradyanları sınırlayarak gradyan patlamasını önleme tekniğidir. Özellikle RNN/Transformer eğitiminde stabiliteyi artırır; aşırı kırpma öğrenmeyi yavaşlatabilir.
Gradient Descent (Gradyan İnişi)
Kayıp fonksiyonunu minimize etmek için parametreleri gradyanın ters yönünde güncelleyen optimizasyon yöntemidir. Varyantları (SGD, momentum, Adam) pratikte daha çok kullanılır.
Graph Analytics (Graf Analitiği)
Düğümler ve kenarlardan oluşan ilişkisel yapılarda (sosyal ağ, tedarik zinciri, fraud ağları) analitik yapma disiplinidir. Merkeziyet (centrality), topluluk keşfi (community detection) ve link prediction gibi görevler içerir.
Graph Database (Graf Veri Tabanı)
Veriyi ilişkiler üzerinden depolayan ve sorgulayan veri tabanı türüdür. Çok ilişkili problemlerde (fraud ring, bilgi grafı) join patlamasını azaltabilir; ancak her analitik iş yükü için gerekli değildir.
Graph Embedding (Graf Gömleme)
Graf düğümlerini vektörlere dönüştürerek benzerlik ve tahmin görevlerinde kullanılmasını sağlar (node2vec vb.). Fraud ağ analizi ve öneri sistemlerinde güçlü bir temsil tekniğidir.
Graph Neural Network (GNN)
Graf yapısındaki veride, düğüm komşuluklarından bilgi toplayarak öğrenen sinir ağı ailesidir. İlişki sinyali güçlü olduğunda klasik tabular modellere göre avantaj sağlayabilir; veri hazırlığı ve ölçeklenebilirlik zorludur.
Great Expectations (Veri Kalite Test Mantığı)
Bir ürün adı olarak bilinse de pratikte “veri için test yazma” yaklaşımının sembolüdür. Beklenen null oranı, aralık, benzersizlik gibi kontrollerle veri hattının kırılmasını erken yakalamaya yarar.
Greedy Algorithm (Açgözlü Algoritma)
Her adımda o an için en iyi görünen seçimi yapan algoritma yaklaşımıdır. Hızlıdır ama küresel optimum garantisi vermez; örneğin feature selection veya bazı optimizasyon problemlerinde alt-optimal çözüme saplanabilir.
Grid Search (Izgara Araması)
Hiperparametreleri önceden belirlenen bir ızgarada deneyerek en iyi kombinasyonu bulma yaklaşımıdır. Basittir ama pahalıdır; parametre sayısı arttıkça kombinatoryal patlama yaşanır, random search veya Bayesyen optimizasyon daha verimli olabilir.
GroupBy (Gruplama İşlemi)
Veriyi bir anahtara göre gruplayıp agregasyon alma işlemidir (SQL GROUP BY, pandas groupby). Analitik raporların bel kemiğidir; ancak yanlış granülarite veya yanlış join sonrası groupby, sahte metrik üretebilir.
Group K-Fold (Grup Bazlı Çapraz Doğrulama)
Aynı gruba ait örneklerin (aynı kullanıcı, aynı cihaz) hem eğitim hem testte bulunmasını engelleyerek sızıntıyı azaltan doğrulama şemasıdır. Özellikle kullanıcı davranışı verisinde standart k-fold yerine daha güvenilirdir.
Guardrail Metric (Korkuluk Metriği)
Deneylerde ana metrik iyileşirken ürün sağlığını bozabilecek yan etkileri yakalamak için izlenen metriklerdir (refund oranı, hata oranı, şikâyet). “Kazandık” demeden önce guardrail’ler kontrol edilir.
Guided Analysis (Yönlendirmeli Analiz)
Serbest keşfin yerine, önceden tanımlı hipotez ve karar sorularıyla analizi yönlendirme yaklaşımıdır. Özellikle paydaş iletişiminde “bulduğumuz şeyi anlatmak” yerine “soruyu cevaplamak” için etkilidir.
Gumbel Distribution (Gumbel Dağılımı)
Aşırı değerlerin (maksimum/minimum) dağılımını modelleyen dağılımdır. Kuyruk riskleri ve ekstrem olay analizi (yük testi, taşma senaryoları) gibi alanlarda kullanılabilir.
Guidelines (Etiketleme Yönergeleri)
Etiketleme sürecinde sınıfların tanımını, örneklerini ve sınır durumlarını belirleyen dokümandır. Yönergeler zayıfsa etiketler tutarsızlaşır; model de tutarsız öğrenir.
H
Hadoop Ekosistemi
Büyük veriyi dağıtık dosya sistemi (HDFS) ve paralel işlem (MapReduce ekosistemi) mantığıyla işlemek için tasarlanmış açık kaynaklı bir çerçeve ailesidir. Modern bulut ekosisteminde farklı çözümler popülerleşse de, “dağıtık veri işleme” düşüncesinin tarihsel temel taşlarından biridir.
Hamming Distance (Hamming Uzaklığı)
Aynı uzunluktaki iki dizide (bit dizisi, karakter dizisi) farklı olan pozisyon sayısıdır. Özellikle ikili vektörler, hata düzeltme kodları ve bazı hızlı benzerlik aramalarında kullanılır.
Harmonic Mean (Harmonik Ortalama)
Oranların ortalamasını almak için uygun olan ortalama türüdür. F1 skorunun temeli harmonik ortalamadır; çünkü precision/recall gibi oranlarda “aşırı büyük” değerleri değil, düşük tarafı daha çok cezalandırır.
Hash Function (Hash Fonksiyonu)
Bir girdiyi sabit uzunlukta bir çıktıya dönüştürür. Veri mühendisliğinde bölümleme (partitioning), kimlik eşleştirme, caching ve feature hashing gibi birçok işte kullanılır; çakışma (collision) riski tasarımda hesaba katılmalıdır.
Hash Join
Join işlemini hızlandırmak için bir tablonun anahtarlarını hash tablosu yapıp diğer tabloyu bu yapıyla eşleyen algoritmik yaklaşımdır. Büyük ölçekli analitik motorlar bu prensibi kullanır; bellek yönetimi ve veri dağılımı performansı belirler.
Hashing Trick (Hashing Yöntemi)
Yüksek kardinaliteli özellikleri sabit boyutlu uzaya hash ile yansıtarak bellek ve eğitim maliyetini düşürme tekniğidir. Özellikle metin özellikleri ve büyük kategorik alanlarda işe yarar; collision’lar kontrol edilmelidir.
HDFS (Hadoop Distributed File System)
Büyük dosyaları dağıtık düğümler üzerinde yedekli biçimde depolayan dosya sistemi yaklaşımıdır. “Büyük veri depolama” fikrinin temel örneklerindendir; modern lake mimarilerindeki nesne depolama mantığıyla bazı paralellikler taşır.
Heatmap (Isı Haritası)
Değer yoğunluğunu renk yoğunluğuyla gösteren görselleştirme türüdür. Korelasyon matrisleri, kullanıcı davranışı (tıklama haritası) ve coğrafi yoğunluk analizlerinde hızlı içgörü sağlar; ölçek ve normalizasyon yanlışsa yanıltabilir.
Heteroscedasticity (Değişen Varyans)
Hata teriminin varyansının sabit olmaması durumudur. Lineer regresyonda standart hata tahminlerini bozar; robust standart hatalar veya dönüşümler (log) ile yönetilebilir.
Heuristic (Sezgisel Kural)
Kesin optimizasyon garantisi vermeden, pratikte işe yarayan hızlı kural yaklaşımıdır. Veri ürünlerinde sık görülür (baseline öneri, filtreleme); fakat sezgisel kurallar “sessiz bias” taşıyabilir, izlenmelidir.
Hidden Layer (Gizli Katman)
Sinir ağlarında giriş ve çıkış katmanı arasında yer alan katmanlardır. Temsil gücünü artırır; fakat katman sayısı/artışı, veri miktarı ve düzenlileştirme olmadan overfitting’i büyütebilir.
Hidden Markov Model (HMM)
Gözlenen verinin, gözlenemeyen (gizli) durumların Markov zinciriyle yönetildiği olasılıksal modeldir. Konuşma tanıma, davranış durum modelleme, anomali tespiti gibi alanlarda kullanılır.
Hierarchical Clustering (Hiyerarşik Kümeleme)
Örnekleri bir dendrogram (ağaç) yapısıyla, alt kümelerden üst kümelere doğru (agglomerative) veya tersi (divisive) kümeleyen yöntemdir. Küme sayısını sonradan kesme noktasına göre seçmek mümkündür; ölçek büyüdükçe maliyet artar.
Hierarchical Model (Hiyerarşik Model)
Parametrelerin gruplar arasında paylaşıldığı ve üst düzey dağılımlarla bağlandığı model ailesidir. Segment bazlı tahminlerde, veri az olan grupların aşırı uç tahminlerini yumuşatır (partial pooling).
Histogram (Histogram)
Sayısal bir değişkenin dağılımını aralıklara (bin) bölerek gösteren temel EDA aracıdır. Bin sayısı ve aralık seçimi, dağılım yorumunu dramatik etkiler; otomatik seçimler her zaman doğru değildir.
Holdout Set (Ayrılmış Test Seti)
Model eğitimi ve doğrulama dışında tutulan, en son “gerçekçi” performans ölçümü için ayrılmış veri alt kümesidir. Holdout set’e defalarca bakmak dolaylı overfitting (test leakage) yaratır.
Horizon (Ufuk)
Genelde tahminleme bağlamında “ne kadar ileri”yi ifade eder (forecast horizon). Ufuk uzadıkça belirsizlik artar; hata metrikleri ve model seçimi ufka göre değişmelidir.
Hot Path (Sıcak Yol / Kritik Yol)
Üretimde en sık çalışan veya gecikmeye en hassas işlem hattıdır (ör. gerçek zamanlı öneri). Hot path üzerinde karmaşık modeller/yoğun join’ler maliyeti artırır; caching ve basitleştirme stratejileri önem kazanır.
Hot Spot (Sıcak Nokta)
(1) Veri altyapısında: Trafiğin veya yükün yoğunlaştığı düğüm/partition. (2) Analitikte: Anomali veya yoğunlaşma görülen bölge/segment. Altyapıda ölçekleme, analitikte ise kök neden analizi gerektirir.
Housekeeping (Bakım İşleri)
Veri sistemlerinde düzenli temizlik ve bakım faaliyetleridir: eski partition’ları silme, indeks/istatistik güncelleme, log arşivleme, maliyet optimizasyonu. Yapılmazsa performans ve maliyet “sinsi” biçimde bozulur.
Hub-and-Spoke (Merkez–Kollar Modeli)
Veri mimarisinde bir “merkez” katman (lake/warehouse) ve ona bağlı tüketim katmanları (mart, servis, dashboard) yaklaşımıdır. Ölçeklenebilirlik sağlar; ancak merkezdeki şema ve yönetişim zayıfsa tüm sistem etkilenir.
Hyperparameter (Hiperparametre)
Modelin eğitim sırasında öğrenmediği; insan/arama algoritması tarafından seçilen ayarlardır (ağaç derinliği, öğrenme oranı, regularization katsayısı). Hiperparametre araması doğru doğrulama şemasıyla yapılmazsa sahte optimum bulunur.
Hyperparameter Tuning (Hiperparametre Ayarlama)
Hiperparametreleri performansa göre optimize etme sürecidir (grid/random/Bayesyen). Aynı veriye tekrar tekrar ayarlamak “validation overfitting” riskini doğurur; nested CV veya sağlam holdout stratejileri önemlidir.
Hypothesis (Hipotez)
Test edilebilir bir iddiadır (örn. “Yeni onboarding adımı aktivasyonu artırır”). İyi hipotez ölçülebilir metrik, hedef popülasyon ve beklenen etki yönü içerir; aksi halde analiz “bulduğunu gerekçelendirme”ye döner.
Hypothesis Testing (Hipotez Testi)
Veriden elde edilen bulgunun rastlantı mı yoksa sistematik etki mi olduğuna dair istatistiksel karar çerçevesidir. p-değeri eşikçiliği tek başına yeterli değildir; etki büyüklüğü ve belirsizlikle birlikte okunmalıdır.
H-index (h İndeksi)
Bir araştırmacının en az h adet yayınının en az h atıf aldığı şekilde tanımlanan bibliyometrik ölçüdür. Veri analitiği açısından “tek sayı”yla performans ölçmenin sınırlılıklarına iyi bir örnektir; alan farkları ve atıf dinamikleri nedeniyle dikkatli yorumlanmalıdır.
Hampel Filter (Hampel Filtresi)
Zaman serilerinde aykırı değerleri, medyan ve medyan mutlak sapma (MAD) ile robust biçimde tespit eden yöntemdir. Sensör verisinde gürültü ve spike temizlemede pratik bir araçtır.
Haversine Distance (Haversine Uzaklığı)
Dünya üzerindeki iki nokta arasındaki büyük daire mesafesini (küresel geometri) hesaplar. Konum analitiğinde (teslimat, mobil hareket) doğru mesafe metriği için kullanılır; düzlem varsayımı yapan Öklid uzaklığı burada hata üretir.
Heterogeneous Data (Heterojen Veri)
Farklı tür ve yapıda verinin birlikte bulunmasıdır (tabular + metin + görüntü + log). Birleştirme sürecinde şema, zaman hizası ve kimlik çözümleme (entity resolution) en büyük zorluklardır.
Human-in-the-Loop (İnsan Döngüde)
Modelin kararını tamamen otomatik vermek yerine; belirsiz durumlarda insan incelemesiyle karar vermek veya insan geri bildirimiyle modeli iyileştirmek yaklaşımıdır. Yüksek riskli alanlarda (fraud, sağlık, hukuk) en güvenli operasyon modelidir.
Hyperscale (Aşırı Ölçek / Hiperskal)
Çok büyük veri hacmi ve trafik altında çalışan sistemlerin ölçekleme yaklaşımıdır. Hyperscale ortamda “küçük verimsizlikler” bile büyük maliyet doğurur; veri modeli, partitioning ve caching stratejileri kritikleşir.
I-İ
IaaS (Infrastructure as a Service / Hizmet Olarak Altyapı)
Sunucu, depolama ve ağ gibi altyapı bileşenlerinin bulut üzerinden kiralanması modelidir. Veri bilimi ekipleri için esneklik sağlar; ancak maliyet yönetimi, veri güvenliği ve kaynak ölçekleme stratejisi iyi tasarlanmazsa “kolay başlayan, pahalı biten” bir altyapıya dönüşebilir.
IID Varsayımı (Independent and Identically Distributed)
Gözlemlerin birbirinden bağımsız ve aynı dağılımdan geldiği varsayımıdır. Pek çok istatistiksel yöntem ve doğrulama yaklaşımı bu varsayıma yaslanır; zaman serisi, kullanıcı bazlı tekrar ölçümler veya ağ verilerinde IID çoğu zaman bozulur ve değerlendirme şeması buna göre değiştirilmelidir.
Imbalanced Dataset (Dengesiz Veri Seti)
Sınıfların sayıca belirgin biçimde eşit olmadığı veri setidir (fraud gibi). Bu durumda accuracy aldatıcı olabilir; PR-AUC, recall/precision dengesi, maliyet duyarlı öğrenme ve doğru örnekleme stratejileri daha doğru karar verir.
Imbalance Ratio (Dengesizlik Oranı)
Azınlık sınıfının çoğunluk sınıfına oranıdır (örn. 1:500). Hangi metriklerin anlamlı olacağını, hangi örnekleme/weighting stratejisinin makul olduğunu ve modelin üretimde nasıl alarm üreteceğini doğrudan etkiler.
Immutability (Değişmezlik)
Bir veri kaydının yazıldıktan sonra değiştirilmemesi prensibidir (append-only/event log yaklaşımı). İzlenebilirliği ve denetimi güçlendirir; fakat düzeltmelerin “yeni kayıt” olarak tasarlanması gerekir (backfill + versiyonlama ile birlikte düşünülür).
In-sample / Out-of-sample (Örneklem İçi / Örneklem Dışı)
In-sample performans, modelin eğitim gördüğü verideki başarıdır; out-of-sample ise görmediği verideki başarıdır. Gerçek değer çoğu zaman out-of-sample’dır; in-sample’a fazla odaklanmak overfitting’i gizler.
Incremental Load (Artımlı Yükleme)
Veriyi baştan yazmak yerine sadece yeni/değişen parçayı hedef sisteme taşıma yaklaşımıdır. Büyük veri hacimlerinde maliyeti düşürür; ancak “değişen kayıt” tanımı (CDC, watermark, event time) net değilse veri tutarlılığı bozulur.
Incremental Learning (Artımlı Öğrenme)
Modeli sıfırdan yeniden eğitmek yerine yeni veri geldikçe güncelleyerek öğrenme yaklaşımıdır. Drift’e daha hızlı tepki verir; fakat geri besleme döngüsü, veri kalite düşüşü ve “modelin ne zaman resetleneceği” gibi yönetişim kararları kritikleşir.
Index (Veri Tabanı İndeksi)
Sorguları hızlandırmak için belirli alanlarda arama yapmayı kolaylaştıran veri yapısıdır. Analitik sistemlerde doğru indeksleme maliyeti dramatik düşürür; yanlış indeks ise yazma maliyetini artırır ve depolamayı şişirir.
Indexing (İndeksleme)
Veri tabanında indeks oluşturma veya arama sistemlerinde dokümanları ters indeksle erişilebilir hale getirme işlemidir. Arama/keşif ürünlerinde indeksleme kalitesi; bulunabilirlik (recall), gecikme ve güncellik (freshness) dengesini belirler.
Inductive Bias (İndüktif Önyargı)
Modelin “öğrenmeye eğilimli olduğu” varsayımlar/ön kabuller bütünüdür (lineerlik varsayımı, pürüzsüzlük, ağaçların bölme mantığı vb.). Doğru inductive bias az veride bile güçlü genelleme sağlar; yanlış bias, ne kadar veri olursa olsun tavan performansı düşürebilir.
Inference (Çıkarım)
(1) İstatistikte: parametre/etki hakkında belirsizlikle birlikte sonuç çıkarma. (2) ML’de: eğitilmiş modelle tahmin üretme süreci. Hangi anlamda kullanıldığı netleştirilmezse “inference” tartışmaları (latency mi, istatistiksel kanıt mı?) karışır.
Inference Latency (Çıkarım Gecikmesi)
Modelin bir girdiye tahmin üretme süresidir. Gerçek zamanlı sistemlerde (öneri, fraud) gecikme doğrudan ürün deneyimini etkiler; bu yüzden model boyutu, feature hesaplama süresi ve caching birlikte optimize edilir.
Information Gain (Bilgi Kazancı)
Karar ağaçlarında bir bölmenin sınıf saflığını ne kadar artırdığını ölçen kriterdir (entropi azalımı). Yanlış yorumlanırsa “en yüksek gain = en önemli özellik” gibi hatalı çıkarımlar yapılabilir; gain, o ağaç ve o bölme bağlamında yereldir.
Information Leakage (Bilgi Sızıntısı)
Modelin eğitimde, tahmin anında mevcut olmayan bilgiyi dolaylı biçimde kullanmasıdır (target leakage’in daha geniş şemsiyesi). Offline skorlar şişer; üretimde performans çöker. Sızıntı çoğu zaman yanlış join, yanlış zaman penceresi veya “gelecek bilgisi” içeren feature’lardan gelir.
Ingestion (Veri Alımı / İçeri Alma)
Verinin kaynak sistemlerden lake/warehouse gibi hedef sistemlere alınması sürecidir. Hata toleransı, yeniden çalıştırma (replay), şema evrimi ve gecikmeli veri (late data) yönetimi ingestion katmanında doğru kurgulanmalıdır.
Initialization (Başlatma / Ağırlık Başlatma)
Model eğitimine başlarken parametrelerin başlangıç değerlerinin belirlenmesidir. Özellikle derin öğrenmede yanlış başlatma gradyan sönmesi/patlaması riskini artırır; uygun başlatma, eğitimin stabilitesini ciddi ölçüde etkiler.
Inner Join (İç Birleştirme)
Sadece iki tabloda da eşleşen kayıtları tutan join türüdür. Analitikte “kayıp kayıt” üretme riski yüksektir: yanlış anahtar veya kirli veri nedeniyle eşleşmeyen satırlar sessizce elenir ve metrikler fark edilmeden değişebilir.
Instance (Örnek / Gözlem)
Modelin gördüğü tek bir veri noktasıdır (bir kullanıcı-satır, bir işlem, bir görüntü). Özellikle grup yapılı verilerde (kullanıcı başına çok satır) “instance bağımsızlığı” varsayımı bozulabilir; doğrulama şeması buna göre seçilmelidir.
Instrumental Variable (IV / Araç Değişken)
Nedensel analizde içsellik (endogeneity) sorununu azaltmak için kullanılan yöntem ailesinin temel bileşenidir. IV; müdahaleyi etkiler, sonucu yalnızca müdahale üzerinden etkiler (exclusion restriction) varsayımıyla çalışır; iyi IV bulmak zor ama bulunduğunda güçlüdür.
Interaction Term (Etkileşim Terimi)
Bir değişkenin etkisinin başka bir değişkene bağlı olduğunu modele ekleyen terimdir (X*Z gibi). Lineer modellerde etkileşimler açıkça yazılmadığında model, gerçekte var olan sinyali kaçırabilir.
Interpolation (Ara Değerleme)
Gözlenen noktalar arasındaki değerleri tahmin etme işlemidir. Zaman serisinde eksik değer doldurmada kullanılır; fakat hızlı değişen süreçlerde ara değerleme “olmayan veriyi varmış gibi” gösterip hatayı gizleyebilir.
Interpretability (Yorumlanabilirlik)
Modelin karar mantığının insan tarafından anlaşılabilir olmasıdır (global: model genel davranışı; lokal: tek tahmin gerekçesi). Yorumlanabilirlik, açıklanabilirlik araçlarından ayrı bir hedeftir: bazı modeller doğası gereği yorumlanabilir, bazıları sonradan açıklama ister.
Interquartile Range (IQR / Çeyrekler Arası Aralık)
Q3 – Q1 farkıdır; dağılımın orta %50’sinin yayılımını verir. Aykırı değer tespitinde (Q1–1.5IQR, Q3+1.5IQR) pratik bir robust ölçüdür; ancak çok çarpık dağılımlarda tek başına yeterli olmayabilir.
Interval Estimation (Aralık Tahmini)
Tek bir nokta tahmini yerine belirsizliği aralıkla ifade etme yaklaşımıdır (tahmin aralığı, güven aralığı). Özellikle karar maliyetleri yüksekse “kaç?” kadar “ne kadar emin?” sorusu da raporlanmalıdır.
Inverse Propensity Scoring (IPS / Ters Eğilim Skorlaması)
Özellikle öneri ve deneysel olmayan (gözlemsel) log verilerinde, seçim yanlılığını düzeltmeye çalışan ağırlıklandırma yaklaşımıdır. Propensity (seçilme olasılığı) yanlış tahmin edilirse IPS varyansı patlayabilir; stabilizasyon ve klipleme pratikte sık kullanılır.
Isotonic Regression (İzotonik Regresyon)
Monotonik (artan/azalan) ilişki varsayımıyla kalibrasyon veya sıralama problemlerinde kullanılan yöntemdir. Sınıflandırma olasılık kalibrasyonunda güçlüdür; ancak veri azsa aşırı uyum riski vardır.
Isolation Forest (İzolasyon Ormanı)
Anomali tespitinde kullanılan, noktaları rastgele bölmelerle “izole etme” fikrine dayanan yöntemdir. Etiket gerektirmez ve ölçeklenebilirdir; fakat “anomali” tanımı bağlamsal olduğundan, sonuçlar mutlaka iş kuralları ve hata maliyetiyle birlikte doğrulanmalıdır.
J
Jaccard Benzerliği (Jaccard Similarity)
İki kümenin kesişiminin birleşimine oranıdır: |A∩B| / |A∪B|. Özellikle etiket/özellik seti karşılaştırmalarında, öneri sistemlerinde (benzer ürün listeleri) ve metin madenciliğinde (shingle’lar üzerinden) pratik bir benzerlik ölçüsüdür; seyrek (sparse) veride iyi çalışır.
Jackknife (Jackknife Yeniden Örnekleme)
Bir istatistiğin (ortalama, AUC, regresyon katsayısı vb.) kararlılığını ölçmek için her seferinde bir gözlemi dışarıda bırakıp hesaplamayı tekrarlayan yeniden örnekleme tekniğidir. Bootstrap’a göre daha deterministik ve hızlı olabilir; ancak bazı karmaşık metriklerde belirsizliği olduğundan küçük gösterebilir.
Jarque–Bera Testi
Bir dağılımın normal dağılıma uygunluğunu, çarpıklık (skewness) ve basıklık (kurtosis) üzerinden test eden istatistiksel yöntemdir. Regresyon artıklarının normalliğini kontrol etmekte kullanılır; büyük örneklemlerde küçük sapmalar bile “anlamlı” çıkabildiği için görsel kontrollerle (QQ-plot) birlikte değerlendirilmelidir.
JDBC (Java Database Connectivity)
Uygulamaların veri tabanlarına bağlanmak için kullandığı standart bağlantı arayüzüdür. Veri mühendisliği işlerinde (özellikle Spark, bazı ETL araçları ve kurumsal entegrasyonlarda) veri çekme/yazma katmanının temel yapı taşlarından biri olarak karşınıza çıkar.
Jensen–Shannon Divergence (JSD)
İki olasılık dağılımı arasındaki farkı ölçen, KL divergence’a göre daha simetrik ve genelde daha stabil bir ayrışma ölçüsüdür. Veri drift ölçümünde “eğitim dağılımı vs üretim dağılımı” kıyaslamak için kullanışlıdır; 0’a yaklaştıkça dağılımlar benzerleşir.
Jitter (Titrerlik / Rastgele Sapma Ekleme)
Görselleştirmede üst üste binen noktaları ayrıştırmak için noktalara küçük rastgele sapma ekleme tekniğidir. EDA’da özellikle yoğun nokta yığınlarında (scatter plot) yapıyı görünür kılar; ancak sapma miktarı abartılırsa yanlış desen algısı oluşturabilir.
JIT Derleme (Just-in-Time Compilation)
Kodun çalışırken derlenip optimize edilmesi yaklaşımıdır. Veri analitiğinde; bazı kütüphaneler (özellikle sayısal hesaplama hızlandırıcıları) JIT ile hız kazanır. Performans darboğazı CPU-bound ise kritik fark yaratabilir; IO-bound işlerde etkisi sınırlıdır.
JMESPath
JSON benzeri yapıların içinden alan seçmek, filtrelemek ve dönüştürmek için sorgu dili yaklaşımıdır. Veri mühendisliğinde API çıktılarıyla çalışırken (iç içe JSON’lar) “ham veriden doğru alanı çekme” aşamasını temizleştirir.
Job (İş)
Dağıtık veri işleme sistemlerinde (Spark job, batch job vb.) belirli bir hesaplamanın/akışın çalıştırılabilir birimi. Bir job’un maliyeti sadece hesaplama değil; okuma-yazma, shuffle, network ve kaynak planlamasıyla birlikte değerlendirilir.
Job Queue (İş Kuyruğu)
İşlerin sıraya alınıp belirli kapasiteyle tüketildiği mekanizmadır. Üretimde iş kuyruğu, ani yük artışlarında sistemi korur; fakat kuyruk büyümesi gecikmeyi artırır, bu yüzden izleme ve backpressure stratejisi gerekir.
Job Scheduling (İş Zamanlama)
İşlerin ne zaman ve hangi bağımlılıklarla çalışacağını belirleme sürecidir (örn. günlük ETL, saatlik rapor güncelleme). Yanlış zamanlama, upstream veri geç gelirken downstream işlerin boş/eksik veriyle çalışmasına yol açar; watermark ve bağımlılık yönetimi kritikleşir.
Join (Birleştirme)
İki (veya daha fazla) veri setini ortak anahtar(lar) üzerinden bir araya getirme işlemidir. Join, analitiğin en yaygın “sessiz hata” kaynağıdır: yanlış anahtar, farklı granülarite veya many-to-many birleşmeler metrikleri şişirebilir ya da düşürebilir.
Join Key (Birleştirme Anahtarı)
Join işlemini yapan ortak alan(lar)dır (user_id, order_id vb.). Sağlam join key; benzersizlik, tutarlılık ve veri sözlüğüyle garanti altına alınmalıdır. Anahtar kalitesi zayıfsa “doğru join” teknik olarak mümkün olsa bile analitik olarak yanlış sonuç üretir.
JSON (JavaScript Object Notation)
Yapılandırılmış veri taşımak için kullanılan, insan okunabilir format. API’lerin büyük kısmı JSON döndürür; veri analitiğinde en büyük zorluk genelde JSON’un kendisi değil, iç içe (nested) yapının düzleştirilmesi ve şema evrimidir.
JSON Lines (JSONL / NDJSON)
Her satırı ayrı bir JSON nesnesi olan satır-bazlı formattır. Akış (streaming) ve büyük log dosyalarında işlenmesi kolaydır; ayrıca parçalı okuma-yazma (append) senaryolarında klasik tek JSON dosyasına göre daha dayanıklıdır.
Junction Table (Ara Tablo)
İlişkisel veri tabanlarında many-to-many ilişkiyi temsil eden tablodur (örn. kullanıcı–ilgi alanı). Analitik join’lerde metrik şişmesinin tipik kaynaklarından biridir; ara tablodaki granülarite ve benzersizlik kuralları netleştirilmeden yapılan birleşmeler hatalı sonuç doğurabilir.
Jupyter Notebook
Kod, çıktı ve açıklamayı tek yerde birleştiren etkileşimli çalışma ortamıdır. Keşifsel analiz ve prototipleme için çok verimlidir; ancak üretimleştirme aşamasında sürümleme, test edilebilirlik ve tekrarlanabilirlik için notebook’ların paket/kod yapısına taşınması gerekir.
K
K-anonimlik (k-anonymity)
Bir veri setinde her bir kaydın, seçilen “tanımlayıcı özellikler” (quasi-identifiers: yaş, posta kodu, cinsiyet vb.) açısından en az k-1 başka kayıtla ayırt edilemez olmasını hedefleyen gizlilik ölçütüdür. K-anonimlik tek başına her zaman yeterli değildir; özellikle aynı grup içinde hassas değerin tekilleştiği durumlarda (homojenlik) ek önlemler gerekir.
K-kat Çapraz Doğrulama (K-fold Cross-Validation)
Veriyi k parçaya bölüp her seferinde bir parçayı test, kalanını eğitim yaparak performansı k turda ölçme yaklaşımıdır. Amaç tek bir bölmenin şansına bağlı kalmadan daha sağlam genelleme tahmini almaktır; zaman serisi ve grup yapılı verilerde “rastgele k-fold” yerine uygun split türü seçilmelidir.
K-en Yakın Komşu (KNN – k-Nearest Neighbors)
Bir örneği, özellik uzayında en yakın k komşusunun çoğunluğuna (sınıflandırma) veya ortalamasına (regresyon) göre tahmin eden yöntemdir. Basit ve güçlü bir baseline olabilir; ancak ölçekleme şarttır ve yüksek boyutta (boyutsallık laneti) mesafe anlamını kaybedebilir.
K-ortalama Kümeleme (K-means)
Veriyi k adet kümeye ayırırken “küme içi kareler toplamını” minimize etmeye çalışan kümeleme algoritmasıdır. Hızlıdır ama küresel optimum garantisi yoktur; başlangıç noktalarına duyarlıdır ve kümelerin küresel/benzer yoğunlukta olduğu varsayımıyla daha iyi çalışır.
Kappa İstatistiği (Cohen’s Kappa)
İki değerlendiricinin (veya model–insan etiketlerinin) uyumunu, rastlantısal uyuşmayı düşerek ölçen metriktir. Özellikle sınıf dengesizliğinde “basit doğruluk” yanıltıcıyken, kappa daha gerçekçi bir uyum resmi sunabilir; yine de sınıf dağılımına duyarlıdır.
Kaplan–Meier Tahmincisi (Kaplan–Meier Estimator)
Sansürlü veride (olay henüz gerçekleşmemiş gözlemler) “hayatta kalma olasılığı”nı zamana göre tahmin eden yöntemdir. Churn süresi, abonelikte kalma ve arıza zamanı gibi problemler için temel bir araçtır.
Kalman Filtresi (Kalman Filter)
Zaman içinde evrilen bir sistemin gizli durumunu, gürültülü ölçümlerden optimal biçimde tahmin etmeyi amaçlayan filtrasyon yöntemidir. Sensör füzyonu, konum takibi ve zaman serisi düzeltme (smoothing) gibi alanlarda yaygındır; model varsayımları (doğrusallık, Gauss gürültüsü) önemlidir.
Kanonikleştirme (Canonicalization)
Aynı anlama gelen farklı temsilleri tek bir standart forma dönüştürme işlemidir (şehir adları, tarih formatları, Unicode normalizasyonu). Analitik doğruluk ve join başarısı için kritik bir “sessiz kalite” adımıdır.
Kernel (Çekirdek Fonksiyonu)
Veriyi daha yüksek boyutlu bir uzaya “örtük” taşıyıp doğrusal ayırımı mümkün kılan benzerlik fonksiyonudur (RBF, polinom vb.). SVM gibi yöntemlerde ayrım gücünü artırır; ancak kernel seçimi ve hiperparametreleri performansı belirler.
Kernel Density Estimation (KDE / Çekirdek Yoğunluk Tahmini)
Bir değişkenin olasılık yoğunluğunu, belirli bir dağılım varsaymadan pürüzsüz biçimde tahmin eden non-parametrik yöntemdir. Dağılım şekli, çok modluluk ve kuyruk davranışını EDA’da görünür kılar; bant genişliği (bandwidth) seçimi kritik parametredir.
Kernel PCA (Çekirdek PCA)
PCA’nın kernel versiyonudur: doğrusal olmayan boyut indirgeme yaparak karmaşık yapıları daha iyi yakalamayı hedefler. Görselleştirme ve temsil öğreniminde güçlü olabilir; ancak yorumlanabilirlik klasik PCA’ya göre daha zordur.
Kernel Trick (Çekirdek Hilesi)
Yüksek boyutlu dönüşümü açıkça hesaplamadan, sadece kernel (benzerlik) üzerinden çalışarak hesaplama maliyetini düşüren fikirdir. “Örtük özellik uzayı” yaklaşımının temel mekanizmasıdır.
Key (Anahtar)
Veri modellemede bir kaydı benzersiz tanımlayan alan (primary key) veya iki tabloyu doğru birleştirmeyi sağlayan alanlar (join key) anlamına gelir. Zayıf anahtarlar, analitik hataların en yaygın kaynağıdır; benzersizlik ve tutarlılık kuralları net olmalıdır.
Key-Value Deposu (Key–Value Store)
Veriyi anahtar–değer çiftleri olarak saklayan depolama modelidir. Düşük gecikmeli okuma/yazma için uygundur; ancak analitik join ve karmaşık sorgular için ilişkisel/kolon bazlı depoların yerini tam olarak tutmaz.
KPI (Key Performance Indicator / Kritik Performans Göstergesi)
İşin sağlığını ve hedefe gidişi ölçen temel metriklerdir (retention, dönüşüm, gelir, SLA ihlali vb.). KPI’ların asıl zorluğu hesaplamak değil, tanımı sabitlemektir: olay tanımı, pencere, filtreler ve segmentler ortak sözleşmeye bağlanmazsa ekipler aynı KPI’ı farklı hesaplar.
KPI Ağacı (KPI Tree)
Üst seviye bir KPI’ı, onu oluşturan alt metriklere parçalayarak “neden düştü/yükseldi?” sorusunu sistematikleştiren çerçevedir. Tanı (diagnostics) hızını artırır; ancak yanlış nedensellik varsayımlarına kapı açmamak için korelasyon–nedensellik ayrımı korunmalıdır.
Kullback–Leibler Ayrışması (KL Divergence)
Bir olasılık dağılımının başka bir dağılımdan ne kadar “saptığını” ölçen ayrışma ölçüsüdür. Veri drift tespitinde, variational inference’ta ve bazı model hedeflerinde kullanılır; simetrik değildir (KL(P‖Q) ≠ KL(Q‖P)).
Kolmogorov–Smirnov Testi (KS Test)
İki örneklemin aynı dağılımdan gelip gelmediğini (veya bir örneklemin belirli bir dağılıma uyumunu) test eden yöntemdir. Drift izleme ve model skoru dağılımı karşılaştırmalarında yaygınlaşmıştır; büyük örneklemlerde küçük farklar da anlamlı çıkabilir.
Kriging
Jeoistatistikte, mekânsal korelasyonu kullanarak ölçülmemiş noktalardaki değeri tahmin eden yöntem ailesidir. Konum analitiği, çevresel ölçümler ve coğrafi yoğunluk haritalarında güçlüdür; variogram modellemesi doğru yapılmazsa hatayı sistematikleştirebilir.
Kurtosis (Basıklık)
Dağılımın kuyruk ağırlığını ve tepe sivriliğini özetleyen istatistiktir. “Aşırı aykırı değer riski” ve kuyruk davranışı için sinyal verir; tek başına yorumlamak yerine histogram/QQ-plot gibi görsellerle birlikte değerlendirilmelidir.
Kuyruk Riski (Tail Risk)
Nadir ama büyük etkili olayların (uç değerlerin) yarattığı risk türüdür. Ortalama performans iyi görünürken kuyruk riskleri (çok büyük kayıplar, sistem çöküşleri, aşırı gecikmeler) gizli kalabilir; bu yüzden p95/p99 gibi yüzdelikler ve stres testleri kritikleşir.
Kuantil (Quantile)
Bir dağılımı belirli yüzdeliklere bölen eşik değeridir (p50 medyan, p95, p99 vb.). Operasyonel metriklerde ortalama yerine kuantil kullanmak, “kuyrukta ne oluyor?” sorusuna daha doğru yanıt verir.
Kuantil Kaybı (Pinball Loss / Quantile Loss)
Kuantil tahmini yapan modellerin optimize ettiği kayıp fonksiyonudur. Örneğin p90 tahmininde, “az tahmin” ile “çok tahmin” hatalarını asimetrik cezalandırır; stok, kapasite ve SLA planlamasında özellikle değerlidir.
Kuantil Regresyon (Quantile Regression)
Sadece koşullu ortalamayı değil, koşullu kuantilleri (p10, p50, p90 gibi) tahmin eden regresyon yaklaşımıdır. Belirsizliğin asimetrik olduğu işlerde (teslimat süresi, gecikme) tek sayı yerine dağılımın farklı noktalarını modellemeyi sağlar.
L
L1 Regularization (L1 Düzenlileştirme)
Model karmaşıklığını azaltmak için katsayıların mutlak değerlerini cezalandıran düzenlileştirmedir. Birçok katsayıyı tam sıfıra itebildiği için “otomatik özellik seçimi” etkisi yaratır; özellikle yüksek boyutlu tabular veride faydalıdır.
L2 Regularization (L2 Düzenlileştirme / Ridge)
Katsayıların karelerini cezalandırarak büyük katsayıları baskılar ve modeli daha stabil hale getirir. Özellikle çoklu doğrusal bağlantı (collinearity) olduğunda katsayı oynaklığını azaltır; çoğu zaman genellemeyi iyileştirir.
Label (Etiket)
Gözetimli öğrenmede modelin tahmin etmeye çalıştığı hedef değişkendir (sınıf, skor, süre vb.). Etiket tanımı belirsizse (churn nedir?) model “yanlış problemi” öğrenir.
Label Bias (Etiket Önyargısı)
Etiketin, gerçek olgunun kendisinden çok ölçüm süreci tarafından şekillenmesi durumudur (örn. “fraud” etiketi sadece yakalanan fraud’ları içerir). Bu durumda model, gerçeği değil “yakalama mekanizmasını” öğrenebilir.
Label Encoding (Etiket Kodlama)
Kategorik sınıfları sayısal etiketlere dönüştürme işlemidir (A→0, B→1). Sıralı anlam taşımayan kategorilerde doğrudan label encoding kullanmak bazı modellerde sahte “sıralılık” enjekte edebilir; model türüne göre dikkat ister.
Label Noise (Etiket Gürültüsü)
Etiketlerin hatalı, tutarsız veya belirsiz olmasıdır (yanlış sınıflandırılmış örnekler, etiketleyici uyumsuzluğu). Model performansının tavanını düşürür; gürültü azaltma çoğu zaman model iyileştirmekten daha büyük kazanç sağlar.
Label Shift (Etiket Kayması)
Zamanla sınıf oranlarının değişmesidir (ör. fraud oranı artıyor), ancak X|Y ilişkisi büyük ölçüde sabit kalabilir. Bazı düzeltme teknikleri sınıf öncüllerini (priors) yeniden ağırlıklandırarak adaptasyon sağlayabilir.
Lag (Gecikme / Lag Özelliği)
Zaman serisinde geçmiş değerlerin (t-1, t-7 gibi) özellik olarak kullanılmasıdır. Doğru lag seçimi, tahmin gücünü artırır; yanlış lag “gelecek bilgisini” sızdırabilir veya anlamsız gürültü ekleyebilir.
Lambda (λ / Düzenlileştirme Katsayısı)
Düzenlileştirme cezasının gücünü belirleyen hiperparametredir. Çok küçük λ overfitting’i, çok büyük λ underfitting’i tetikleyebilir; doğrulama şemasıyla seçilmelidir.
Lasso Regression (Lasso Regresyon)
L1 düzenlileştirmeli regresyondur; bazı katsayıları sıfıra çekerek daha seyrek (sparse) bir model üretir. Yüksek boyutlu ve fazla değişkenli senaryolarda açıklanabilirliği artırabilir; ancak çok korelasyonlu özelliklerde “hangi özellik kalsın?” seçimi kararsızlaşabilir.
Latency (Gecikme)
Bir sistemin yanıt üretme süresidir (sorgu gecikmesi, inference latency, pipeline gecikmesi). Veri ürünlerinde gecikme sadece kullanıcı deneyimi değil; aynı zamanda “doğru zamanda karar” kapasitesidir.
Late Arriving Data (Geç Gelen Veri)
Olayın gerçekleştiği zaman ile sisteme düştüğü zaman arasında gecikme olmasıdır. Pencereli metrikler (günlük gelir, saatlik aktif) ve zaman bazlı agregasyonlar için kritik bir problemdir; watermark ve backfill stratejileriyle yönetilir.
Latent Space (Gizil Uzay)
Modelin (özellikle temsil öğrenen modellerin) veriyi daha düşük boyutlu, anlamlı bir uzayda kodladığı temsildir. Bu uzayda benzerlik arama yapılabilir; ancak “yakınlık” her zaman insan sezgisiyle aynı anlama gelmeyebilir.
Latent Variable (Gizil Değişken)
Doğrudan gözlenemeyen ama gözlenen veriyi açıklayan varsayımsal değişkendir (kullanıcı niyeti, risk eğilimi vb.). Faktör analizi, HMM, topic model gibi yöntemlerin merkezindedir; yorum, model varsayımlarına bağlıdır.
Layer Normalization (Katman Normalizasyonu)
Aktivasyonları örnek bazında normalize ederek eğitimi stabilize eden tekniktir. Özellikle Transformer mimarilerinde yaygındır; batch boyutu küçük olduğunda BatchNorm’a göre daha tutarlı çalışabilir.
LDA (Latent Dirichlet Allocation)
Metinlerde “konu”ları (topic) gizil değişkenler olarak modelleyen olasılıksal yöntemdir. Dokümanları konu karışımı olarak temsil eder; konu sayısı seçimi ve ön işlem (stopword, lemmatization) sonuç kalitesini belirler.
Learning Curve (Öğrenme Eğrisi)
Eğitim/validasyon performansının veri miktarına veya epoch’a göre değişimini gösterir. Overfitting–underfitting teşhisinde güçlüdür: eğitim iyi, validasyon kötü ise overfitting; ikisi de kötü ise model/özellik zayıflığı işaret eder.
Learning Rate (Öğrenme Oranı)
Optimizasyonda her güncelleme adımının büyüklüğünü belirler. Çok yüksek öğrenme oranı kararsızlığa, çok düşük oran aşırı yavaş yakınsamaya yol açar; çoğu derin öğrenme probleminde en kritik hiperparametrelerden biridir.
Learning Rate Scheduler (Öğrenme Oranı Zamanlayıcısı)
Öğrenme oranını eğitim boyunca planlı biçimde değiştiren stratejidir (step decay, cosine annealing, warmup). Özellikle büyük modellerde stabilite ve genelleme üzerinde belirgin etkisi olabilir.
Least Squares (En Küçük Kareler)
Tahmin hatalarının kareleri toplamını minimize eden amaç fonksiyonudur. Lineer regresyonun temelidir; aykırı değerlere hassastır, bu yüzden robust alternatifler (Huber loss vb.) bazı senaryolarda daha uygundur.
Lift (Lift / Kaldıraç)
Bir modelin veya kuralın, rastgele seçime göre ne kadar daha iyi “pozitif yakaladığını” ölçen oran türüdür. Kampanya hedefleme ve risk skorlama değerlendirmesinde “en üst %k dilim ne kadar değerli?” sorusunu nicelleştirir.
Likelihood (Olabilirlik)
Model parametreleri altında gözlenen verinin ortaya çıkma olasılığını ölçen fonksiyondur. Maksimum olabilirlik (MLE) birçok modelin eğitim hedefidir; Bayesyen çerçevede prior ile birleşip posterior’a gider.
Linear Model (Lineer Model)
Çıktıyı özelliklerin ağırlıklı toplamı olarak modelleyen aile (lineer regresyon, lojistik regresyon vb.). Basitlik ve yorumlanabilirlik avantajdır; etkileşim ve doğrusal olmayanlık güçlü ise performans sınırlanabilir.
Linear Regression (Lineer Regresyon)
Sürekli hedef değişkeni, özelliklerin lineer kombinasyonuyla tahmin eder. Hızlı bir baseline’dır; varsayımlar (hata yapısı, doğrusal ilişki) ihlal edilirse dönüşüm, etkileşim terimleri veya farklı model ailesi gerekir.
Link Function (Bağlantı Fonksiyonu)
GLM (Genelleştirilmiş Lineer Modeller) çerçevesinde, lineer tahmini hedefin doğal ölçeğine bağlayan fonksiyondur (lojistikte logit link). Doğru link seçimi, modelin hedef dağılımını daha gerçekçi yakalamasını sağlar.
Logistic Regression (Lojistik Regresyon)
İkili (ve çok sınıflı uzantılarla) sınıflandırmada yaygın, güçlü ve yorumlanabilir baseline’dır. Doğrusal karar sınırı varsayar; iyi özellik mühendisliği ve düzenlileştirme ile uzun süre “yenilmesi zor” bir kıyas modeli olabilir.
Logit (Logit Dönüşümü)
Olasılığı (p) log-odds’a çevirir: log(p/(1−p)). Lojistik regresyonun doğal bağlantı fonksiyonudur; olasılıkların doğrusal bir skala üzerinde modellenmesini sağlar.
Log Loss (Logaritmik Kayıp / Cross-Entropy Loss)
Olasılık tahminini cezalandıran kayıp fonksiyonudur; yanlış sınıfa yüksek olasılık verilmesini sert biçimde cezalandırır. Sınıflandırmada standarttır; ancak iyi log loss, otomatik olarak iyi kalibrasyon anlamına gelmez.
Log-normal Distribution (Log-normal Dağılım)
Log’u normal dağılan değişkenlerin dağılımıdır; pozitif ve sağa çarpık verilerde sık görülür (gelir, süre, harcama). Ortalama yerine medyan ve kuyruk yüzdelikleriyle birlikte değerlendirmek daha sağlıklıdır.
Log Transform (Log Dönüşümü)
Sağa çarpık dağılımları sıkıştırıp varyansı stabilize etmek için kullanılan dönüşümdür (x → log(x) veya log(1+x)). Lineer modellere uygunluğu artırabilir; sıfır/negatif değerlerde dönüşüm seçimi dikkat gerektirir.
Longitudinal Data (Boylamsal Veri)
Aynı birimlerin (kullanıcı, cihaz, hasta) zaman içinde tekrar tekrar gözlemlendiği veri türüdür. Bağımsızlık varsayımı bozulur; panel modeller, sabit/rasgele etkiler ve uygun split (group/time) yaklaşımları gerekir.
Look-ahead Bias (Gelecek Bilgisi Yanlılığı)
Değerlendirmede veya feature üretiminde, karar anında bilinmeyen geleceğe ait bilgiyi fark etmeden kullanmaktır. Özellikle backtesting, zaman serisi ve churn/fraud modellemesinde “mükemmel görünen ama üretimde çöken” modellerin klasik nedenidir.
Lookback Window (Geriye Bakış Penceresi)
Özellik üretiminde “geçmişin ne kadarını” kullandığınızı tanımlar (son 7 gün, son 30 gün gibi). Pencere çok kısa olursa sinyal kaçabilir, çok uzun olursa eski davranışlar gürültüye dönüşebilir; ayrıca zaman hizası doğru yapılmazsa leakage üretir.
LOF (Local Outlier Factor)
Bir noktanın yerel yoğunluğunu komşularının yoğunluğuyla kıyaslayarak “yerel aykırılık” skorlayan anomali tespit yöntemidir. Küresel outlier yerine “komşularına göre anormal” durumları yakalamada iyidir; ölçekleme ve k seçimi sonuçları belirler.
Local Optimum (Yerel Optimum)
Bir hedef fonksiyonun çevresinde en iyi görünen ama global en iyi olmayan çözümüdür. Derin öğrenmede pratikte daha yaygın mesele, yerel optimumdan çok plato/saddle point ve optimizasyon dinamikleridir; yine de yeniden başlatma (restarts) ve scheduler’lar fayda sağlayabilir.
Locality-Sensitive Hashing (LSH)
Benzer öğeleri yüksek olasılıkla aynı “hash kovasına” düşürerek yaklaşık en yakın komşu aramasını hızlandıran tekniktir. Büyük ölçekli benzerlik arama (metin, embedding) problemlerinde performans için kritiktir.
Loss Landscape (Kayıp Yüzeyi)
Model parametre uzayında kaybın aldığı değerlerin geometrisidir. Yüzeyin pürüzlülüğü, dar/geniş minimumlar ve koşulluluk (conditioning) eğitim stabilitesini ve genellemeyi etkiler.
LSTM (Long Short-Term Memory)
Uzun vadeli bağımlılıkları yakalamak için tasarlanmış RNN türevidir. Zaman serisi ve sıralı veride güçlü olabilir; ancak Transformer tabanlı yaklaşımlar birçok modern uygulamada alternatife dönüşmüştür.
Low-Rank Approximation (Düşük Rank Yaklaştırma)
Bir matrisi daha düşük boyutlu bileşenlerle yaklaşık temsil etme yaklaşımıdır (SVD/PCA ile ilişkili). Öneri sistemlerinde matris faktörizasyonu, gürültü azaltma ve sıkıştırma gibi amaçlarla kullanılır.
M
MAE (Mean Absolute Error / Ortalama Mutlak Hata)
Tahmin hatalarının mutlak değerlerinin ortalamasıdır. Yorumlaması kolaydır (“ortalama kaç birim yanılıyorum?”); RMSE’ye göre aykırı değerlere daha az duyarlıdır.
MAD (Median Absolute Deviation / Medyan Mutlak Sapma)
Değerlerin medyandan mutlak sapmalarının medyanıdır. Robust (aykırı değerlere dayanıklı) bir yayılım ölçüsüdür; Hampel filtresi gibi aykırı değer yöntemlerinin temelidir.
MAP (Maximum A Posteriori / En Yüksek Artgösterim Tahmini)
Bayesyen çerçevede, posterior dağılımı maksimize eden parametre değerini seçer. MLE’ye benzer ama prior bilgiyi de içerir; veri azsa prior’ın etkisi belirginleşir.
MAPE (Mean Absolute Percentage Error / Ortalama Mutlak Yüzde Hata)
Hatanın yüzde cinsinden ortalamasını ölçer. İş birimlerinin farklı ölçeklerde olduğu tahmin problemlerinde “yüzde hata” dili pratiktir; ancak gerçek değer sıfıra yakınsa MAPE patlar ve yanıltıcı olur.
Marginal Distribution (Marjinal Dağılım)
Çok değişkenli bir dağılımda, tek bir değişkenin diğerleri göz ardı edilerek elde edilen dağılımıdır. “Tek değişken nasıl davranıyor?” sorusunu cevaplar; ancak ilişkileri (bağımlılıkları) tek başına göstermez.
Marginal Effect (Marjinal Etki)
Bir değişkendeki küçük bir artışın, hedef üzerindeki beklenen etkisini ifade eder. Doğrusal modellerde sabittir; doğrusal olmayan modellerde değer aralığına ve diğer değişkenlere bağlı değişebilir.
Markov Chain (Markov Zinciri)
Bir sistemin bir sonraki durumunun yalnızca mevcut duruma bağlı olduğu (Markov özelliği) stokastik süreç modelidir. MCMC’den kullanıcı durum modellemeye kadar pek çok yerde temel yapı taşıdır.
Markov Property (Markov Özelliği)
“Gelecek, geçmişten bağımsızdır; mevcut durum biliniyorsa geçmişin ek bilgisi yoktur” varsayımıdır. Bazı problemler için güçlü bir basitleştirmedir; yanlışsa model kritik dinamikleri kaçırır.
MapReduce
Büyük veriyi iki aşamalı (map → reduce) dağıtık işlem mantığıyla işleyen paradigma/çerçevedir. Modern sistemlerde farklı soyutlamalar öne çıksa da, veri paralelliği ve shuffle maliyeti gibi kavramları anlamak için hâlâ öğreticidir.
Masked Data (Maskelenmiş Veri)
Hassas alanların (e-posta, kart no vb.) kısmen gizlenerek paylaşılmasıdır (örn. a***@b.com). Maskeleme “anonimleştirme” garantisi değildir; yeniden tanımlama riski bağlama göre devam edebilir.
Mathematical Expectation (Beklenen Değer / Expectation)
Rastgele değişkenin olası değerlerinin olasılıklarla ağırlıklı ortalamasıdır. Risk ve maliyet hesaplarında temel olsa da, kuyruk risklerini tek başına yakalamaz (varyans/kuantiller gerekir).
Matrix Factorization (Matris Faktörizasyonu)
Bir matrisi (kullanıcı–ürün etkileşimi gibi) daha düşük boyutlu iki matrise ayırarak gizil faktörleri öğrenme yaklaşımıdır. Öneri sistemlerinde klasik ve güçlüdür; seyrek veri ve soğuk başlangıç için ek strateji gerekir.
Maximum Likelihood Estimation (MLE / En Çok Olabilirlik Tahmini)
Parametreleri, gözlenen veriyi “en olası” kılan değerler olarak seçer. Pek çok modelin temel eğitim mantığıdır; ancak küçük veri ve gürültüde overfitting’e açık olabilir (regularization veya Bayesyen yaklaşım destekleyebilir).
Mean (Ortalama)
Toplamın gözlem sayısına bölünmesidir. Kuyruklu dağılımlarda (gelir, süre) ortalama “tipik” davranışı kötü temsil edebilir; medyanla birlikte raporlanması daha sağlıklıdır.
Median (Medyan)
Sıralı verinin ortadaki değeridir (p50). Aykırı değerlere karşı robust olduğundan operasyonel metriklerde sıklıkla ortalamadan daha anlamlı bir “merkez” özetidir.
Measurement Bias (Ölçüm Önyargısı)
Verinin gerçeği değil ölçüm sürecini yansıtmasıdır (örn. sadece görünen hataların loglanması). Bu önyargı, modelin “olgu” yerine “gözlem mekanizması”nı öğrenmesine yol açabilir.
Metadata (Üst Veri)
Veri hakkında veri: alan tanımı, tip, birim, kaynak, güncelleme sıklığı, sahiplik gibi bilgiler. Veri kataloğu ve veri sözlüğünün yakıtıdır; metadata yoksa veri keşfi pahalılaşır.
Metric (Metrik)
Bir olguyu sayısal olarak ölçen tanımlı hesaplamadır (CTR, retention, MAE). Metriklerin asıl riski hesaplamak değil; tanımı kilitlemeden karşılaştırma yapmak ve yanlış karar üretmektir.
Metric Store (Metrik Deposu)
KPI’ların tek bir “doğru tanım” üzerinden yönetildiği, sürümleme ve yönetişim sağlayan katmandır. Farklı ekiplerin aynı metriği farklı hesaplamasını azaltır; güvenilir dashboard kültürü için temeldir.
Mini-batch (Mini Yığın)
Eğitimde her adımda tüm veri yerine küçük bir örnek grubu kullanma yaklaşımıdır. Hesaplama verimliliği ve optimizasyon dinamikleri açısından pratik standarttır; batch boyutu genelleme ve stabiliteyi etkiler.
Min-Max Scaling (Min–Max Ölçekleme)
Bir değişkeni [0,1] aralığına taşır: (x−min)/(max−min). Mesafe tabanlı yöntemlerde faydalıdır; aykırı değerler min/max’ı bozarsa ölçekleme de bozulur.
Missing Data (Eksik Veri)
Bazı alanların boş (null) olması durumudur. Eksiklik “hata” olmak zorunda değildir; bazen davranış sinyali taşır (örn. telefon numarası vermemek). Eksikliği nasıl ele aldığınız, modelin adalet ve performansını etkiler.
Missingness Mechanism (Eksiklik Mekanizması: MCAR/MAR/MNAR)
Eksikliğin rastgele mi (MCAR), gözlenen değişkenlere bağlı mı (MAR), yoksa gözlenmeyen/saklı değerle mi ilişkili olduğu (MNAR) varsayımlarıdır. İmputation stratejisi bu mekanizmaya göre seçilmezse sistematik yanlılık üretilebilir.
Mixed Effects Model (Karma Etkiler Modeli)
Sabit etkiler (genel trend) ile rasgele etkileri (grup bazlı sapmalar: kullanıcı/mağaza/ülke) birlikte modelleyen çerçevedir. Boylamsal/panel veride bağımlılık yapısını daha gerçekçi taşır.
MLOps
Model geliştirmeden üretime, izleme ve yeniden eğitime kadar ML yaşam döngüsünü yazılım mühendisliği disiplinleriyle yöneten pratikler bütünüdür. Amaç, “tek seferlik notebook başarısı” değil, sürdürülebilir üretim kalitesidir.
Model (Model)
Veriden bir ilişki/kurala dair temsil öğrenen matematiksel yapı (regresyon, ağaç, sinir ağı vb.). Modelin değeri, üretimde doğru zamanda doğru kararı desteklemesiyle ölçülür; offline skor tek başına yeterli değildir.
Model Card (Model Kartı)
Bir modelin amaç, eğitim verisi, metrikleri, sınırlılıkları, riskleri ve uygun kullanım koşullarını özetleyen dokümantasyon şablonudur. Modelin “nasıl kullanılmaması gerektiğini” yazmak, en az nasıl kullanılacağı kadar kritiktir.
Model Calibration (Model Kalibrasyonu)
Model skorlarını gerçek olasılıklara yaklaştırma işlemidir (Platt scaling, isotonic regression). Özellikle risk kararlarında “0.8 skoru”nun gerçekten %80 anlamına gelmesi istenir.
Model Monitoring (Model İzleme)
Üretimde performans, drift, gecikme, veri kalitesi ve iş metriklerinin sürekli takibidir. İzleme yoksa model “sessizce bozulur” ve hata, genellikle iş sonuçları kötüleşince fark edilir.
Model Drift (Model Kayması)
Modelin performansının zamanla bozulmasıdır; nedenleri veri drift, konsept drift, geri besleme döngüsü veya veri kalite düşüşü olabilir. Drift’i ölçmek için hem teknik metrik hem de iş metrikleri birlikte izlenmelidir.
Model Registry (Model Kayıt Deposu)
Model sürümlerinin, meta bilgisinin, onay durumunun ve dağıtım geçmişinin tutulduğu sistemdir. “Hangi model üretimde?” sorusunun tek güvenilir cevabıdır.
Model Selection (Model Seçimi)
Model ailesi ve hiperparametrelerin doğrulama stratejisine göre seçilmesidir. Yanlış split (ör. zaman serisinde rastgele) model seçimini yanıltır; iyi seçim, doğru değerlendirme tasarımıyla başlar.
Model Serving (Model Servisleme)
Modelin tahmin üretimini API, batch veya edge üzerinde sunma katmanıdır. Yalnızca model değil; feature hesaplama, caching, SLA, güvenlik ve rollback mekanizmaları da servisin parçasıdır.
Monte Carlo Simulation (Monte Carlo Simülasyonu)
Belirsizlik içeren bir sistemi çok sayıda rastgele örnekleme ile simüle ederek sonuç dağılımını tahmin etme yaklaşımıdır. Risk analizi, kapasite planlama ve finansal modellemede “tek sayı” yerine dağılım görmek için kullanılır.
MSE (Mean Squared Error / Ortalama Kare Hata)
Hataların karelerinin ortalamasıdır. Büyük hataları daha sert cezalandırdığı için kuyruk hatalarına duyarlıdır; birim kareli olduğundan yorumlanması MAE’ye göre daha az sezgiseldir.
Multiclass Classification (Çok Sınıflı Sınıflandırma)
İkiden fazla sınıf etiketinin tahmin edildiği problem türüdür. Metrikler (macro/micro average) ve hata maliyetleri sınıflar arası dengesizliğe göre seçilmelidir.
Multicollinearity (Çoklu Doğrusal Bağlantı)
Özelliklerin birbirine yüksek derecede lineer bağlı olmasıdır. Lineer modellerde katsayıların işaret ve büyüklüğü kararsızlaşabilir; ridge/elastic net, VIF analizi veya özellik sadeleştirme ile yönetilir.
Multilabel Classification (Çok Etiketli Sınıflandırma)
Bir örneğin birden fazla etikete aynı anda sahip olabildiği problemdir (belgeye birden çok konu etiketi). Değerlendirme, sınıf bazlı precision/recall ve uygun ortalamalarla yapılmalıdır.
Multiple Testing (Çoklu Test Problemi)
Aynı veri üzerinde çok sayıda hipotez testi yapılınca yanlış pozitif olasılığı birikir. A/B testlerinde segment kırılımları, çok metrikli okuma ve “kazanan arama” davranışı bu riski büyütür; FDR kontrolü gibi düzeltmeler gerekir.
Multivariate Analysis (Çok Değişkenli Analiz)
Birden fazla değişkeni birlikte ele alarak ilişki ve yapıyı inceleyen yöntemler bütünüdür (çoklu regresyon, PCA, faktör analizi). Tek değişkenli özetlerin sakladığı etkileşimleri görünür kılar.
Mutual Information (Karşılıklı Bilgi)
İki değişken arasındaki bağımlılığı (doğrusal olmak zorunda değil) ölçen bilgi teorisi temelli ölçüdür. Özellik seçimi ve bağımlılık analizi için güçlüdür; örneklem azsa tahmin gürültülü olabilir.
N
Naive Bayes (Saf Bayes)
Özelliklerin birbirinden bağımsız olduğu (çoğu zaman gerçekçi olmayan) varsayımıyla çalışan, hızlı ve sağlam bir sınıflandırma yöntemidir. Metin sınıflandırmada (bag-of-words) şaşırtıcı derecede güçlü olabilir; ancak korelasyonlu özelliklerde olasılık tahminleri aşırı kendinden emin (overconfident) hale gelebilir.
Named Entity Recognition (NER / Varlık Adı Tanıma)
Metin içinde kişi, kurum, yer, tarih gibi varlıkları otomatik tespit edip etiketleme görevidir. Müşteri geri bildirimi analizi, haber/rapor madenciliği ve bilgi çıkarımı boru hatlarında kritik bir adımdır; domain’e göre etiket şeması ve eğitim verisi gerekir.
Natural Language Processing (NLP / Doğal Dil İşleme)
Metin ve dil verisini işlemek için kullanılan yöntemler bütünüdür. Temel görevler; sınıflandırma, özetleme, arama, bilgi çıkarımı ve duygu analizidir. NLP sistemlerinde gizlilik (PII), toksisite ve halüsinasyon riski ek kalite boyutları getirir.
Nearest Neighbor Search (En Yakın Komşu Arama)
Bir sorgu vektörüne en benzer örnekleri bulma problemidir. Embedding tabanlı arama/öneri sistemlerinin omurgasıdır; büyük ölçekte yaklaşık yöntemler (ANN, HNSW) gerekir.
Negative Sampling (Negatif Örnekleme)
Embedding ve bazı sınıflandırma modellerinde, tüm negatif sınıfları görmeden eğitim yapabilmek için sınırlı sayıda negatif örnek seçme stratejisidir. Negatiflerin seçimi (uniform, popularity-biased) temsil uzayının anlamını ve bias’ı etkiler.
Nested Cross-Validation (İç İçe Çapraz Doğrulama)
Model seçimi (hiperparametre araması) ile performans değerlendirmesini birbirinden ayırmak için kullanılan doğrulama şemasıdır. Özellikle küçük veri ve agresif tuning senaryolarında “validation overfitting” riskini azaltır; maliyeti yüksektir ama ölçümü daha dürüst kılar.
Network Effects (Ağ Etkileri)
Bir ürünün değerinin, kullanıcı sayısı arttıkça artması olgusudur. Veri analitiğinde deney tasarımını zorlaştırır: müdahalenin etkisi bağımsız olmayabilir; kullanıcılar birbirini etkiler (interference), klasik A/B varsayımları bozulabilir.
Neural Network (Sinir Ağı)
Katmanlar halinde, ağırlıklar ve aktivasyonlarla doğrusal olmayan fonksiyonlar öğrenen model ailesidir. Çok esnektir; fakat veri ihtiyacı, eğitim maliyeti ve açıklanabilirlik zorlukları üretimde planlanmalıdır.
Node (Düğüm)
Graf yapılarında varlıkları temsil eden birimdir (kullanıcı, işlem, cihaz). Graph analytics’te düğüm özellikleri ve kenar ilişkileri birlikte değerlendirilir; düğüm tanımı doğru yapılmazsa ağ modeli “yanlış evreni” temsil eder.
Noise (Gürültü)
Sinyali bozan rastgelelik veya ölçüm hatasıdır. Gürültü her zaman kötü değildir; bazı optimizasyon süreçlerinde genellemeye yardımcı olabilir. Kritik olan: gürültünün kaynağını (ölçüm mü, süreç mi) teşhis etmektir.
Noise Floor (Gürültü Tabanı)
Sistemin veya ölçümün kaçınılmaz minimum gürültü seviyesidir. Bu seviye bilinmezse ekipler “0.1% iyileştirme” gibi anlamlı olmayan hedeflere koşabilir; ölçülebilirlik sınırı tanımlanmalıdır.
Non-response Bias (Yanıtlamama Yanlılığı)
Anket veya kullanıcı geri bildirimi verisinde, yanıt verenlerin sistematik olarak yanıt vermeyenlerden farklı olmasıdır. Sonuçlar “gönüllü örnekleme”ye döner; ağırlıklandırma ve temsiliyet analizi yapılmadan genelleme risklidir.
Non-stationarity (Durağan Olmama)
Zaman serisinin istatistiksel özelliklerinin (ortalama, varyans) zamanla değişmesidir. Birçok klasik zaman serisi modeli durağanlık varsayar; fark alma (differencing), dönüşümler veya daha esnek modeller gerekebilir.
Non-linear Model (Doğrusal Olmayan Model)
İlişkileri doğrusal kabul etmeyen model ailesidir (ağaçlar, kernel yöntemleri, sinir ağları). Daha güçlü olabilir; ancak yorumlanabilirlik ve overfitting riski artabilir.
Normalization (Normalizasyon)
(1) ML’de özellik ölçekleme/standardizasyon işlemleri. (2) Veri tabanında tekrarları azaltan şema normalizasyonu. Terimin bağlamı net değilse “normalizasyon yaptık” cümlesi yanıltıcı olur.
Not Missing At Random (NMAR / MNAR)
Eksikliği, gözlenmeyen değerle ilişkili olan eksiklik mekanizmasıdır (örn. geliri yüksek olanlar gelirini yazmıyor). Bu durumda basit imputation yanlı sonuç üretir; modelleme yaklaşımı ve veri toplama süreci gözden geçirilmelidir.
Null (Boş Değer)
Bir alanın değerinin bilinmediğini/gelmediğini gösterir. Null, 0 değildir; yanlış ele alınırsa join, agregasyon ve model eğitiminde sessiz hatalar üretir.
Null Hypothesis (H0 / Sıfır Hipotezi)
Hipotez testlerinde “etki yoktur” varsayımıdır (A ve B aynı). p-değeri, verinin H0 altında ne kadar olağandışı olduğunu ölçer; H0’ın doğru olma olasılığı değildir.
Numerical Stability (Sayısal Kararlılık)
Hesaplamaların, çok küçük/büyük sayılarda taşma (overflow) veya hassasiyet kaybı üretmeden güvenilir kalmasıdır. Log-sum-exp hilesi, uygun veri tipi (float32/float64) ve ölçekleme, kararlılığı artırır.
Numerical Feature (Sayısal Özellik)
Sürekli veya ayrık sayısal değer alan değişkendir (fiyat, yaş, işlem sayısı). Ölçekleme ihtiyacı model türüne göre değişir; aykırı değer yönetimi çoğu zaman sayısal özelliklerde kritikleşir.
Nyquist Frekansı
Sinyal işleme bağlamında, örnekleme frekansının yarısıdır ve aliasing oluşmadan temsil edilebilecek maksimum frekansı ifade eder. Zaman serisi/sensör analitiğinde “örnekleme hızım yeterli mi?” sorusunun matematiksel sınırıdır.
N-gram
Metinde ardışık n kelimelik veya karakterlik parçadır (unigram, bigram, trigram). Metin sınıflandırma ve arama sistemlerinde temel temsil birimidir; n arttıkça bağlam artar ama boyut patlar.
NDCG (Normalized Discounted Cumulative Gain)
Sıralama (ranking) sistemlerinin kalitesini ölçen metriktir; üst sıralardaki doğrulara daha fazla ağırlık verir. Arama/öneri sistemlerinde CTR’ye göre daha “etiket tabanlı” ve offline değerlendirmeye uygun bir ölçüdür; relevans dereceleri iyi tanımlanmalıdır.
NLP Pipeline (NLP Boru Hattı)
Metin verisinde ardışık işleme adımlarının bütünü: temizleme → tokenizasyon → temsil (TF-IDF/embedding) → model → post-processing. Pipeline’da bir adımın hatası sonraki adımları çarpan etkisiyle bozar; kalite kontrolleri her aşamada olmalıdır.
O
O(n) Notasyonu (Big-O)
Bir algoritmanın girdi boyutu n arttıkça çalışma süresinin veya bellek kullanımının nasıl büyüdüğünü yaklaşık olarak ifade eder. Veri analitiğinde “küçük veride çalışan” bir çözümün büyük ölçekte neden çöktüğünü anlamak için temel bir zihniyet aracıdır.
Objective Function (Amaç Fonksiyonu)
Optimizasyonun minimize/maksimize etmeye çalıştığı hedef fonksiyondur (kayıp, maliyet, fayda). En yaygın hata: teknik amaç fonksiyonunun (log loss) iş hedefiyle (gelir, churn azaltma) uyumsuz kurulmasıdır.
Observability (Gözlemlenebilirlik)
Bir sistemin iç durumunu, dışarıdan ölçümlerle (log, metrik, iz/tracing) güvenilir biçimde çıkarabilme kapasitesidir. Veri ürünlerinde bu, “pipeline neden bozuldu, neresi gecikti, veri dağılımı ne yönde kaydı?” sorularına hızlı yanıt verebilmektir.
Observational Study (Gözlemsel Çalışma)
Müdahale yapmadan, doğal akışta oluşan veriden ilişki ve olası etki çıkarmaya çalışan çalışma türüdür. A/B testinin mümkün olmadığı yerlerde değerlidir; ancak confounding ve seçilim yanlılığı (selection bias) riskleri nedeniyle nedensel iddialar varsayımlara dayanır.
Odds (Odds / Bahis Oranı)
Bir olayın olma olasılığının olmama olasılığına oranıdır: p / (1−p). Lojistik regresyonun dili odds üzerinden kurulur; “olasılık” ile “odds” karıştırılırsa yorum tamamen değişir.
Odds Ratio (OR / Odds Oranı)
İki grubun odds değerlerinin oranıdır. Etki büyüklüğünü ifade eder; OR=2 “olasılık iki kat” demek değildir—odds iki kattır. Bu ayrım özellikle düşük/ yüksek taban oranlarında kritikleşir.
Offline Evaluation (Çevrimdışı Değerlendirme)
Modeli veya sıralama sistemini geçmiş veride, gerçek kullanıcıya dokunmadan değerlendirme yaklaşımıdır (AUC, NDCG, MAE vb.). Hızlıdır ama “log yanlılığı”, dağılım kayması ve geri besleme döngüsü nedeniyle online sonuçla her zaman örtüşmez.
Online Experimentation (Canlı Deneyleme)
Üretimde gerçek kullanıcıya kontrollü biçimde varyant göstererek etki ölçmedir (A/B, çok kollu test, bandit). En büyük risk, ölçüm tanımı ve guardrail metrikleri zayıfsa kısa vadeli kazanç uğruna ürün sağlığının bozulmasıdır.
Online Inference (Gerçek Zamanlı Çıkarım)
Modelin tahmin üretimini kullanıcı etkileşimi sırasında, düşük gecikmeyle yapmasıdır. Başarı sadece modelden değil; feature hesaplama süresi, cache stratejisi, timeout/geri dönüş (fallback) mekanizması ve SLA tasarımından gelir.
Online Learning (Çevrimiçi Öğrenme)
Modelin yeni veriler geldikçe kendini güncellemesi yaklaşımıdır. Drift’e hızlı tepki verir; fakat yanlış/zehirli veri geldiğinde modelin hızla bozulması (catastrophic forgetting veya yanlış yönlenme) riskini artırır—güvenlik kapıları ve izleme şarttır.
One-Hot Encoding (Tek-Sıcak Kodlama)
Kategorik bir değişkeni, her kategori için 0/1 sütunlarıyla temsil etme yöntemidir. Düşük kardinalitede etkilidir; yüksek kardinalitede boyut patlaması yaratır ve seyrek (sparse) matris yönetimi gerektirir.
One-Sample Test (Tek Örneklem Testi)
Bir örneklemin ortalamasını/oranını bilinen bir referans değere göre test eder (örn. dönüşüm oranı %3 mü?). Pratikte “benchmark’a göre anlamlı fark var mı?” sorusunu yanıtlamak için kullanılır.
One-Tailed Test (Tek Kuyruklu Test)
Hipotez testinde etkinin yalnızca tek yönde olabileceğini varsayan testtir (sadece artış veya sadece azalış). Güç kazanımı sağlar; fakat yön varsayımı yanlışsa kritik etkileri kaçırma riski doğurur.
Ontology (Ontoloji)
Bir alanın kavramlarını ve aralarındaki ilişkileri formel biçimde tanımlayan bilgi modelidir. Veri katalogları, bilgi grafı ve semantik katmanda “aynı terimi herkes aynı anlasın” hedefinin altyapısıdır.
Open Data (Açık Veri)
Herkesin erişebileceği, yeniden kullanabileceği biçimde yayımlanan veridir. Analitik için değerli olsa da, lisans koşulları, güncellik, veri toplama metodolojisi ve temsiliyet (bias) mutlaka sorgulanmalıdır.
OpenAPI
API’lerin uç noktalarını, şema ve davranışlarını standart bir tanımla dokümante eden spesifikasyondur. Veri ürünlerinde veri erişimini ölçekler; ama “veri sözleşmesi” (tazelik/kalite) boyutu OpenAPI’nin ötesinde ayrıca tanımlanmalıdır.
Operational Analytics (Operasyonel Analitik)
Kararların “şimdi” verildiği operasyonlara (fraud inceleme, lojistik yönlendirme, canlı destek) doğrudan hizmet eden analitiktir. Batch raporlardan farkı, gecikme ve güvenilirlik gereksiniminin çok daha sert olmasıdır.
Operationalization (Operasyonelleştirme)
Soyut bir kavramı ölçülebilir metrik ve kurala dönüştürme sürecidir (örn. “sadakat” → 90 günde tekrar satın alma + ortalama sepet). İyi operasyonelleştirme yoksa model, yanlış hedefi optimize eder.
Optimization (Optimizasyon)
Belirli kısıtlar altında en iyi sonucu bulma problemidir (maliyet minimize, gelir maksimize). Veri biliminde “model” çoğu zaman sadece bir girdi üretir; asıl karar, optimizasyon ve kısıt yönetimiyle şekillenir.
Optimizer (Optimizatör)
Bir modelin parametrelerini güncelleme stratejisidir (SGD, Adam vb.). Aynı model ve aynı veriyle bile optimizatör, öğrenme oranı ve scheduler seçimi performansı kökten değiştirebilir.
Ordinal Data (Sıralı Veri)
Kategorilerin doğal bir sırası olan veri türüdür (düşük–orta–yüksek, 1–5 puan). Bu veri türünü nominal gibi ele almak bilgi kaybı, sayısal gibi ele almak ise sahte mesafe varsayımı üretebilir.
Ordinal Encoding (Sıralı Kodlama)
Sıralı kategorilere sıralarını koruyan sayısal kod vermektir. Sıra anlamlıysa güçlüdür; sıra tartışmalıysa modele “uydurma” bir düzen enjekte eder.
ORM (Object–Relational Mapping)
Uygulama nesneleriyle ilişkisel veri tabanı tabloları arasında eşleme katmanıdır. Veri analitiğinde ORM, hızlı geliştirme sağlar; ancak karmaşık analitik sorgularda performans ve görünürlük sorunları doğurabileceği için ölçülü kullanılmalıdır.
ORC (Optimized Row Columnar)
Kolon bazlı depolama formatıdır; sıkıştırma ve analitik sorgu performansı için optimize edilmiştir. Büyük ölçekli lake/warehouse iş yüklerinde maliyet ve hız açısından önemli fark yaratabilir.
Outage (Kesinti)
Bir veri hizmetinin veya model servisinin belirli süre erişilemez olmasıdır. Analitik sistemlerde outage sadece “rapor gelmedi” değil; yanlış karar, yanlış alarm ve operasyonel aksama maliyetine dönüşebilir.
Outlier (Aykırı Değer)
Dağılımın genel örüntüsünden belirgin biçimde sapan gözlemdir. Aykırı değer bazen hata (sensör bozukluğu), bazen sinyal (VIP müşteri) olabilir; otomatik silme yerine sınıflandırma ve bağlam analizi gerekir.
Out-of-Distribution (OOD / Dağılım Dışı)
Modelin eğitimde görmediği türde/dağılımda örneklerle karşılaşmasıdır. OOD durumunda model “emin” görünebilir ama yanlış yapar; bu yüzden OOD tespiti, belirsizlik tahmini ve güvenli fallback mekanizmaları önemlidir.
Overdispersion (Aşırı Saçılım)
Sayım verilerinde (count) varyansın ortalamadan büyük olması durumudur; Poisson varsayımını bozar. Bu durumda negatif binom gibi alternatif modeller daha gerçekçi sonuç verir.
Overhead (Ek Yük)
Bir işlemin, asıl işten bağımsız zorunlu maliyetidir (ağ iletişimi, serileştirme, orkestrasyon). Büyük ölçekte “küçük overhead” toplam maliyeti belirleyebilir; performans darboğazı analizinde ana şüphelilerden biridir.
Oversampling (Aşırı Örnekleme)
Dengesiz sınıflarda azınlık sınıfını çoğaltarak dengeleme tekniğidir (SMOTE vb.). Recall’ı artırabilir; fakat gerçek dağılımı bozup yanlış pozitifleri artırma riskine karşı doğrulama ve maliyet metrikleriyle birlikte kullanılmalıdır.
P
P-değeri (p-value)
Bir hipotez testi çerçevesinde, sıfır hipotezi (H0) doğruyken gözlenen (veya daha uç) bir sonucu elde etme olasılığıdır. p-değeri “H0’ın doğru olma olasılığı” değildir; ayrıca tek başına karar verdirmez—etki büyüklüğü ve güven aralığıyla birlikte okunmalıdır.
PACF (Partial Autocorrelation Function / Kısmi Otokorelasyon)
Zaman serilerinde, aradaki gecikmelerin etkisi çıkarıldıktan sonra belirli bir lag ile ilişkinin gücünü ölçer. AR (otoregresif) derecesi seçimi için pratik bir araçtır.
Package (Paket)
Kodun yeniden kullanılabilir modüller halinde paketlenmesidir (kütüphane/bağımlılık). Veri bilimi projelerinde paket yönetimi yapılmazsa “benim bilgisayarımda çalışıyordu” sorunu kronikleşir.
Padding (Dolgu)
Sıralı verilerde (metin, zaman serisi) farklı uzunlukları sabitlemek için eksik kısımları doldurma işlemidir. Yanlış padding ve maskeleme (masking) yapılırsa model, “dolgu”yu sinyal sanıp hatalı öğrenebilir.
PageRank
Graf üzerinde düğümlerin önemini bağlantı yapısından çıkaran sıralama yöntemidir. Veri bilimi açısından, “ağ yapısından önem/etki” çıkarma problemlerinin klasik örneklerinden biridir.
Pairwise Comparison (Çiftli Karşılaştırma)
Özellikle sıralama/öneri sistemlerinde öğeleri ikili kıyaslarla değerlendirme yaklaşımıdır (A mı B mi?). Pairwise kayıp fonksiyonları, doğrudan “en üst sırayı iyileştirme” hedefine daha yakın olabilir.
Panel Data (Panel Veri)
Aynı birimlerin (kullanıcı, mağaza, ülke) zaman içinde tekrar gözlemlendiği veri türüdür. Bağımsızlık varsayımı bozulur; sabit etkiler/karma etkiler modelleri ve uygun split stratejileri gerekir.
Parallelism (Paralellik)
İş yükünü aynı anda birden fazla çekirdek/düğümde çalıştırma yaklaşımıdır. Veri mühendisliğinde performans çoğu zaman paralellik, veri bölümleme (partitioning) ve shuffle maliyeti dengesine bağlıdır.
Parameter (Parametre)
Modelin eğitim sırasında öğrendiği değerlerdir (katsayılar, ağırlıklar). Parametreler “öğrenilir”; hiperparametreler (learning rate gibi) ise seçilir/aranır.
Parameter Server (Parametre Sunucusu)
Dağıtık eğitimde model parametrelerini merkezi veya yarı merkezi biçimde tutup işçi düğümlerle senkronize eden mimari yaklaşımıdır. Ölçek büyüdükçe tutarlılık, ağ maliyeti ve senkronizasyon stratejisi kritikleşir.
Pareto İlkesi (80/20 Kuralı)
Sonuçların büyük kısmının, nedenlerin küçük bir kısmından geldiğini anlatan pratik gözlemdir. Analitikte “en büyük etkiyi yapan az sayıdaki faktörü” bulmak için iyi bir yön duygusu verir; ama her probleme otomatik uygulanmaz.
Pareto Dağılımı
Ağır kuyruklu (heavy-tailed) dağılımların klasik örneğidir (gelir/servet benzeri). Ortalama yanıltıcı olabilir; kuyruk yüzdelikleri ve eşitsizlik ölçüleriyle birlikte incelenmelidir.
Partition (Bölümleme / Partition)
Veriyi belirli bir anahtara göre parçalara ayırma işlemidir (tarih, ülke, müşteri_id). Doğru partitioning, sorgu maliyetini dramatik düşürür; yanlış partition hot-spot ve gereksiz tarama üretir.
Partition Key (Bölümleme Anahtarı)
Partition mantığını belirleyen alan(lar)dır. Zaman bazlı işlerde genellikle tarih; kullanıcı bazlı işlerde kullanıcı_id seçilir—ama seçim, sorgu desenine göre yapılmazsa performans düşer.
Partition Pruning (Partition Budama)
Sorgunun, yalnızca ilgili partition’ları okuyup diğerlerini atlamasıdır. Büyük veri ortamlarında maliyet optimizasyonunun temel mekanizmalarından biridir; bunun için filtrelerin partition key ile uyumlu olması gerekir.
Path Analysis (Yol Analizi)
Nedensel/yarı-nedensel ilişki yapılarını, değişkenler arası yönlü bağlantılarla (model varsayımıyla) inceleyen yöntem ailesidir. Yanlış model spesifikasyonu, “güzel görünen” ama hatalı nedensel hikâye üretebilir.
Pattern Mining (Örüntü Madenciliği)
Veri içinde tekrar eden yapı ve ilişkileri bulma yaklaşımıdır (birliktelik kuralları, sekans örüntüleri vb.). En büyük risk, istatistiksel anlamlılık yerine “rastlantısal örüntü” peşine düşmektir.
PCA (Principal Component Analysis / Temel Bileşenler Analizi)
Kovaryans yapısına göre boyut indirgeme yaparak veriyi daha az bileşenle temsil eder. Gürültüyü azaltabilir ve görselleştirmeyi kolaylaştırır; ancak bileşenlerin yorumlanması alan bilgisi ister.
Percentile (Yüzdelik Dilim / Persantil)
Bir dağılımda belirli bir yüzdelik noktayı ifade eder (p50 medyan, p95, p99). Operasyonel performansta ortalama yerine persantil kullanmak kuyruk problemlerini görünür kılar.
Performance Tuning (Performans Ayarı)
Sorgu, pipeline veya model servisinin maliyet/gecikme açısından optimize edilmesi sürecidir. Asıl başarı, darboğazın (CPU/IO/network/shuffle) doğru teşhis edilmesine bağlıdır.
Permutation Importance (Permütasyon Önem Analizi)
Bir özelliğin değerlerini karıştırıp performans düşüşüne bakarak önem tahmin eder. Modelden bağımsız bir fikir verir; ancak korelasyonlu özelliklerde önem “paylaşımı” nedeniyle sonuçlar yanıltıcı olabilir.
Perplexity (Şaşkınlık / Perplexity)
Dil modelleri ve bazı topic model’lerde kullanılan, modelin veriyi ne kadar iyi açıkladığını özetleyen metriktir. Daha düşük perplexity genelde daha iyi uyum demektir; fakat “insan açısından anlamlılık” ile her zaman bire bir örtüşmez.
Persistent Storage (Kalıcı Depolama)
Uygulama yeniden başlasa bile verinin kaybolmadığı depolama katmanıdır. Veri ürünlerinde kalıcılık, yeniden üretilebilirlik (reproducibility) ve denetim izi için kritik ön koşuldur.
Personal Data (Kişisel Veri)
Kimliği belirli veya belirlenebilir kişiye ilişkin her türlü bilgidir. Veri bilimi projelerinde kişisel veri; erişim kontrolü, minimizasyon, saklama politikası ve denetim süreçlerini zorunlu kılar.
PII (Personally Identifiable Information / Kişisel Tanımlayıcı Bilgi)
Bir kişiyi doğrudan tanımlayan veya diğer verilerle birleştirildiğinde tanımlayabilen bilgiler (e-posta, kimlik no, cihaz kimliği vb.). PII içeren veri setlerinde maskeleme, pseudonymization ve erişim kısıtları temel güvenlik gereksinimleridir.
Pipeline (Boru Hattı)
Verinin veya modelleme sürecinin ardışık adımlar halinde tasarlanmış iş akışıdır (ingestion → transform → serve). İyi pipeline; idempotent, izlenebilir, test edilebilir ve yeniden çalıştırılabilir olmalıdır.
Pivot (Pivotlama)
Veriyi satır-kolon ekseninde yeniden şekillendirerek farklı bir özet görünüm üretmektir (ör. tarih satır, kategori kolon). Analitik hız kazandırır; ancak granülarite kaybı ve çift sayım riskine dikkat edilmelidir.
Platt Scaling
Sınıflandırma skorlarını olasılığa çevirmek için lojistik regresyon tabanlı kalibrasyon yöntemidir. ROC-AUC iyi olsa bile olasılıkların “güvenilir” olması gereken risk kararlarında sık kullanılır.
Poisson Dağılımı
Belirli bir zaman/alan içinde gerçekleşen olay sayısını modelleyen dağılımdır (çağrı sayısı, tıklama sayısı). Varyans ortalamadan büyükse (overdispersion) Poisson varsayımı bozulur ve alternatifler gerekebilir.
Policy (Politika)
(1) Pekiştirmeli öğrenmede: ajanın durumdan aksiyona karar veren fonksiyonu. (2) Kurumsal bağlamda: veri erişimi, saklama ve kalite gibi yönetişim kuralları. Bağlam belirtilmeden “policy” kavramı karışır.
Polynomial Features (Polinom Özellikler)
Doğrusal modellere doğrusal olmayanlık kazandırmak için özelliklerin kuvvetlerini/çarpımlarını ekleme tekniğidir. Faydalı olabilir; fakat boyut patlaması ve overfitting riskini artırır—düzenlileştirme ile birlikte düşünülmelidir.
Population (Popülasyon)
İstatistiksel çıkarımın hedeflediği tüm evrendir (tüm kullanıcılar, tüm işlemler). Örneklem (sample) popülasyonu temsil etmiyorsa sonuçlar genellenemez.
Posterior (Artgösterim Dağılımı)
Bayesyen çıkarımda, prior ile verinin birleşiminden oluşan güncellenmiş inanç dağılımıdır. Posterior, belirsizliği “tek sayı” yerine dağılım olarak taşır.
Precision (Kesinlik / Pozitif Öngörü Değeri)
Pozitif tahmin edilenlerin ne kadarının gerçekten pozitif olduğunu ölçer: TP / (TP+FP). İnceleme kapasitesi kısıtlı süreçlerde (fraud alarmları) precision kritik bir kalite sinyalidir.
Precision–Recall Eğrisi
Eşik değiştikçe precision ve recall arasındaki değişimi gösterir. Dengesiz sınıflarda ROC eğrisine göre daha bilgilendirici olabilir; özellikle pozitif sınıf nadirse PR-AUC daha anlamlıdır.
Predictive Analytics (Tahminleyici Analitik)
“Ne olacak?” sorusunu modelleyip tahmin üretmeye odaklanan analitik türüdür (churn, talep, risk). Başarı, offline metrik kadar karar süreçlerine doğru entegrasyonla ölçülür.
Predictor (Tahminleyici / Model Girdisi)
Hedefi açıklamak veya tahmin etmek için kullanılan bağımsız değişken(ler)dir. Nedensel bağlamda predictor ≠ cause; yanlış yorum, korelasyonu nedensellik sanmaya götürür.
Preprocessing (Ön İşleme)
Ham veriyi analiz/modelleme için uygun hale getirme adımlarıdır (temizleme, encoding, ölçekleme, outlier yönetimi). En büyük risk, ön işlemenin split’ten önce yapılmasıyla veri sızıntısı üretmektir.
Prescriptive Analytics (Önerici / Reçeteleyici Analitik)
“Ne yapmalıyız?” sorusuna yanıt üretir; tahmin + optimizasyon + kısıt yönetimini birleştirir. Bir modelin skorunu aksiyona çevirmeden gerçek iş değeri oluşmaz.
Prior (Önsel Dağılım)
Bayesyen yaklaşımda veriden önceki inancı temsil eder. Prior seçimi özellikle küçük veride sonuçları belirgin etkiler; bu yüzden varsayımlar şeffaf yazılmalıdır.
Probability (Olasılık)
Bir olayın gerçekleşme ihtimalini nicelleştirir. Model skoru “olasılık” gibi raporlanıyorsa kalibrasyon ve belirsizlik değerlendirmesi şarttır.
Probability Density Function (PDF / Olasılık Yoğunluk Fonksiyonu)
Sürekli değişkenlerde olasılığın yoğunluğunu tanımlar. Yoğunluk, tek noktada olasılık değildir; aralık üzerinden olasılık hesaplanır—yorum hataları sık görülür.
Propensity Score (Eğilim Skoru)
Bir birimin müdahale alma olasılığıdır (treatment assignment probability). Gözlemsel nedensel analizde grupları dengelemek (matching/weighting) için kullanılır; yanlış modelleme dengeyi bozup yanlı etki tahmini üretir.
Prophet
Zaman serisi tahmini için pratik bir modelleme yaklaşımıdır; trend ve mevsimsellik bileşenlerini ayrıştırarak çalışır. Hızlı prototipleme sağlar; ancak güçlü dışsal etkiler, yapısal kırılmalar ve veri kalitesi sorunlarında varsayımlar dikkatle kontrol edilmelidir.
Protocol Buffers (Protobuf)
Yapılandırılmış veriyi sıkıştırılmış ve şema tabanlı biçimde serileştirme formatıdır. Büyük ölçekli veri akışlarında JSON’a göre daha verimli olabilir; şema evrimi (schema evolution) disiplin gerektirir.
Privacy (Gizlilik)
Veri toplama, işleme ve paylaşımda bireyin haklarını ve riskleri yönetme disiplinidir. Veri bilimi projelerinde gizlilik, sadece “masklemek” değil; minimizasyon, erişim kontrolü ve denetlenebilirliktir.
Privacy Budget (Gizlilik Bütçesi)
Diferansiyel gizlilik bağlamında, yayımlanan istatistiklerin toplam gizlilik kaybını nicelleştiren bütçedir. Bütçe yönetilmezse farklı yayınlar birikerek yeniden tanımlama riskini artırabilir.
Pseudonymization (Takma Adlandırma / Pseudonimleştirme)
Kişisel veriyi doğrudan tanımlayıcı öğelerden ayırıp yerine takma kimlik koyma işlemidir. Anonimleştirme değildir; anahtar eşlemesi mevcutsa geri döndürülebilir, bu yüzden güvenlik kontrolleri şarttır.
Pull Request (PR / Değişiklik Talebi)
Kod değişikliklerini gözden geçirme ve birleştirme iş akışıdır. Veri biliminde üretimleşen projelerde (pipeline/model servis) PR kültürü; kalite, izlenebilirlik ve tekrar üretilebilirliği artırır.
Pushdown (Predicate Pushdown)
Sorgu filtrelerini mümkün olduğunca veri kaynağına yakın uygulayarak gereksiz veri taşımayı azaltma optimizasyonudur. Büyük veri sistemlerinde maliyeti düşürmenin en “yüksek kaldıraçlı” tekniklerinden biridir.
PySpark
Spark’ın Python arayüzüdür; dağıtık veri işleme ve büyük ölçekli ETL/analitik için kullanılır. Performans, veri bölümleme ve shuffle azaltma stratejilerine çok duyarlıdır.
Python
Veri bilimi ekosisteminde analiz, modelleme, otomasyon ve veri mühendisliği işlerinin büyük kısmında kullanılan programlama dilidir. Üretimde sürdürülebilirlik için paketleme, test, tip kontrolü ve ortam yönetimi (env) disiplinleri kritikleşir.
Q
QA (Quality Assurance / Kalite Güvencesi)
Veri hattı, rapor veya model çıktısının “beklenen kalite eşiğini” karşıladığını doğrulayan süreç ve kontroller bütünüdür. Veri dünyasında QA; testler (null oranı, aralık kontrolleri), örnekleme denetimleri, regresyon testleri ve yayın öncesi “quality gate” pratikleriyle somutlaşır.
Q-Function (Q Fonksiyonu)
Pekiştirmeli öğrenmede, belirli bir durumda (state) belirli bir eylemi (action) seçmenin beklenen toplam ödülünü (return) veren fonksiyondur: Q(s,a). Politika (policy) çoğu zaman bu fonksiyondan türetilir; çünkü “hangi eylem daha iyi?” sorusunu doğrudan yanıtlar.
Q-Learning
Model-free pekiştirmeli öğrenme algoritmasıdır; ajan, Q(s,a) değerlerini deneyimden (trial-and-error) öğrenir. Ortamın dinamiklerini bilmeden çalışabilir; ancak keşif stratejisi (ε-greedy vb.) ve durum-aksiyon uzayının büyüklüğü pratik performansı belirler.
Q–Q Plot (Quantile–Quantile Plot / Kuantil–Kuantil Grafiği)
Bir veri setinin kuantillerini, referans bir dağılımın (çoğunlukla normal) kuantilleriyle karşılaştıran teşhis grafiğidir. Noktalar diyagonale yakınsa uyum iyidir; sistematik sapmalar çarpıklık, ağır kuyruk veya aykırı değer sinyali verir.
QPS (Queries Per Second / Saniye Başına Sorgu)
Bir veri servisinin veya sorgu motorunun saniyede kaç sorgu yanıtlayabildiğini ölçen throughput metriğidir. QPS tek başına yeterli değildir; latency yüzdelikleri (p95/p99) ve hata oranlarıyla birlikte okunmalıdır.
Quantile Normalization (Kuantil Normalizasyonu)
Birden fazla örneğin (özellikle biyoinformatikte) dağılımlarını kuantil hizalayarak “aynı dağılıma” getiren normalizasyon tekniğidir. Batch etkilerini azaltabilir; ancak gerçek biyolojik/iş sinyalini de bastırma riski taşıdığı için kör uygulanmamalıdır.
Quantile Sketch (Kuantil Eskizi / t-digest vb.)
Akış (streaming) veya çok büyük veri üzerinde yaklaşık kuantil (p50/p95/p99) hesaplamak için kullanılan özet veri yapılarıdır. Tam veri tutmadan kuyruk metriklerini izlemeyi mümkün kılar; bellek–hata dengesi parametrelerle kontrol edilir.
Quantization (Kuantizasyon)
Sayıları daha düşük hassasiyetle temsil etme işlemidir (float32 → int8 gibi). Model çıkarımını hızlandırır ve belleği düşürür; fakat hassasiyet kaybı bazı modellerde doğruluğu düşürebilir—özellikle kuyruk davranışlarında etkisi hissedilir.
Quantization-Aware Training (QAT / Kuantizasyona Duyarlı Eğitim)
Modeli eğitim sırasında kuantizasyon etkilerini “simüle ederek” eğitme yaklaşımıdır. Amaç, int8 gibi düşük hassasiyetli çıkarımda performans kaybını minimize etmektir; edge/gerçek zamanlı sistemlerde kritik bir üretim tekniğidir.
Quasi-Experimental Design (Yarı-Deneysel Tasarım)
Randomizasyonun mümkün olmadığı durumlarda nedensel etkiyi tahmin etmeyi hedefleyen tasarım ailesidir (DiD, regression discontinuity, interrupted time series vb.). Gücü, açık varsayımlara dayanır; varsayımlar yazılmadan “nedensel sonuç” iddiası risklidir.
Quasi-Identifier (Yarı Tanımlayıcı)
Tek başına kişiyi doğrudan tanımlamayan; fakat başka alanlarla birleşince kişiyi belirlenebilir hale getirebilen özniteliktir (doğum tarihi + posta kodu + cinsiyet gibi). Gizlilikte asıl risk çoğu zaman doğrudan kimlik alanlarından değil, quasi-identifier kombinasyonlarından gelir.
Query (Sorgu)
Bir veri kaynağından belirli koşullarla bilgi isteme ifadesidir (SQL sorgusu, arama sorgusu, API query vb.). Analitik hataların önemli kısmı “yanlış sorgu”dan değil; yanlış granülarite, yanlış join ve yanlış filtre mantığından doğar.
Query Cache (Sorgu Önbelleği)
Sık çalıştırılan sorguların sonucunu saklayıp tekrarında hızlı yanıt üretme mekanizmasıdır. Maliyet ve gecikmeyi düşürür; ancak veri güncelliği (freshness) beklentisiyle uyumlu TTL/invalidasyon stratejisi kurulmazsa “eski doğru” üretir.
Query Execution Plan (Sorgu Çalıştırma Planı / Explain Plan)
Sorgunun hangi adımlarla (scan, join, aggregate, sort) çalıştırılacağını gösteren yürütme planıdır. Performans sorunları çoğu zaman plan üzerinden teşhis edilir: yanlış join sırası, indeks kullanmama, büyük shuffle gibi.
Query Federation (Sorgu Federasyonu)
Tek bir sorguyla birden fazla veri kaynağını (farklı DB’ler, lake + warehouse, API + DB) birlikte sorgulama yaklaşımıdır. Esneklik sağlar; fakat güvenlik, gecikme, tutarlılık ve maliyet yönetimi daha karmaşık hale gelir.
Query Hint (Sorgu İpucu)
Sorgu motoruna “şu join stratejisini kullan” gibi yönlendirme veren ipuçlarıdır. Acil performans düzeltmelerinde işe yarar; ancak motor optimizasyonunu by-pass ettiği için uzun vadede teknik borç üretebilir.
Query Latency (Sorgu Gecikmesi)
Sorgunun isteği alıp yanıt üretmesine kadar geçen süredir. Ortalama yerine p95/p99 gecikmeler izlenmezse, kullanıcı deneyimini bozan “kuyruk gecikmesi” gizli kalır.
Query Optimization (Sorgu Optimizasyonu)
Sorguyu yeniden yazarak, uygun indeks/partition stratejileriyle ve plan iyileştirmeleriyle daha düşük maliyetle çalıştırma sürecidir. En büyük kaldıraçlar genellikle: doğru filtreleme, partition pruning, join kardinalitesi kontrolü ve gereksiz kolon okumayı azaltmaktır.
Query Planner (Sorgu Planlayıcı)
Sorguyu değerlendirip en uygun yürütme planını seçen motor bileşenidir. İstatistikler (table stats), veri dağılımı ve indeks bilgisi zayıfsa planlayıcı yanlış plan seçebilir; bu yüzden istatistik güncelliği kritik bir performans girdisidir.
Queue Depth (Kuyruk Derinliği)
Bir iş kuyruğunda bekleyen iş sayısıdır. Queue depth yükseliyorsa sistem kapasitesi talebi karşılamıyor demektir; veri hatlarında bu durum gecikme ve “geç gelen veri” problemlerini büyütür.
Queueing Theory (Kuyruk Teorisi)
Sistemlerde bekleme sürelerini, kapasiteyi ve gecikme dağılımlarını modelleyen teorik çerçevedir. Veri servislerinde p95/p99 gecikmelerin neden “ortalama iyi olsa bile” patladığını anlamak için özellikle değerlidir.
Quickselect
Bir dizide k’ıncı en küçük (veya en büyük) elemanı beklenen doğrusal zamanda bulan seçim algoritmasıdır. Kuantil/medyan gibi istatistikleri büyük veride tam sıralama yapmadan hesaplamak için teorik temel sağlar.
Quorum (Kvorum)
Dağıtık veri sistemlerinde okuma/yazma tutarlılığını sağlamak için belirli sayıda düğümün onayını gerektiren yaklaşım. Quorum ayarları; tutarlılık, erişilebilirlik ve gecikme arasında doğrudan takas yaratır.
Quota (Kota)
Kaynak kullanımına getirilen sınırdır (API çağrısı, sorgu sayısı, CPU süresi, depolama). Çok kiracılı (multi-tenant) analitik platformlarda adaleti ve maliyet kontrolünü sağlar; yanlış kota tasarımı ise kritik iş yüklerini boğabilir.
R
R (Programlama Dili)
İstatistik ve veri analitiği ekosisteminde köklü bir dildir. Özellikle istatistiksel modelleme, görselleştirme ve akademik analizlerde güçlüdür; ancak üretim sistemlerine entegrasyon için paketleme, bağımlılık ve dağıtım disiplinleri ayrıca planlanmalıdır.
R² (R-Kare / Belirlilik Katsayısı)
Regresyonda hedef değişkendeki varyansın ne kadarının model tarafından açıklandığını ölçer. Yüksek R² her zaman iyi model demek değildir: leakage, yanlış özellikler veya aşırı uyum R²’yi şişirebilir; ayrıca farklı hedef ölçeklerinde ve nonlineer ilişkilerde yanıltıcı olabilir.
RAG (Retrieval-Augmented Generation / Geri Getirim Destekli Üretim)
Üretken modellerde yanıt üretmeden önce ilgili belgeleri/kanıtları arayıp getirerek çıktıyı güçlendiren yaklaşımdır. Veri analitiğinde özellikle kurumsal bilgi erişimi, doküman arama ve rapor özetleme senaryolarında değer üretir; ancak indeks kalitesi ve güncellik (freshness) kritik risk noktalarıdır.
Random Forest (Rastgele Orman)
Bagging mantığıyla birden çok karar ağacını rastgele özellik/örnek altkümeleriyle eğitip sonuçları birleştiren modeldir. Tabular veride güçlü bir baseline’dır; yorumlanabilirlik tek ağaç kadar yüksek olmasa da sağlam performans ve düşük ayar ihtiyacı sağlar.
Random Seed (Rastgele Tohum / Seed)
Rastgelelik içeren işlemlerin (split, sampling, model init) tekrarlanabilir olmasını sağlar. Seed sabitlenmezse “aynı kod, farklı sonuç” durumu oluşur; bu da model karşılaştırmalarını güvenilmez hale getirir.
Random Sampling (Rastgele Örnekleme)
Popülasyondan her birimin eşit seçilme olasılığıyla örneklem alınmasıdır. Temsiliyet için idealdir; ancak pratikte kayıt yanlılığı, erişim kısıtları veya log mekanizması örneklemeyi fark etmeden bozabilir.
Randomization (Randomizasyon)
Deneylerde (A/B) katılımcıları rastgele gruplara atama işlemidir. Nedensel etkiyi güvenilir kılmanın ana mekanizmasıdır; randomizasyon birimi (kullanıcı mı cihaz mı?) yanlış seçilirse interference ve sızıntı sorunları doğar.
Rank (Sıra / Sıralama Değeri)
Bir öğenin liste içindeki konumudur. Arama ve öneri sistemlerinde asıl hedef çoğu zaman “doğruyu bulmak” değil, “doğruyu en üste taşımak” olduğu için rank tabanlı metrikler kritikleşir.
Ranking (Sıralama Problemi)
Öğeleri bir skora göre sıralama problemidir (arama sonuçları, öneri listesi). Sınıflandırmadan farklı olarak, hatanın maliyeti “üst sıralarda” daha yüksektir; eğitim hedefi ve metrikler buna göre seçilir (NDCG, MAP vb.).
Rank Correlation (Sıra Korelasyonu)
İki sıralamanın ne kadar benzer olduğunu ölçer (Spearman, Kendall). Model skorlarıyla gerçek önceliğin “sıra” olarak uyumunu değerlendirmek için kullanılır; doğrusal ilişki aramaz.
RANSAC (Random Sample Consensus)
Aykırı değerlere dayanıklı model uydurma yaklaşımıdır; rastgele alt örneklem seçip model kurar, en çok “inlier” sağlayanı tercih eder. Görüntü işleme ve robust regresyon senaryolarında, outlier’lar klasik en küçük kareleri bozduğunda işe yarar.
Rare Event (Nadir Olay)
Çok düşük oranla gerçekleşen olaylardır (fraud, arıza, ihlal). Bu problemler sınıf dengesizliğinin ötesinde, etiket gecikmesi ve adversarial davranış gibi üretim riskleri taşır; değerlendirme metrikleri ve eşik seçimi maliyet temelli olmalıdır.
Recall (Duyarlılık / Yakalama Oranı)
Gerçek pozitiflerin ne kadarının yakalandığını ölçer: TP / (TP+FN). Kaçırmanın pahalı olduğu senaryolarda (fraud, hastalık taraması) kritik metriktir; tek başına optimize edilirse false positive patlaması yaratabilir.
Receiver Operating Characteristic (ROC Eğrisi)
Eşik değiştikçe TPR (recall) ile FPR arasındaki değişimi gösterir. Sınıf dengesizliği yüksekse ROC iyi görünürken pratikte işe yaramayan modeller görülebilir; PR eğrisiyle birlikte değerlendirmek daha güvenlidir.
Rebalancing (Yeniden Dengeleme)
(1) Sınıf dengesizliğinde örneklem/weight yeniden dengeleme. (2) Portföy analitiğinde varlık ağırlıklarını yeniden ayarlama. Terim bağlamdan koparsa yanlış teknik uygulanabilir.
Recommender System (Öneri Sistemi)
Kullanıcıya içerik/ürün öneren sistemlerdir. Başarı yalnızca CTR değil; çeşitlilik, uzun vadeli elde tutma, adalet ve geri besleme döngüsü etkileriyle birlikte ölçülmelidir.
Reconciliation (Mutabakat)
Farklı kaynaklardan gelen sayıların/tutarların birbirini tutup tutmadığını doğrulama sürecidir (finans raporu vs işlem logu). Analitikte güven inşasının temelidir; mutabakat yapılmadan “doğru KPI” iddiası zayıf kalır.
Regression (Regresyon)
Sürekli hedef değişkeni tahmin etmeye (veya ilişkiyi modellemeye) yönelik yöntem ailesidir. “Tahmin” ile “etki açıklama” hedefleri karıştırılırsa yanlış çıkarım yapılır; metrik ve varsayımlar amaca göre seçilmelidir.
Regularization (Düzenlileştirme)
Modelin aşırı uyumunu azaltmak için karmaşıklığı cezalandırma yaklaşımıdır (L1/L2, dropout vb.). Genelleme performansını artırır; ancak aşırı regularization underfitting’e yol açabilir.
Reinforcement Learning (Pekiştirmeli Öğrenme)
Ajanın, eylem–ödül geri bildirimiyle politika öğrenmesi yaklaşımıdır. Öneri ve karar sistemlerinde “uzun vadeli ödül” hedefi için güçlüdür; fakat keşif maliyeti, güvenlik ve offline değerlendirme zorlukları yüksektir.
Relational Data (İlişkisel Veri)
Tablolar arası ilişkilerle (primary/foreign key) modellenen veridir. Analitikte en büyük risk, yanlış join ile granülariteyi bozup metrikleri şişirmek veya eksiltmektir.
Relational Algebra (İlişkisel Cebir)
Seçim, projeksiyon, birleştirme (join) gibi işlemlerle tablo dönüşümlerinin teorik temelidir. SQL optimizasyonunu ve sorgu planlarını anlamayı kolaylaştırır.
Reliability (Güvenilirlik)
(1) Sistem mühendisliğinde hizmetin arızasız çalışma olasılığı. (2) İstatistikte ölçümün tutarlılığı. Veri ürünlerinde güvenilirlik; tazelik, doğruluk ve kesintisiz erişim birlikte sağlandığında anlam kazanır.
Reliability Diagram (Güvenilirlik Diyagramı / Kalibrasyon Grafiği)
Tahmin olasılıklarının gerçekleşen oranlarla ne kadar örtüştüğünü görselleştirir. Risk kararlarında “0.9 dediysem gerçekten 0.9 mu?” sorusunu cevaplamak için temel teşhis aracıdır.
Reproducibility (Tekrar Üretilebilirlik)
Aynı veri + aynı kod + aynı ortamla aynı sonucu yeniden üretebilme kabiliyetidir. Veri bilimi projelerinde deney izleme, veri sürümleme ve rastgelelik kontrolü yoksa reproducibility hızla kaybolur.
Residual (Artık / Hata Terimi)
Model tahmini ile gerçek değer arasındaki farktır. Artıkların yapısı (trend, otokorelasyon, heteroscedasticity) modelin yanlış kurulduğunu veya eksik değişken olduğunu işaret edebilir.
Residual Analysis (Artık Analizi)
Artıkların dağılımını ve desenlerini inceleyerek model varsayımlarını test etme yaklaşımıdır. Özellikle regresyonda “model yeterli mi?” sorusunun en güçlü pratik kontrollerinden biridir.
Resampling (Yeniden Örnekleme)
Bootstrap, cross-validation, jackknife gibi tekniklerle örneklemden tekrar tekrar örnek türetip belirsizlik ve performans tahmini yapmaktır. Küçük veri ve kapalı formül olmayan metriklerde kritiktir.
Retraining (Yeniden Eğitim)
Üretimdeki modelin belirli periyotla veya drift tetiklenince yeni veriyle yeniden eğitilmesidir. Yeniden eğitim; veri kalitesi kapıları, onay akışı ve geri dönüş (rollback) olmadan yapılırsa üretimde regresyona yol açabilir.
Retention (Elde Tutma)
Kullanıcıların üründe kalma ve tekrar etkileşim gösterme davranışıdır. Retention tanımı (D1, D7, D30; “aktif” kriteri) doğru kilitlenmezse ekipler farklı gerçeklikleri ölçer.
Retention Rate (Elde Tutma Oranı)
Belirli bir kohortun, belirli bir zaman noktasında hâlâ aktif kalan yüzdesidir. Ortalama kullanıcı üzerinden değil kohort bazında izlenirse ürün değişikliklerinin etkisi daha net görülür.
Retry (Yeniden Deneme Mekanizması)
Pipeline veya servis hatalarında işlemi otomatik tekrar deneme stratejisidir. Faydalıdır; ancak idempotency yoksa veri çoğaltma (duplicate write) ve yanlış metrik üretme riski taşır.
Right Censoring (Sağdan Sansürleme)
Olayın (churn, arıza) gözlem penceresi içinde gerçekleşmediği durumdur. Sansürleme yok sayılırsa süre tahminleri sistematik yanlı olur; survival analiz yöntemleri bu yüzden kullanılır.
Risk Score (Risk Skoru)
Bir olayın (fraud, temerrüt, churn) gerçekleşme olasılığını veya risk seviyesini özetleyen skor. Skorun “olasılık” gibi kullanılması isteniyorsa kalibrasyon şarttır; ayrıca eşik seçimi operasyon kapasitesiyle birlikte yapılmalıdır.
RMSE (Root Mean Squared Error / Kök Ortalama Kare Hata)
Hata karelerinin ortalamasının kareköküdür. Büyük hataları daha fazla cezalandırır; kuyruk hatalarının önemli olduğu tahmin problemlerinde MAE’ye göre daha duyarlı bir metriktir.
RNN (Recurrent Neural Network / Tekrarlayan Sinir Ağı)
Sıralı veride (metin, zaman serisi) geçmiş bilgisini taşıyarak öğrenen sinir ağı ailesidir. Uzun bağımlılıklarda klasik RNN zorlanır; LSTM/GRU gibi türevler veya Transformer tabanlı alternatifler tercih edilir.
Rolling Window (Kayan Pencere)
Zaman serisinde metrikleri veya özellikleri sabit uzunluklu bir pencerede (son 7 gün ortalaması gibi) hesaplama yaklaşımıdır. Doğru tasarlanmazsa “gelecek bilgisi” sızıntısı veya yanlış zaman hizası (event time vs processing time) üretir.
Root Cause Analysis (RCA / Kök Neden Analizi)
Bir metrik bozulmasının veya sistem arızasının asıl nedenini sistematik biçimde bulma sürecidir. İyi RCA; hipotez listesi, kanıt, veri mutabakatı ve aksiyon maddeleriyle biter—“grafik gösterdik” ile değil.
Row-Level Security (RLS / Satır Bazlı Güvenlik)
Kullanıcının/rolün yalnızca yetkili olduğu satırları görmesini sağlayan veri güvenliği yaklaşımıdır. Çok kiracılı BI ve veri paylaşımında kritiktir; yanlış kurgulanırsa veri sızıntısı veya yanlış raporlama doğurur.
Rule-based System (Kural Tabanlı Sistem)
Deterministik if-then kurallarıyla karar veren sistemlerdir. Hibrit yaklaşımlarda modelin yanında “guardrail” görevi görür; ancak kural sayısı arttıkça bakım maliyeti ve çelişki yönetimi büyür.
Runbook (Operasyon Rehberi)
Üretimde bir alarm veya arıza olduğunda izlenecek adımları yazılı hale getirir. Veri ve model sistemlerinde runbook; hangi dashboard’a bakılacağı, hangi backfill’in nasıl çalıştırılacağı ve rollback adımlarını netleştirerek MTTR’ı düşürür.
S
SARIMA (Seasonal ARIMA)
ARIMA’nın mevsimsellik (seasonality) bileşeni eklenmiş hâlidir; trend + otokorelasyon + mevsimsel tekrarları birlikte modeller. Periyot (ör. 7 gün, 12 ay) doğru seçilmezse model “mevsimsellik varmış gibi” davranabilir veya gerçek mevsimselliği kaçırabilir.
Scale (Ölçek)
Bir değişkenin değer aralığı ve birimi (TL, dakika, metre vb.). Ölçek, mesafe tabanlı algoritmalarda ve gradyan temelli optimizasyonda doğrudan performans/kararlılık etkisi yaratır.
Scaling (Ölçekleme)
Özellikleri belirli bir aralığa veya dağılıma çekme işlemlerinin genel adıdır (standardizasyon, min–max vb.). Split’ten (train/test ayrımı) önce ölçekleme yapmak veri sızıntısına yol açabilir; dönüşüm yalnızca eğitim verisiyle “öğrenilip” diğer setlere uygulanmalıdır.
Schema (Şema)
Veri alanlarının isimlerini, tiplerini ve yapısını tanımlar (tablo kolonları, JSON alanları vb.). Şema belirsizse veri tüketicileri farklı yorum yapar ve metrikler tutarsızlaşır.
Schema Evolution (Şema Evrimi)
Zamanla şemada alan ekleme/çıkarma/değiştirme sürecidir. Geriye uyumluluk (backward compatibility), versiyonlama ve veri sözleşmesi kurulmadan yapılan şema değişiklikleri downstream rapor ve modelleri “sessizce” bozabilir.
Schema-on-Read
Ham veriyi esnek biçimde saklayıp şemayı okuma anında uygulama yaklaşımıdır. Keşif ve hız sağlar; fakat yönetişim zayıfsa “aynı veri, farklı okuma” nedeniyle tutarsız gerçeklik üretir.
Schema-on-Write
Veriyi yazmadan önce şemaya uydurup doğrulama (validation) yapan yaklaşım. Tutarlılık ve kaliteyi artırır; ancak değişime daha az esnektir, şema değişiklikleri daha kontrollü yönetilmelidir.
Score (Skor)
Modelin ürettiği sayısal çıktı (risk skoru, olasılık skoru, sıralama skoru). Skorun “olasılık” diye kullanılabilmesi için kalibrasyon gerekir; ham skor ile olasılık aynı şey değildir.
Score Calibration (Skor Kalibrasyonu)
Skorların gerçek olasılıkları yansıtacak şekilde dönüştürülmesidir. Özellikle risk kararlarında (fraud/temerrüt) “0.8 skoru gerçekten ≈%80 mi?” sorusunu güvence altına alır.
Scorecard (Skor Kartı)
Özellikle risk ve kredi analitiğinde, değişken katkılarını puanlara çeviren, yorumlanabilir karar şemasıdır. Avantajı şeffaflık ve regülasyon uyumudur; dezavantajı karmaşık doğrusal olmayanlıkları kaçırabilmesidir.
Seasonality (Mevsimsellik)
Zaman serisinde düzenli aralıklarla tekrar eden desenlerdir (haftalık, aylık, yıllık). Mevsimsellik doğru ayrıştırılmazsa trend yanlış ölçülür ve tahmin hatası büyür.
Segmentation (Segmentasyon)
Kullanıcıları/ürünleri benzer davranış veya özelliklere göre gruplama yaklaşımıdır. Segmentasyon “kümeleme çıktısı”ndan ibaret değildir; segmentlerin iş aksiyonuna bağlanması (hedefleme, farklılaştırma) gerekir.
Self-Supervised Learning (Kendi Kendine Gözetimli Öğrenme)
Etiket olmadan, verinin kendi içinden üretilen bir görevle temsil öğrenme yaklaşımıdır (maskeli tahmin, karşılaştırmalı öğrenme vb.). Etiketleme maliyetini düşürür; ama ön görev ile gerçek görev uyumsuzsa fayda sınırlı kalır.
Semi-Supervised Learning (Yarı Gözetimli Öğrenme)
Az etiketli + çok etiketsiz veriyi birlikte kullanarak model eğitme yaklaşımıdır. Etiketsiz veri dağılımı, hedef dağılımdan sapıyorsa model yanlış yönde “kendini ikna edebilir”.
Sensitivity (Duyarlılık / Recall)
Gerçek pozitiflerin ne kadarının yakalandığını ölçer: TP/(TP+FN). Kaçırmanın maliyeti yüksekse (fraud, arıza) ana metrik hâline gelir; tek başına optimize edilirse yanlış pozitifler artabilir.
Sensitivity Analysis (Duyarlılık Analizi)
Bir varsayım, parametre veya giriş değişkenindeki küçük değişimin çıktıyı ne kadar etkilediğini ölçer. Özellikle simülasyon, tahmin ve karar sistemlerinde kırılgan noktaları (single point of failure) ortaya çıkarır.
Sentiment Analysis (Duygu Analizi)
Metinden olumlu/olumsuz/nötr duygu (veya daha ince duygu sınıfları) çıkarma görevidir. Domain’e göre sözlükler ve etiket tanımı değişir; ironi/sarkazm ve bağlam kaybı tipik hata kaynaklarıdır.
Serialization (Serileştirme)
Veriyi veya modeli, saklanabilir/taşınabilir bir formata dönüştürme işlemidir (dosya, mesaj, byte stream). Üretimde sürüm uyumsuzluğu ve şema evrimi, serileştirmede en sık kırılma nedenidir.
Serving (Servisleme)
Modelin veya veri ürününün tahmin/sonuç üretimini uygulamalara sunma katmanıdır (API, batch, edge). Başarı yalnızca doğruluk değil; gecikme, dayanıklılık, gözlemlenebilirlik ve geri dönüş (rollback) ile ölçülür.
Sessionization (Oturumlama)
Ham event akışını, kullanıcı oturumlarına bölme işlemidir (örn. 30 dk inaktivite → yeni oturum). Oturum kuralı yanlışsa huni, retention ve davranış metrikleri sistematik olarak bozulur.
SHAP (Shapley Tabanlı Açıklama)
Bir tahminde özellik katkılarını oyun teorisindeki Shapley değerleri fikriyle paylaştıran açıklama yaklaşımıdır. Güçlü bir açıklama aracıdır; ancak korelasyonlu özelliklerde katkı paylaşımı yorumunu zorlaştırır.
Shuffle (Karıştırma)
Veriyi rastgele permüte etme işlemidir. Eğitimde batch’leri çeşitlendirmek için faydalıdır; zaman serisinde veya bağımlı veride kör shuffle yapmak leakage ve yanlış değerlendirme üretir.
Signal (Sinyal)
Hedefi açıklayan/öngören “gerçek bilgi” kısmıdır. Analitikte amaç, gürültüyü azaltıp sinyali görünür kılmak; modelleme ise sinyali genelleştirecek şekilde yakalamaktır.
Signal-to-Noise Ratio (SNR / Sinyal–Gürültü Oranı)
Sinyalin gücünün gürültüye oranıdır. SNR düşükse model karmaşıklığını artırmak değil; ölçüm sistemini, veri toplama sürecini ve özellik tasarımını iyileştirmek daha etkili olur.
Simpson Paradoksu
Birden fazla grubun ayrı ayrı trendi ile tüm verinin birleşik trendinin ters yönde görünmesi olgusudur. Yanlış agregasyon seviyesi ve karıştırıcı değişkenler yüzünden “tam tersi karar” aldırabilen klasik analitik tuzaktır.
Skewness (Çarpıklık)
Dağılımın simetrik olmama derecesidir. Pozitif çarpıklık (sağa uzun kuyruk) gelir/süre gibi metriklerde sık görülür; ortalama yerine medyan ve kuantiller daha anlamlı özetler sunabilir.
SLA (Service Level Agreement / Hizmet Seviyesi Anlaşması)
Hizmetin sağlamak zorunda olduğu performans/erişilebilirlik hedeflerini tanımlar (örn. aylık %99.9). Veri ve model servislerinde SLA; gecikme, hata oranı, tazelik ve uptime hedefleriyle somutlaşır.
SLI (Service Level Indicator / Hizmet Seviyesi Göstergesi)
SLA/SLO’yu ölçmek için kullanılan metriklerdir (p95 latency, error rate, freshness lag). Yanlış SLI seçimi, “hedefi tutturduk” sanırken kullanıcı deneyiminin bozulmasına yol açabilir.
SLO (Service Level Objective / Hizmet Seviyesi Hedefi)
SLA’nın operasyonel hedefe çevrilmiş hâlidir (örn. p99 < 300ms, günlük veri tazeliği < 2 saat). SLO, alarm ve hata bütçesi (error budget) tasarımının merkezidir.
Sliding Window (Kayan Pencere)
Zaman serisinde metrik veya özellikleri, sürekli kayan bir zaman aralığında hesaplama yaklaşımıdır (son 7 gün toplamı gibi). Pencere tanımı event time ile hizalanmazsa “gelecek bilgisi” sızıntısı oluşabilir.
SMOTE (Synthetic Minority Over-sampling Technique)
Dengesiz sınıflarda azınlık sınıfını sentetik örneklerle çoğaltan oversampling tekniğidir. Recall’ı artırabilir; fakat karar sınırını yapay biçimde genişletip false positive’ı artırabilir—değerlendirme mutlaka maliyet metrikleriyle yapılmalıdır.
Smoothing (Düzgünleştirme)
Gürültülü serileri daha pürüzsüz hâle getirme işlemidir (hareketli ortalama, üstel düzgünleştirme vb.). Faydalıdır; ama aşırı smoothing gerçek kırılma noktalarını ve ani değişimleri gizleyebilir.
Softmax
Çok sınıflı sınıflandırmada skorları olasılık dağılımına çeviren fonksiyondur. Softmax çıktısı “olasılık” gibi görünse de kalibrasyon zayıf olabilir; yüksek güvenle yanlış yapma riski vardır.
Sparse Matrix (Seyrek Matris)
Elemanlarının büyük kısmı sıfır olan matris yapısıdır (one-hot, TF-IDF). Seyrek temsil bellek ve hız avantajı sağlar; ancak bazı algoritmalar seyrek yapıda verimsiz çalışabilir.
Sparsity (Seyreklik)
Veride/özellik uzayında sıfırların veya “boş” değerlerin yüksek oranı. Seyreklik, doğru algoritma ve veri yapısıyla avantajdır; yanlış modellemede ise sinyalin dağılmasına ve zayıf genellemeye yol açabilir.
Spearman Korelasyonu (Spearman’s Rank Correlation)
Değişkenler arasındaki monoton ilişkiyi, sıralar üzerinden ölçer. Doğrusal ilişki şartı aramaz; outlier’lara Pearson’a göre daha dayanıklıdır.
Split (Bölme / Veri Ayrımı)
Veriyi eğitim–doğrulama–test olarak ayırma işlemidir. Yanlış split (zaman serisinde rastgele, kullanıcı bazlı veride user leakage) değerlendirmeyi yapay biçimde iyileştirir ve üretimde hayal kırıklığı yaratır.
Stratified Sampling (Katmanlı Örnekleme)
Popülasyonu katmanlara ayırıp her katmandan belirli oranla örneklem alma yaklaşımıdır. Dengesiz sınıflarda train/test split’te sınıf oranını korumak için yaygın kullanılır; ancak katman tanımı yanlışsa temsil bozulabilir.
Streaming (Akış İşleme)
Verinin “geldikçe” (near-real-time) işlendiği paradigmalar bütünüdür. En kritik konular: event time vs processing time, gecikmeli veri, yeniden oynatma (replay) ve idempotent yazma tasarımıdır.
String Similarity (Metin Benzerliği)
İki metnin ne kadar benzer olduğunu ölçen yöntemlerdir (edit distance, n-gram tabanlı benzerlik vb.). Entity resolution ve veri temizlemede güçlüdür; ama yanlış eşleşmenin maliyeti yüksekse eşik ve manuel kontrol kurgusu şarttır.
Structured Data (Yapılandırılmış Veri)
Sabit şema ve tiplerle temsil edilen veridir (tablolar). Analitik için “kolay” görünür; ama granülarite, join kardinalitesi ve şema evrimi iyi yönetilmezse en pahalı hatalar burada ortaya çıkar.
Supervised Learning (Gözetimli Öğrenme)
Etiketli veriyle (X, y) ilişki öğrenen modelleme yaklaşımıdır. Başarı, etiket kalitesi ve hedef tanımına çok bağımlıdır; yanlış etiket/yanlış hedef, en iyi algoritmayı bile boşa çıkarır.
Surrogate Model (Vekil Model)
Karmaşık bir modelin davranışını yaklaşık taklit eden, genelde daha yorumlanabilir modeldir. Açıklanabilirlikte kullanılır; ancak “yaklaşık” olduğu unutulursa yanlış güven üretir.
Survival Analysis (Hayatta Kalma Analizi)
Bir olayın gerçekleşme süresini (churn zamanı, arıza zamanı) sansürleme (censoring) ile birlikte modelleyen istatistiksel çerçevedir. “Süre” problemlerinde klasik sınıflandırmaya göre daha doğru ve bilgi kaybı daha azdır.
SVD (Singular Value Decomposition / Tekil Değer Ayrışımı)
Bir matrisi temel bileşenlerine ayıran lineer cebir tekniğidir. Boyut indirgeme, gürültü azaltma ve öneri sistemlerinde matris faktörizasyonu gibi alanlarda temel araçtır.
SVM (Support Vector Machine / Destek Vektör Makineleri)
Sınıfları ayıran maksimum marjlı hiper-düzlemi bulmaya çalışan güçlü sınıflandırma yaklaşımıdır. Kernel ile doğrusal olmayan ayrım yapabilir; ölçekleme kritik, büyük veri ölçeğinde eğitim maliyeti yüksek olabilir.
Synthetic Data (Sentetik Veri)
Gerçek veriyi taklit eden, yapay üretilmiş veridir. Gizlilik ve veri paylaşımı için caziptir; ancak sentetik veri, orijinal bias’ı taşıyabilir veya yeni artefaktlar üretebilir—mutlaka kalite ve risk testleri yapılmalıdır.
Systematic Bias (Sistematik Önyargı / Sistematik Sapma)
Hatanın rastgele değil, belirli bir yönde ve kalıcı biçimde oluşmasıdır (ölçüm cihazı drift’i, etiketleme yanlılığı, örnekleme yanlılığı). Sistematik bias, model iyileştirmeden önce süreç düzeyinde ele alınmalıdır.
System Design (Sistem Tasarımı)
Bir veri veya model ürününün mimarisini; performans, maliyet, güvenlik ve bakım açısından kurgulama disiplinidir. İyi sistem tasarımı, yalnızca “çalışan” değil, sürdürülebilir ve izlenebilir sistem üretir.
T
T-Testi (t-test)
İki grubun ortalamaları arasında istatistiksel olarak anlamlı bir fark olup olmadığını test eder. A/B testlerinde sık kullanılır; ancak normal dağılım ve varyans varsayımları (ve örneklemin bağımsızlığı) ihlal edilirse sonuçlar yanıltıcı olabilir.
Tabular Data (Tablo Biçimli Veri)
Satırların gözlem, sütunların özellik olduğu klasik veri biçimidir (müşteri tablosu, işlem tablosu). Tabular problemler, doğru granülarite, doğru join ve doğru feature engineering ile çok güçlü sonuç verir; en sık hata kaynağı ise yanlış birleştirme ve leakage’tır.
Tag (Etiket / Etiketleme Alanı)
Veriye veya içeriğe sınıflandırma/filtreleme amacıyla eklenen kısa işaretleyicidir (log seviyesi, kampanya etiketi, konu etiketi). Tag’ler kontrolsüz çoğalırsa sözlük/ontoloji olmadan “aynı anlama gelen farklı etiketler” üretir.
Tail Latency (Kuyruk Gecikmesi)
Ortalama gecikme iyi görünürken p95/p99 gibi uç yüzdeliklerde gecikmenin şişmesidir. Veri servislerinde kullanıcı deneyimini bozan asıl problem çoğu zaman tail latency’dir; kuyruk teorisi, caching ve kapasite planlama ile yönetilir.
Target (Hedef Değişken)
Modelin tahmin etmeye çalıştığı çıktı değişkenidir (churn, talep, fraud). Hedef tanımı zayıfsa model “yanlış şeyi” optimize eder; çoğu başarısız ML projesi algoritmadan önce hedef tanımında kaybeder.
Target Encoding (Hedef Kodlama)
Yüksek kardinaliteli kategorileri, hedef istatistiğiyle (ör. kategori başına ortalama dönüşüm) sayısala çeviren kodlama tekniğidir. Çok güçlüdür ama en riskli tarafı leakage: kodlama, sadece eğitim fold’ları içinde hesaplanmazsa offline metrikler sahte biçimde yükselir.
Target Leakage (Hedef Sızıntısı)
Hedefe ait veya hedef sonrasında oluşan bilginin feature olarak modele sızmasıdır (örn. “iade edildi mi?” ile churn tahmini). Üretimde aynı bilgi gerçek zamanda yoksa model “mükemmelken” bir anda çöker.
Task (Görev Tanımı)
Modelin çözmesi istenen problem türüdür: sınıflandırma mı, regresyon mu, sıralama mı, zaman-to-event mi? Görev yanlış seçilirse doğru metrik ve doğru veri hazırlığı da seçilemez; bu yüzden task tanımı, veri biliminin en kritik sözleşmesidir.
Taxonomy (Taksonomi)
Terimleri hiyerarşik bir sınıflandırmaya oturtan yapı (kategori → alt kategori → etiket). Sözlük ve veri kataloglarında taksonomi yoksa aynı kavram farklı ekiplerde farklı yere bağlanır ve arama/keşif kalitesi düşer.
TCN (Temporal Convolutional Network)
Zaman serisi ve sıralı veride, konvolüsyon tabanlı yapıyla geçmiş bağımlılıklarını yakalamayı hedefleyen mimaridir. Bazı senaryolarda RNN’lere göre daha paralel çalışır ve daha stabil eğitim sunabilir; pencere ve receptive field tasarımı performansı belirler.
Tensor (Tensör)
Skaler, vektör, matris ve daha yüksek boyutlu dizilerin genel adıdır. Derin öğrenmede verinin (görüntü, metin embedding’i, batch) taşındığı temel yapı tensördür; şekil (shape) ve tip (dtype) uyumsuzlukları en sık hata nedenlerindendir.
TensorBoard
Eğitim sürecindeki metrikleri, kayıp eğrilerini, histogramları ve bazı model graf yapılarını izlemeye yarayan görselleştirme aracıdır. “Eğitim iyi gidiyor mu?” sorusunu somutlaştırır; ancak iyi görünen eğitim eğrisi üretimde iyi performans garantisi değildir.
TensorFlow
Derin öğrenme modellerini tanımlamak, eğitmek ve üretimde çalıştırmak için kullanılan bir framework’tür. Güçlü ekosistem sunar; fakat üretim başarısı framework’ten çok veri sözleşmesi, izleme ve dağıtım disiplinine bağlıdır.
Term Frequency (TF / Terim Frekansı)
Bir terimin bir dokümanda kaç kez geçtiğini ölçer. Ham TF, çok uzun dokümanları kayırabilir; bu yüzden çoğu pratikte normalizasyon veya TF-IDF gibi ağırlıklandırmalarla kullanılır.
TF-IDF (Term Frequency–Inverse Document Frequency)
Bir terimin dokümanda sık, tüm korpusta nadir olmasını “ayırt edicilik” olarak ödüllendiren metin temsil tekniğidir. Basit ama güçlü bir baseline’dır; modern embedding’ler popüler olsa da TF-IDF hâlâ hızlı arama ve sınıflandırmada iş görür.
Time Series (Zaman Serisi)
Zamana bağlı gözlemler dizisidir (saatlik trafik, günlük satış). Zaman serisinde bağımsızlık varsayımı çoğu zaman bozulur; değerlendirme, feature üretimi ve split stratejisi mutlaka zaman farkındalığıyla yapılmalıdır.
Time Split (Zaman Bazlı Bölme)
Veriyi geçmiş → gelecek yönünde ayırarak (train geçmişte, test gelecekte) değerlendirme yapma yaklaşımıdır. Zaman serisi ve davranış verilerinde leakage’ı azaltır; rastgele split’in “sahte iyi” sonuç üretmesini engeller.
Time-to-Event (Olay-Zamanı Problemi)
Bir olayın gerçekleşip gerçekleşmeyeceği kadar “ne zaman gerçekleşeceği”ni de modelleyen problem türüdür (churn zamanı, arıza zamanı). Sansürleme (censoring) içerdiği için klasik sınıflandırmadan farklı yöntemler (survival analysis) daha doğru çerçeve sunar.
Time Window (Zaman Penceresi)
Bir metriği veya özelliği hesaplamak için kullanılan zaman aralığıdır (son 7 gün, son 30 dakika). Pencere tanımı event time ile hizalanmazsa metrikler kayar; yanlış pencere leakage veya yanlış trend okuması doğurur.
Timestamp (Zaman Damgası)
Bir olayın gerçekleştiği veya işlendiği zamanı temsil eder. Event time ve processing time ayrımı yapılmazsa “geç gelen veri” ve pencere hesapları bozulur; en sık analitik hatalardan biridir.
Token (Belirteç)
Metni modele uygun birimlere bölen parçadır (kelime, alt-kelime, karakter). Token seçimi ve sözlük (vocabulary) tasarımı; bellek, hız ve dil kapsaması üzerinde doğrudan etkilidir.
Tokenization (Tokenleştirme)
Metni token’lara ayırma işlemidir. Yanlış tokenizasyon; anlam kaybı, aşırı parçalanma veya domain terimlerinin bozulmasıyla modele doğrudan zarar verir (özellikle teknik terimler, kısaltmalar, kod parçaları).
Topic Modeling (Konu Modelleme)
Dokümanların hangi “konu karışımlarından” oluştuğunu çıkarmayı hedefleyen yöntem ailesidir (LDA gibi). Kullanışlıdır; ancak konu sayısı, ön işleme ve yorumlama adımı zayıfsa “güzel ama anlamsız” konular üretebilir.
Trace (İz / Dağıtık İz Kaydı)
Bir isteğin sistem içindeki servisler arasında nasıl dolaştığını gösteren uçtan uca iz kaydıdır. Veri ürünlerinde gecikme ve hata kök nedenini bulmak için log ve metriklerle birlikte en güçlü gözlemlenebilirlik bileşenidir.
Tracing (İzlemeleme / Distributed Tracing)
Servisler arası çağrıları ilişkilendirip performans darboğazını görmeyi sağlayan gözlemlenebilirlik pratiğidir. Özellikle model servisleme ve veri erişim katmanında “gecikme nerede oluşuyor?” sorusuna net yanıt verir.
Training (Eğitim)
Model parametrelerinin veriden öğrenildiği süreçtir. Eğitim başarısı yalnızca kaybın düşmesi değil; doğru split, doğru metrik, doğru regularization ve üretimle uyumlu feature üretimiyle birlikte değerlendirilmelidir.
Training Data (Eğitim Verisi)
Modelin öğrenme gördüğü veri kümesidir. Eğitim verisinin kapsamı ve bias’ı, modelin tavan performansını belirler; “daha iyi algoritma” çoğu zaman “daha doğru veri” kadar etkili değildir.
Training-Serving Skew (Eğitim–Servis Sapması)
Eğitimde kullanılan feature’ların üretimde aynı şekilde üretilmemesi durumudur (farklı hesap, farklı zaman hizası, farklı kaynak). Offline metrikler iyi görünürken üretimde performansın düşmesinin en yaygın nedenlerinden biridir.
Transfer Learning (Aktarım Öğrenmesi)
Önceden eğitilmiş bir modelin bilgisini yeni göreve taşımaktır. Etiketli veri az olduğunda büyük avantaj sağlar; ancak kaynak görev ile hedef görev çok farklıysa negatif transfer oluşabilir.
Transformation Pipeline (Dönüşüm Boru Hattı)
Temizleme, encoding, ölçekleme, feature üretimi gibi dönüşümlerin sıralı ve tekrarlanabilir biçimde kurgulanmasıdır. Pipeline yoksa eğitim–servis sapması artar; ayrıca deneyler yeniden üretilemez hale gelir.
Tree-based Models (Ağaç Tabanlı Modeller)
Karar ağaçları ve onların topluluk versiyonlarıdır (random forest, gradient boosting). Tabular veride güçlüdür; ancak leakage’a çok duyarlıdır ve “iyi görünen” sonuçlar, yanlış zaman hizasıyla kolayca sahte başarıya dönüşebilir.
Treatment (Müdahale)
Deney ve nedensel analizde uygulanan değişikliktir (yeni tasarım, fiyat, kampanya). Treatment tanımı net değilse ölçülen şey “müdahalenin etkisi” değil, “uygulama karmaşası” olur.
Treatment Effect (Müdahale Etkisi)
Müdahalenin sonuç üzerinde oluşturduğu nedensel farktır. Ortalama etki (ATE) tek başına yeterli olmayabilir; segment bazlı heterojen etkiler (CATE) çoğu üründe daha aksiyoneldir.
Trend (Trend)
Zaman serisinde uzun dönemli yönelimdir (artış/azalış). Trend ile mevsimsellik karıştırılırsa yanlış iş kararı alınır; özellikle kampanya dönemleri ve dışsal şoklar trend analizinde ayrı ele alınmalıdır.
Triage (Önceliklendirme / Ayıklama)
Sınırlı kaynakla (inceleme ekibi, destek, fraud analisti) hangi vakaların önce ele alınacağını belirleme yaklaşımıdır. Risk skoru + kapasite + maliyet birleşimiyle tasarlanır; sadece “en yüksek skor”a göre triage yapmak operasyonu dengesizleştirebilir.
True Negative (TN / Doğru Negatif)
Gerçekte negatif olan bir örneğin negatif tahmin edilmesidir. Fraud/ihlal sistemlerinde TN’ler sessizdir ama sistemin “gereksiz alarm üretmeme” başarısını temsil eder.
True Positive (TP / Doğru Pozitif)
Gerçekte pozitif olan bir örneğin pozitif tahmin edilmesidir. Precision/recall gibi metriklerin temel yapı taşıdır; iş değeri çoğu zaman TP’lerin yakalanma kalitesiyle ölçülür.
Type I Error (Tip I Hata / Yanlış Pozitif)
Hipotez testinde H0 doğruyken onu reddetme hatasıdır (olmayan etkiyi var sanmak). Çoklu test ve “kazanan arama” davranışı Tip I hatayı büyütür; düzeltmeler (FDR kontrolü) gerekebilir.
Type II Error (Tip II Hata / Yanlış Negatif)
Hipotez testinde H0 yanlışken onu reddedememe hatasıdır (var olan etkiyi kaçırmak). Düşük örneklem, düşük güç (power) ve yüksek varyans Tip II hatayı artırır.
Tuning (Ayarlama / Hiperparametre Optimizasyonu)
Model hiperparametrelerini performansa göre arama sürecidir. Yanlış doğrulama şemasıyla tuning yapmak, validation overfitting üretir; en iyi görünen model, üretimde en kötü sürpriz olabilir.
t-SNE (t-Distributed Stochastic Neighbor Embedding)
Yüksek boyutlu veriyi 2D/3D’ye indirip görselleştirmeyi amaçlayan yöntemdir. Görsel olarak güçlü kümeler gösterebilir; ancak mesafelerin küresel yorumu güvenilmezdir—t-SNE bir “görselleştirme aracı”dır, kümeleme kanıtı değildir.
U
UDF (User-Defined Function / Kullanıcı Tanımlı Fonksiyon)
SQL veya dağıtık veri işleme sistemlerinde (Spark vb.) standart fonksiyonların yetmediği yerde kullanıcıların yazdığı özel fonksiyonlardır. Esneklik sağlar; fakat performansı düşürebilir ve sorgu optimizasyonunu zorlaştırabilir—kritik iş yüklerinde UDF yerine yerleşik fonksiyonlar tercih edilir.
UMAP (Uniform Manifold Approximation and Projection)
Yüksek boyutlu veriyi daha düşük boyuta indirip görselleştirmeyi ve bazı durumlarda temsil öğrenimini amaçlayan yöntemdir. t-SNE’ye göre daha hızlı ve daha “küresel yapı”yı korumaya yatkın olabilir; ancak parametre ayarları (n_neighbors, min_dist) görsel çıktıyı ciddi biçimde değiştirir.
Unbalanced Data (Dengesiz Veri)
Sınıf oranlarının belirgin şekilde eşit olmadığı veri durumudur. Dengesiz veriyle çalışırken metrik seçimi (PR-AUC, recall, precision) ve eşik optimizasyonu, model seçiminden bile daha belirleyici olabilir.
Uncertainty (Belirsizlik)
Bir tahminin veya ölçümün ne kadar güvenilir olduğunu ifade eden kavramdır. Üretimde belirsizlik raporlanmazsa sistem “eminmiş gibi” davranıp riskli kararlar alabilir; belirsizlik, karar kuralının (fallback, insan döngüsü) tetikleyicisidir.
Uncertainty Quantification (Belirsizlik Nicelleştirme)
Tahminin yalnızca nokta değerini değil, aralık/dağılımını üretme yaklaşımıdır (prediction interval, Bayesian yöntemler, conformal prediction). Kapasite planlama ve risk yönetiminde “tek sayı”dan çok daha aksiyoneldir.
Underfitting (Eksik Uyum)
Modelin verideki temel örüntüleri bile öğrenememesi durumudur. Hem eğitim hem doğrulama performansı düşük olur; çözüm genelde daha iyi özellikler, daha uygun model ailesi veya daha az regularization’dır.
Unicode Normalization (Unicode Normalizasyonu)
Metin verisinde farklı Unicode temsillerini (aksanlar, birleşik karakterler) tek standarda indirgeme işlemidir. Arama, dedup ve eşleştirme işlerinde görünmez ama kritik bir kalite adımıdır.
Uniform Distribution (Uniform Dağılım)
Belirli bir aralıkta tüm değerlerin eşit olasılıkla görüldüğü dağılımdır. Simülasyon ve rastgele örnekleme bazında temel referanstır; gerçek dünya verisinin çoğu uniform değildir, bu yüzden “uniform varsayımı” nadiren gerçekçidir.
Union (Birleştirme / Satır Birleştirme)
İki veri setini satır bazında bir araya getirme işlemidir (SQL UNION/UNION ALL). Şema uyumu ve alan anlamı (semantics) tutarlı değilse union, sessiz veri kalitesi bozulmasına yol açar.
Unique Constraint (Benzersizlik Kısıtı)
Bir alanın (veya alan kombinasyonunun) tekrarsız olmasını zorunlu kılan veri tabanı kuralıdır. Analitikte benzersizlik kısıtları yoksa duplicate kayıtlar metrikleri şişirebilir; özellikle event ve ödeme kayıtlarında kritik bir güvenlik ağıdır.
Unit of Analysis (Analiz Birimi)
Analizin hangi seviyede yapıldığını tanımlar: kullanıcı mı, oturum mu, sipariş mi, cihaz mı? Analiz birimi yanlış seçilirse metrikler “elma ile armutu” karıştırır; A/B test randomizasyon birimiyle uyumlu olmalıdır.
Unit Test (Birim Testi)
Kodun küçük parçalarının beklenen şekilde çalıştığını doğrulayan testlerdir. Veri projelerinde sadece uygulama kodu değil; feature dönüşümleri, metrik hesapları ve veri kalite kontrolleri de testlenmelidir.
Univariate Analysis (Tek Değişkenli Analiz)
Tek bir değişkenin dağılımını, merkezi ve yayılımını incelemektir. EDA’nın başlangıç adımıdır; ancak tek değişkenli özetler, confounding ve etkileşimleri gizleyebilir.
Unstructured Data (Yapılandırılmamış Veri)
Sabit şeması olmayan veri türüdür (serbest metin, görüntü, ses). Çok zengin sinyal taşır; ancak ön işleme, etiketleme ve temsil öğrenimi maliyetlidir, ayrıca gizlilik riskleri artar.
Uplift Modeling (Uplift / Artış Modellemesi)
Bir müdahalenin (kampanya, mesaj, teklif) “kimde ne kadar artış yaratacağını” tahmin etmeye odaklanan modelleme yaklaşımıdır. Klasik “kim satın alır?” modelinden farklıdır: hedef, müdahale sonucu oluşan ek davranışı yakalamaktır; doğru ölçüm için deneysel veri veya sağlam yarı-deneysel tasarım gerekir.
Uptime (Çalışırlık Süresi)
Bir hizmetin erişilebilir olduğu sürenin oranıdır (%99.9 gibi). Veri ürünlerinde uptime; dashboard erişimi kadar, pipeline’ların çalışması ve veri tazeliği hedeflerinin korunması anlamına gelir—sadece “servis ayakta” olması yetmez.
User Journey (Kullanıcı Yolculuğu)
Kullanıcının üründe geçtiği adımların sıralı hikâyesidir (keşif → kayıt → aktivasyon → dönüşüm). Analitik, bu yolculuk üzerindeki sürtünmeyi (friction) bulup azaltmayı hedefler; adım tanımı ve oturumlama kuralları doğru kurulmalıdır.
User Segmentation (Kullanıcı Segmentasyonu)
Kullanıcıları benzer davranış/özelliklere göre gruplamadır. Segmentlerin başarı ölçütü “matematiksel küme kalitesi” değil; ürün/iş aksiyonlarına bağlanabilmesi ve sürdürülebilir şekilde güncellenebilmesidir.
Utility Function (Fayda Fonksiyonu)
Bir kararın getirdiği fayda/maliyeti sayısal olarak temsil eder. Eşik belirleme, optimizasyon ve RL problemlerinde temel kavramdır; yanlış utility tanımı, modeli yanlış davranışa iter.
UWB (Ultra-Wideband) Konum Verisi
Çok yüksek hassasiyetli yakın mesafe konumlandırma teknolojisidir. Konum analitiğinde zengin sinyal sağlayabilir; fakat veri frekansı yüksek olduğu için depolama/işleme maliyeti artar, ayrıca gizlilik riskleri daha yüksek düzeyde ele alınmalıdır.
V
Validation (Doğrulama)
Modelin genelleme performansını tahmin etmek için eğitim verisinden ayrı tutulan veriyle değerlendirme sürecidir. Doğrulama şeması probleme uygun değilse (zaman serisinde rastgele split gibi) “iyi görünen” sonuçlar üretimde başarısız olur.
Validation Set (Doğrulama Seti)
Model seçimi ve hiperparametre ayarlama için kullanılan veri alt kümesidir. Validation set’e tekrar tekrar bakmak “validation overfitting” oluşturabilir; bağımsız bir test/holdout set bu yüzden önemlidir.
Validation Overfitting (Doğrulama Üzerine Aşırı Uyum)
Hiperparametre araması ve tekrar tekrar deneme ile modelin, validation set’in tesadüfi özelliklerine uyum sağlamasıdır. Sonuç: validation skoru yüksek, gerçek dünya performansı düşük. Nested CV veya sağlam holdout ile yönetilir.
Value Count (Değer Sayımı)
Bir kategorik değişkende her değerin kaç kez geçtiğini sayma işlemidir. EDA’da hızlı içgörü verir; ancak “çok sık görülen” değerler bazen logging hatası veya default değer olabilir—mutlaka bağlam kontrol edilmelidir.
Value Proposition (Değer Önermesi)
Bir veri ürününün veya modelin neden var olduğunu ve kime ne fayda sağladığını netleştiren çerçevedir. “Model skoru” tek başına değer değildir; değer, karar kalitesine ve operasyonel çıktıya dönüşünce oluşur.
Variance (Varyans)
Verinin ortalamadan ne kadar yayıldığını ölçer. Modelleme açısından bias–variance dengesi kritik bir kavramdır: aşırı esnek modeller varyansı büyütür (overfitting), aşırı basit modeller bias’ı büyütür (underfitting).
Variance Inflation Factor (VIF)
Lineer regresyonda çoklu doğrusal bağlantıyı ölçmek için kullanılan göstergedir. VIF yüksekse katsayıların kararlılığı düşer; ridge/elastic net veya özellik sadeleştirme ile yönetilebilir.
Variance Reduction (Varyans Azaltma)
Deneylerde veya tahmin problemlerinde belirsizliği azaltmak için kullanılan tekniklerdir (stratification, CUPED, daha iyi metrik tasarımı vb.). Aynı örneklemle daha hassas ölçüm almak, “daha çok veri” kadar değerlidir.
Vector (Vektör)
Sayıların düzenli dizisidir; ML’de bir örneğin özellik temsilidir. Vektör uzayında mesafe/benzerlik seçimi, modelin “neye benzer?” algısını tanımlar.
Vector Database (Vektör Veri Tabanı)
Embedding vektörlerini saklayıp benzerlik araması (ANN) yapan sistemlerdir. RAG, semantik arama ve öneri sistemlerinde temel bileşendir; indeks tipi (HNSW vb.), güncelleme stratejisi ve tazelik tasarımı kritik karar noktalarıdır.
Vectorization (Vektörleştirme)
(1) Metni veya kategorileri sayısal vektöre çevirme (TF-IDF, embedding). (2) Hesaplamayı döngü yerine vektör operasyonlarıyla hızlandırma (NumPy). Bağlam belirtilmeden “vektörleştirme” iki farklı anlama gelebilir.
Version Control (Sürüm Kontrolü)
Kod, konfigürasyon ve (tercihen) veri/model artefaktlarının değişim geçmişini yönetme disiplinidir. Deneylerin tekrar üretilebilirliği ve üretimde rollback için olmazsa olmazdır.
Versioning (Sürümleme)
Şema, veri seti, metrik tanımı ve modelin zaman içinde sürümler halinde yönetilmesidir. Sürümleme yoksa “geçen hafta doğru olan bugün neden farklı?” sorusu asla net yanıt bulmaz.
Virtual Memory (Sanal Bellek)
İşletim sisteminin disk alanını bellek gibi kullanarak süreçlere daha büyük adres alanı sunmasıdır. Veri işlerinde büyük bellek taşmaları paging’e düşerse performans dramatik çöker; bellek-IO dengesini izlemek gerekir.
Virtualization (Sanallaştırma)
Donanım kaynaklarını soyutlayıp izole ortamlar oluşturma yaklaşımıdır (VM, container). Veri ekiplerinde taşınabilirlik ve izolasyon sağlar; fakat yanlış kaynak limitleri performans ve maliyet sorunlarına yol açabilir.
Visualization (Görselleştirme)
Veriyi görsel temsillerle (grafik, harita, tablo) anlamlandırma disiplinidir. İyi görselleştirme “süs” değil; doğru ölçek, doğru karşılaştırma ve doğru mesajı net vermek demektir.
Volatility (Oynaklık)
Bir zaman serisinin veya metriklerin ne kadar hızlı/değişken hareket ettiğini ifade eder. Finansal analitikte standarttır; ürün metriklerinde de değişkenlik, deney gücü (power) ve alarm eşiği tasarımını etkiler.
Volume (Hacim)
Verinin büyüklüğünü ifade eder (GB/TB, satır sayısı). Hacim arttıkça veri mimarisi kararları (partitioning, format, indeks) daha kritikleşir; küçük hatalar büyük maliyete dönüşür.
Von Neumann Architecture (Von Neumann Mimarisi)
Komut ve verinin aynı bellek üzerinden işlendiği klasik bilgisayar mimarisi yaklaşımıdır. Büyük veri işlerinde CPU–IO dengesini ve “veriyi taşımak mı hesaplamak mı pahalı?” sorusunu anlamak için temel arka plandır.
Vocabulary (Söz Varlığı / Kelime Haznesi)
NLP’de modelin bildiği token setidir. Vocabulary çok küçükse anlam kaybı olur; çok büyükse bellek ve seyreklik artar—tokenizasyon stratejisiyle birlikte tasarlanır.
Voxel (Voksel)
3B görüntülerde pikselin hacimsel karşılığıdır. Tıbbi görüntüleme ve 3D sensör verilerinde analiz birimidir; veri boyutu çok büyüdüğü için depolama ve compute planlaması kritiktir.
W
Warm Start (Sıcak Başlangıç)
Bir modeli/optimizasyonu sıfırdan başlatmak yerine, önceki bir çözümün parametrelerinden devam ettirmektir. Yeniden eğitim ve hiperparametre aramalarında hız kazandırabilir; ancak dağılım kaymışsa eski parametreler yanlış yönde “atalet” yaratabilir.
Warm-up (Isınma / Öğrenme Oranı Isınması)
Eğitimin ilk adımlarında öğrenme oranını kademeli artırma stratejisidir (LR warm-up). Büyük modellerde stabiliteyi artırır; özellikle Transformer eğitiminde yaygın bir pratik haline gelmiştir.
Watermark (Su İşareti / Veri Watermark’ı)
Veri akışlarında “bu zamana kadar güvenle işledim” sınırını tanımlayan zaman işaretidir. Geç gelen veri ve pencereli hesaplarda watermark doğru yönetilmezse ya eksik metrik üretilir ya da sürekli backfill maliyeti doğar.
Watson’s U² Testi
Dairesel (circular) veride dağılım uyumunu test etmek için kullanılan istatistiksel bir testtir. Zaman-of-day gibi periyodik ölçümlerde (0–24 saat döngüsü) klasik testlerin hatalı varsayımlarını azaltmak için tercih edilebilir.
Wavelet Transform (Dalgacık Dönüşümü)
Sinyali hem zaman hem frekans boyutunda analiz etmeyi sağlar; Fourier’e göre lokal değişimleri daha iyi yakalar. Anomali tespiti, kırılma noktaları ve çok ölçekli desen analizi için güçlüdür.
Web Analytics (Web Analitiği)
Web ürünlerinde kullanıcı davranışını (trafik, dönüşüm, oturumlar, funnel) ölçme disiplinidir. En büyük riskler: event şeması tutarsızlığı, çerez kısıtları, atıf (attribution) hataları ve bot trafiğinin metrikleri kirletmesidir.
Weighted Average (Ağırlıklı Ortalama)
Gözlemlere farklı ağırlıklar vererek hesaplanan ortalamadır. Segmentlerin farklı büyüklükte olduğu raporlarda doğru “toplam resim” için gerekir; yanlış ağırlıklandırma, küçük segmentleri gereksiz büyütüp kararları saptırabilir.
Weight Decay (Ağırlık Çürümesi)
Düzenlileştirme tekniği olarak ağırlıkları büyümeye karşı cezalandırır (çoğu bağlamda L2 regularization ile yakındır). Derin öğrenmede genelleme ve stabiliteyi iyileştirebilir; optimizatörle (özellikle AdamW) birlikte doğru yorumlanmalıdır.
Weights (Ağırlıklar)
Modelin öğrenilmiş parametreleridir (sinir ağı ağırlıkları, regresyon katsayıları). Ağırlıkların büyüklüğü ve dağılımı, training dinamikleri ve regularization hakkında ipucu verebilir.
Welch’s t-test (Welch t-testi)
İki grubun varyanslarının eşit olmadığı durumda kullanılan t-test varyantıdır. A/B testlerinde “eşit varyans” varsayımı zayıfsa Welch daha güvenli olabilir; yine de bağımsızlık ve ölçüm kalitesi temel şarttır.
What-if Analysis (Ne Olursa Analizi)
Girdi varsayımlarını değiştirip çıktının nasıl değiştiğini test etme yaklaşımıdır. Kapasite planlama, fiyatlama ve risk yönetiminde pratik bir karar desteğidir; model belirsizliği yok sayılırsa fazla özgüven üretir.
Wide vs Long Format (Geniş vs Uzun Veri Formatı)
Geniş formatta değişkenler sütunlara yayılır; uzun formatta ölçümler satırlara taşınır (tidy data). Analiz ve görselleştirme araçları genelde “uzun format”ı daha iyi işler; yanlış format seçimi raporlama maliyetini artırır.
Willingness-to-Pay (Ödeme İsteği)
Bir kullanıcının bir ürün/hizmet için ödemeye razı olduğu maksimum fiyatı ifade eder. Fiyat optimizasyonu ve segmentasyonun temel kavramıdır; ölçümü çoğu zaman dolaylıdır (deneysel fiyat testleri, talep modelleri).
Winsorization (Winsorlaştırma)
Aykırı değerleri silmek yerine belirli yüzdeliklerde kırpıp sınır değerlerle değiştirme tekniğidir (örn. alt %1’i %1 değerine, üst %99’u %99 değerine çekmek). Kuyrukları yumuşatır; ancak gerçek ekstrem olayları “normalleştirerek” risk analizi için yanıltıcı olabilir.
Word Embedding (Kelime Gömleme)
Kelimeleri vektör uzayında temsil ederek benzerlik ilişkilerini yakalayan yöntemlerdir (Word2Vec vb.). Modern modellerde subword ve bağlamsal embedding’ler öne çıksa da temel fikir aynı: anlamı geometrik yakınlığa taşımak.
Word Error Rate (WER / Kelime Hata Oranı)
Konuşma tanıma sistemlerinde, hedef metin ile tahmin metin arasındaki ekleme/silme/değiştirme hatalarını ölçer. Dil ve domain farkları WER’i güçlü etkiler; salt WER yerine iş metrikleriyle birlikte değerlendirmek gerekir.
Workflow Orchestration (İş Akışı Orkestrasyonu)
Veri pipeline’larının bağımlılıklarını yönetip işleri zamanlamak, izlemek ve hata yönetimi yapmak için kullanılan yaklaşım/araç katmanıdır. Orkestrasyon iyi değilse pipeline güvenilirliği düşer ve “manuel müdahale” norm haline gelir.
Workload (İş Yükü)
Sistemin taşıdığı sorgu/iş türleri ve yoğunluğudur (batch ETL, ad-hoc sorgu, streaming). Mimari kararlar workload’a göre verilmezse ya aşırı maliyet ya da performans çöküşü görülür.
World Model (Dünya Modeli)
RL bağlamında, ortamın dinamiklerini (state transition) öğrenerek planlama yapmayı hedefleyen model. Karmaşık karar problemlerinde verimliliği artırabilir; ama yanlış modelleme, ajanın “yanlış dünyada doğru” kararlar öğrenmesine neden olur.
X
X-axis (X Ekseni)
Grafiklerde genellikle bağımsız değişkeni (zaman, kategori, ölçüm aralığı) gösteren eksendir. Yanlış ölçek (log/lineer) veya sıkıştırılmış aralık, görsel algıyı manipüle eder; analitik sunumlarda en sık “fark etmeden yanıltma” kaynağıdır.
XGBoost (Extreme Gradient Boosting)
Gradient boosting tabanlı, tabular veride çok güçlü performans veren ağaç topluluğu kütüphanesidir. Düzenlileştirme, eksik değer yönetimi ve ölçeklenebilirlik avantajlarıyla “default güçlü baseline” kabul edilir; ancak leakage’a son derece duyarlıdır.
X-Intercept (X Kesişimi)
Bir fonksiyonun/grafiğin y=0 olduğu noktadaki x değeridir. Regresyon ve görselleştirmede, modelin “sıfır noktasını” ve eşik davranışlarını yorumlamak için kullanılabilir.
XML (eXtensible Markup Language)
Yapılandırılmış veriyi etiket tabanlı biçimde taşımak için kullanılan formattır. Kurumsal sistem entegrasyonlarında ve bazı eski API’lerde hâlâ yaygındır; veri analitiğinde zorluk genelde XML’in hiyerarşik yapısını tabloya dönüştürmektir.
XOR (Exclusive OR / Dışlayıcı Veya)
İkili mantıkta, iki girdiden yalnızca biri 1 ise 1 üreten operatördür. ML’de klasik örnek olarak, doğrusal modellerin yakalayamadığı basit doğrusal olmayan ilişkiyi temsil eder; bu yüzden “lineer ayrılabilirlik” kavramını anlatmada kullanılır.
XSS (Cross-Site Scripting)
Web güvenliğinde, kötü niyetli script’in sayfaya enjekte edilmesi saldırı türüdür. Veri platformlarında dashboard/BI araçları kullanıcı girdisi veya ham metin alanlarını gösteriyorsa XSS riskini azaltacak kaçışlama (escaping) ve güvenlik kontrolleri gerekir.
xUnit (Birim Test Çerçeveleri Ailesi)
Farklı dillerde kullanılan birim test yaklaşımı/çerçeve ailesinin genel adıdır (JUnit, NUnit vb.). Veri projelerinde test kültürü, metrik hesapları ve dönüşümlerin güvenilirliğini artırır; yalnızca uygulama koduna değil veri mantığına da uygulanmalıdır.
X-Validation (Çapraz Doğrulama – “X-val” Kısaltması)
“Cross-validation” için kullanılan kısa ifade. Model değerlendirmede varyansı azaltır; fakat yanlış split şeması (zaman/grup yapısını yok sayma) ile yapılırsa CV, hatayı güzelleştirip saklayabilir.
X-Vector
Konuşmacı tanıma (speaker recognition) alanında, konuşma sinyalinden çıkarılan sabit boyutlu embedding temsildir. Veri analitiği tarafında “ses verisinden kimlik/benzerlik çıkarımı” örneği olarak önemlidir; ancak biyometrik veri olduğu için gizlilik ve güvenlik yükümlülükleri ağırdır.
Y
Y-axis (Y Ekseni)
Grafiklerde genellikle bağımlı değişkeni (metrik, ölçüm sonucu) gösteren eksendir. Y eksenini kırpmak (y-min’i sıfırdan uzaklaştırmak) farkları olduğundan büyük gösterebilir; analitik raporlarda eksen seçimi, anlatıyı doğrudan şekillendirir.
YARN (Yet Another Resource Negotiator)
Hadoop ekosisteminde kaynak yönetimi ve iş zamanlaması katmanıdır. Birden çok iş yükünü (batch, etkileşimli) aynı kümede kaynak çatışması yaşamadan çalıştırmayı hedefler; kapasite planlama ve kuyruk yönetimi burada kritikleşir.
Yeo–Johnson Transformation (Yeo–Johnson Dönüşümü)
Box–Cox’a benzer biçimde, veriyi daha “normal” veya daha simetrik hale getirmeye çalışan güç dönüşümüdür; Box–Cox’tan farkı sıfır ve negatif değerlerle de çalışabilmesidir. Regresyon varsayımlarını iyileştirmek ve heteroscedasticity’i azaltmak için kullanılabilir.
Yield (Verim / Getiri)
(1) Süreç analitiğinde: toplam girdiden elde edilen başarılı çıktı oranı (manufacturing yield). (2) Finansal analitikte: getiri oranı. Bağlam belirtilmeden “yield” kullanmak karışıklık yaratır.
Yield Curve (Getiri Eğrisi)
Finansal analitikte, farklı vadelerdeki faiz/getiri oranlarının eğrisidir. Veri bilimi açısından, “vade boyutunda yapı”yı ve risk algısını özetleyen tipik bir zaman–oran görselleştirmesidir; modelleme ve stres testlerinde girdi olabilir.
Yule–Walker Denklemleri
AR (otoregresif) modellerin parametrelerini, otokorelasyon yapısından türeten denklemler sistemidir. Zaman serisi modelleme literatüründe temel bir yapı taşıdır; pratikte AR parametre kestiriminde arka plandaki teoriyi temsil eder.
Yardımcı Değişken (Auxiliary Variable)
Asıl hedef olmayan ama ölçümü/analizi iyileştirmeye yarayan ek değişkendir. Eksik veri düzeltme (imputation), örnekleme ağırlıkları ve varyans azaltma (CUPED benzeri) yaklaşımlarında auxiliary değişkenler kritik rol oynar.
Yönetişim (Data Governance)
Verinin sahipliği, erişimi, kalite standartları, saklama politikaları ve denetim süreçlerinin bütünüdür. Güçlü yönetişim olmadan “tek doğru KPI”, güvenilir model ve sürdürülebilir veri ürünü inşa etmek zorlaşır; hız kazanımı kısa vadeli, maliyet uzun vadeli olur.
Yüksek Boyut (High Dimensionality)
Özellik sayısının gözlem sayısına yaklaşması veya geçmesi durumudur. Boyutsallık laneti, mesafe ölçülerini zayıflatır ve overfitting riskini büyütür; düzenlileştirme ve boyut indirgeme stratejileri önem kazanır.
Z
Z-Score (Z Skoru / Standart Skor)
Bir değerin ortalamadan kaç standart sapma uzakta olduğunu gösterir: (x−μ)/σ. Normal varsayımı altında aykırı değer tespitinde pratik bir araçtır; dağılım ağır kuyrukluysa z-score aşırı alarm üretebilir.
Z-Testi (Z-test)
Ortalama/oran farklarını test etmek için kullanılan istatistiksel testtir; genelde varyansın bilindiği veya örneklemin büyük olduğu varsayımlarına dayanır. Pratikte çoğu durumda t-test daha yaygın kullanılır; çünkü varyans nadiren “bilinir”.
Zaman Serisi Ayrıştırma (Time Series Decomposition)
Bir zaman serisini trend, mevsimsellik ve artık (residual) bileşenlere ayırma yaklaşımıdır. Doğru ayrıştırma, tahmin hatasını düşürür ve anomaliyi daha net görünür kılar; yanlış ayrıştırma ise “trend” diye mevsimselliği ölçebilir.
Zayıf Öğrenici (Weak Learner)
Tek başına az performanslı, ama topluluk yöntemlerinde (boosting) birleştirilince güçlü modele dönüşebilen temel modeldir. Karar kütükleri (stumps) boosting’in klasik zayıf öğrenicisidir.
Zehirleme Saldırısı (Data Poisoning)
Eğitim verisine kasıtlı bozuk örnekler ekleyerek modeli yanlış davranışa yönlendirme saldırısıdır. Açık sistemlerde (kullanıcı geri bildirimiyle öğrenen modeller) ciddi risktir; veri doğrulama, anomali tespiti ve güvenlik kontrolleriyle yönetilmelidir.
Zero-shot Learning (Sıfır Örnekle Öğrenme)
Eğitimde hiç örnek görmediği sınıflar/etiketler için, semantik bilgi ve ön-eğitimli temsillerle tahmin yapabilme yeteneğidir. Etiket seti hızlı değişen ürünlerde avantaj sağlar; ancak sınırları ve hata profili iyi anlaşılmadan kritik kararlara bağlanmamalıdır.
Zeno’nun Paradoksu (Zeno Paradox) – Analitik Metafor
Sonsuz adımda hedefe “yaklaşma” fikri üzerinden, optimizasyon ve iyileştirme süreçlerinde “sürekli küçük kazanımlar”ın toplam etkisini metaforik anlatmak için bazen kullanılır. Veri bilimi pratiğinde, küçük ama sürekli iyileştirmelerin (veri kalite, ölçüm, feature) zamanla büyük fark yarattığını hatırlatır.
Z-Transform (Z Dönüşümü)
(1) İstatistikte z-score standardizasyonu. (2) Sinyal işlemde Z-dönüşümü (ayrık zamanlı sistem analizi). Bağlam belirtilmezse iki farklı teknik karışabilir.
Zig-Zag Pattern (Zikzak Desen)
Zaman serisinde art arda yukarı–aşağı dalgalanma desenidir. Bu desen, mevsimsellik, ölçüm gürültüsü veya yanlış smoothing/filtreleme sonucunda görülebilir; kök neden için decomposition ve spektral analiz yardımcı olur.
Kaynakça
Aşağıdaki kaynaklar, sözlükte geçen kavramların tanım ve çerçeveleri için referans niteliğindedir:
- Bishop, C. M. (2006). Pattern recognition and machine learning. Springer.
- Hastie, T., Tibshirani, R., & Friedman, J. (2009). The elements of statistical learning (2nd ed.). Springer.
- James, G., Witten, D., Hastie, T., & Tibshirani, R. (2021). An introduction to statistical learning (2nd ed.). Springer.
- Montgomery, D. C. (2017). Design and analysis of experiments (9th ed.). Wiley.
- Shalev-Shwartz, S., & Ben-David, S. (2014). Understanding machine learning: From theory to algorithms. Cambridge University Press.
- Wasserman, L. (2004). All of statistics: A concise course in statistical inference. Springer.
- Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep learning. MIT Press.
- Hyndman, R. J., & Athanasopoulos, G. (2021). Forecasting: Principles and practice (3rd ed.). OTexts.
- Sutton, R. S., & Barto, A. G. (2018). Reinforcement learning: An introduction (2nd ed.). MIT Press.
- Provost, F., & Fawcett, T. (2013). Data science for business. O’Reilly.
İlave Okuma Önerileri
- Kuhn, M., & Johnson, K. (2013). Applied predictive modeling. Springer.
- Murphy, K. P. (2012). Machine learning: A probabilistic perspective. MIT Press.
- Chen, T., & Guestrin, C. (2016). XGBoost: A scalable tree boosting system. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 785–794.
- Breiman, L. (2001). Random forests. Machine Learning, 45(1), 5–32.
- Pearl, J. (2009). Causality: Models, reasoning, and inference (2nd ed.). Cambridge University Press.
🗓️ Yayınlanma Tarihi: 17 Şubat 2026
🔄 Son Güncelleme Tarihi: 17 Şubat 2026
🎯 Kimler için: Bu sözlük; veri bilimine yeni başlayanlar, veri analistleri, iş zekâsı (BI) uzmanları, veri mühendisleri, ürün analitiği yapan ekipler, ML/MLOps ile üretim süreçlerinde çalışanlar ve teknik terimleri hızlıca netleştirmek isteyen yöneticiler için hazırlandı. Amaç; terimleri yalnızca “tanımlamak” değil, her kavramın pratikte nerede yanlış anlaşılabildiğini ve hangi riskleri taşıdığını da görünür kılmak.

Invictus Wiki editoryal ekibini temsil eden kolektif bir yazarlık imzasıdır. IW imzasıyla yayımlanan içerikler; çok kaynaklı araştırma, editoryal inceleme ve tarafsızlık ilkeleri doğrultusunda hazırlanır.
