MDP (Markov Decision Process) nedir?
Türkçesi: Markov Karar Süreci
İngilizcesi: Markov Decision Process
Türkçe Okunuşu: markov disijın proses
İngilizce Okunuşu: ˈmɑːrkɒv dɪˈsɪʒən ˈprəʊsɛs
Dilbilgisi: İsim, (matematiksel ve yapay zekâ terimi)
Kısaltması: MDP
Köken: “Markov” ismi, Rus matematikçi Andrey Markov’dan gelir. “Decision” (karar) ve “Process” (süreç) kelimeleri İngilizce kökenlidir. Markov zincirleri üzerine kurulmuş olup, belirsizlik altında karar verme problemlerini modellemek için geliştirilmiştir.
Alakalı Sözcükler: Markov Chain (Markov Zinciri), Reinforcement Learning (Pekiştirmeli Öğrenme), Policy (Politika), State (Durum), Action (Eylem), Reward (Ödül)
Markov Decision Process (MDP), bir sistemin zaman içinde belirli durumlar arasında geçiş yaparken, bu geçişlerin hem eylemlere (actions) hem de olasılıklara (probabilities) bağlı olduğu durumları modelleyen matematiksel bir çerçevedir. Her durumda belirli bir eylem seçilir, bu eylem sistemin yeni bir duruma geçmesine ve bir ödül (reward) kazanmasına neden olur. MDP’lerin temel amacı, en yüksek toplam ödülü elde edecek en iyi karar politikasını (optimal policy) bulmaktır.
Bu model, özellikle yapay zekâ, robotik, otomatik kontrol sistemleri, ekonomi, oyun teorisi ve veri bilimi gibi alanlarda yaygın olarak kullanılır. MDP, belirsizlik altında karar vermeyi sistematik hale getirir ve makinelerin çevrelerinden öğrenerek optimal davranışı geliştirmesine olanak tanır.
« Fihriste Dön