Yazeka
Arama sonuçlarına göre oluşturuldu
Takviye öğrenme ajanı, çevre ile etkileşimi ve ödül-ceza mekanizması üzerinden çalışarak öğrenir 5. İşte çalışma prensibi:
- Gözlem: Ajan, çevrenin mevcut durumunu gözlemler 2.
- Eylem Seçimi: Ajan, belirli bir politika kullanarak bir eylem seçer 2.
- Eylem Uygulama: Seçilen eylem çevrede uygulanır 2.
- Geri Bildirim: Ajan, eylemin sonucunda bir ödül veya ceza alır 2.
- Durum Güncelleme: Çevre, ajan tarafından algılanan yeni bir duruma geçer 2.
- Öğrenme: Ajan, aldığı geri bildirim ve yeni durumu kullanarak politikasını günceller 2.
Bu döngü, ajan hedeflediği performansa ulaşana kadar devam eder 2.
5 kaynaktan alınan bilgiyle göre: