Autor Wątek: windsurfing  (Przeczytany 858 razy)

nanotechkiwi

  • Nowy użytkownik
  • *
  • Wiadomości: 12
    • Zobacz profil
windsurfing
« dnia: Czerwiec 14, 2018, 18:08:54 »

Cześć !!

Podsumowując ostatni długi weekend muszę stwierdzić że super się bawiłem i odpoczywałem a  wszystko dzięki windsurfingowi który wyzwolił mnie i dał mi dużo swobody i dzięki niemu poczułem wolność


bagiebab

  • Nowy użytkownik
  • *
  • Wiadomości: 15
    • Zobacz profil
Odp: windsurfing
« Odpowiedź #1 dnia: Sierpień 21, 2018, 18:31:59 »
Fragment naszego agenta grającego Sonic po 10h treningu na GPU.
Poszukiwanie lepszego modelu uczenia się
Problem z Gradientami zasad
Metoda Gradient polityki ma duży problem. Znajdujemy się w sytuacji Monte Carlo, czekając aż do końca odcinka, aby obliczyć nagrodę. Możemy wywnioskować, że jeśli mamy wysoką nagrodę ( R (t) ), wszystkie działania, które zrobiliśmy, były dobre, nawet jeśli niektóre były naprawdę złe.





W rzeczywistości tworzymy wiele wersji środowisk (powiedzmy osiem), a następnie wykonuj je równolegle.

Proces będzie następujący:




Następnie obliczamy gradient naraz za pomocą train_model i naszej grupy doświadczeń.

Na koniec aktualizujemy model krokowy o nowe wagi.

Pamiętaj, że obliczanie gradientu naraz to to samo co zbieranie danych, obliczanie gradientu dla każdego pracownika, a następnie uśrednianie. Czemu? Ponieważ sumowanie pochodnych (sumowanie gradientów) jest tym samym, co pobieranie pochodnych sumy . Ale drugi jest bardziej elegancki i lepszy sposób wykorzystania GPU.

 

Polityka cookies
Darmowe Fora | Darmowe Forum
wilczeserca steampunk cannahari eobywatel life-hamster