Fragment naszego agenta grającego Sonic po 10h treningu na GPU.
Poszukiwanie lepszego modelu uczenia się
Problem z Gradientami zasad
Metoda Gradient polityki ma duży problem. Znajdujemy się w sytuacji Monte Carlo, czekając aż do końca odcinka, aby obliczyć nagrodę. Możemy wywnioskować, że jeśli mamy wysoką nagrodę ( R (t) ), wszystkie działania, które zrobiliśmy, były dobre, nawet jeśli niektóre były naprawdę złe.
W rzeczywistości tworzymy wiele wersji środowisk (powiedzmy osiem), a następnie wykonuj je równolegle.
Proces będzie następujący:
Następnie obliczamy gradient naraz za pomocą train_model i naszej grupy doświadczeń.
Na koniec aktualizujemy model krokowy o nowe wagi.
Pamiętaj, że obliczanie gradientu naraz to to samo co zbieranie danych, obliczanie gradientu dla każdego pracownika, a następnie uśrednianie. Czemu? Ponieważ sumowanie pochodnych (sumowanie gradientów) jest tym samym, co pobieranie pochodnych sumy . Ale drugi jest bardziej elegancki i lepszy sposób wykorzystania GPU.