Autor Wątek: windsurfing (Przeczytany 858 razy)

nanotechkiwi · « **dnia:** Czerwiec 14, 2018, 18:08:54 »

Cześć !!

Podsumowując ostatni długi weekend muszę stwierdzić że super się bawiłem i odpoczywałem a wszystko dzięki windsurfingowi który wyzwolił mnie i dał mi dużo swobody i dzięki niemu poczułem wolność

bagiebab · « **Odpowiedź #1 dnia:** Sierpień 21, 2018, 18:31:59 »

Fragment naszego agenta grającego Sonic po 10h treningu na GPU.
Poszukiwanie lepszego modelu uczenia się
Problem z Gradientami zasad
Metoda Gradient polityki ma duży problem. Znajdujemy się w sytuacji Monte Carlo, czekając aż do końca odcinka, aby obliczyć nagrodę. Możemy wywnioskować, że jeśli mamy wysoką nagrodę ( R (t) ), wszystkie działania, które zrobiliśmy, były dobre, nawet jeśli niektóre były naprawdę złe.

W rzeczywistości tworzymy wiele wersji środowisk (powiedzmy osiem), a następnie wykonuj je równolegle.

Proces będzie następujący:

Następnie obliczamy gradient naraz za pomocą train_model i naszej grupy doświadczeń.

Na koniec aktualizujemy model krokowy o nowe wagi.

Pamiętaj, że obliczanie gradientu naraz to to samo co zbieranie danych, obliczanie gradientu dla każdego pracownika, a następnie uśrednianie. Czemu? Ponieważ sumowanie pochodnych (sumowanie gradientów) jest tym samym, co pobieranie pochodnych sumy . Ale drugi jest bardziej elegancki i lepszy sposób wykorzystania GPU.

Moje forum

Aktualności:

Autor Wątek: windsurfing (Przeczytany 858 razy)

nanotechkiwi

windsurfing

bagiebab

Odp: windsurfing