Moje forum

Kategoria ogólna => Dyskusja ogólna => Wątek zaczęty przez: nanotechkiwi w Czerwiec 14, 2018, 18:08:54

Tytuł: windsurfing
Wiadomość wysłana przez: nanotechkiwi w Czerwiec 14, 2018, 18:08:54

Cześć !!

Podsumowując ostatni długi weekend muszę stwierdzić że super się bawiłem i odpoczywałem a  wszystko dzięki windsurfing (http://windsurfing.com.pl/)owi który wyzwolił mnie i dał mi dużo swobody i dzięki niemu poczułem wolność

(https://windsurfing.com.pl/backstage/wp-content/gallery/chalupy-i-polaris-03-09-07-2017/kurs_windsurfingu_FunSurf_03-09.07.2017_28.jpg)
Tytuł: Odp: windsurfing
Wiadomość wysłana przez: bagiebab w Sierpień 21, 2018, 18:31:59
Fragment naszego agenta grającego Sonic po 10h treningu na GPU.
Poszukiwanie lepszego modelu uczenia się
Problem z Gradientami zasad
Metoda Gradient polityki ma duży problem. Znajdujemy się w sytuacji Monte Carlo, czekając aż do końca odcinka, aby obliczyć nagrodę. Możemy wywnioskować, że jeśli mamy wysoką nagrodę ( R (t) ), wszystkie działania, które zrobiliśmy, były dobre, nawet jeśli niektóre były naprawdę złe.





W rzeczywistości tworzymy wiele wersji środowisk (powiedzmy osiem), a następnie wykonuj je równolegle.

Proces będzie następujący:




Następnie obliczamy gradient naraz za pomocą train_model i naszej grupy doświadczeń.

Na koniec aktualizujemy model krokowy o nowe wagi.

Pamiętaj, że obliczanie gradientu naraz to to samo co zbieranie danych, obliczanie gradientu dla każdego pracownika, a następnie uśrednianie. Czemu? Ponieważ sumowanie pochodnych (sumowanie gradientów) jest tym samym, co pobieranie pochodnych sumy . Ale drugi jest bardziej elegancki i lepszy sposób wykorzystania GPU.