Uczące się systemy decyzyjne
- Dodaj recenzję:
- Kod: 4816
- Producent: Oficyna Wydawnicza Politechniki Warszawskiej
- Autor: Paweł Wawrzyński
-
-
- szt.
- Cena netto: 37,14 zł 39,00 zł
Uczące się systemy decyzyjne
rok wydania: 2021, wydanie pierwsze
ISBN: ISBN: 978-83-8156-271-3
ilość stron: 248
format: B5
oprawa: miękka
Opis
Część I podręcznika stanowi wprowadzenie. Przedstawia w stopniu wystarczającym do dalszej lekturty zagadnienia dotyczące sieci neuronowych, optymalizacji stochastycznej i programowania dynamicznego, czyli trzech podstawowych narzędzi służących do budowy systemów adaptacyjnych i uczących się. Część II jest poświęcona uczeniu się ze wzmocnieniem. Materiał został zaprezentowany w sposób zwarty i dlatego uzupełniono go rozległą bibliografią. W części III omówiono zagadnienia dotyczące sterowania adaptacyjnego, zaczynając od formalizmu służącego do opisu obiektów dynamicznych i teorii stabilności. Następnie przedstawiono koncepcję systemów adaptacyjnych z modelem referencyjnym oraz koncepcję samostrojących się regulatorów. W ostatniej części omówiono rzadziej stosowane alternatywne podejścia do zagadnienia.
Spis treści
I. Preliminaria
1. Wprowadzenie
1.1. Przykłady zagadnień, w których pojawia się potrzeba adaptacji i uczenia się
1.2. Cel podręcznika i poruszane zagadnienia
1.3. Dziedziny składające się na zawartość podręcznika
1.4. Adaptacja i uczenie się jako droga do inteligentnego zachowania się maszyn i programów
1.5. Organizacja podręcznika
1.6. Potrzebna wiedza wstępna
2. Optymalizacja stochastyczna
2.1. Algorytm gradientu prostego
2.2. Procedura Stochastycznego Najszybszego Spadku, SGD
3. Aproksymacja funkcji i podstawowe mechanizmy adaptacji
3.1. Aproksymatory i zagadnienie aproksymacji
3.2. Zagadnienie uczenia na zbiorze nieskończonym, on-line
3.3. Perceptron wielowarstwowy
3.4. Uczenie się przy użyciu aproksymacji stochastycznej
3.5. Zagadnienia praktyczne związane z używaniem sieci neuronowych w systemach uczących się
4. Proces Decyzyjny Markowa i programowanie dynamiczne
4.1. Proces Decyzyjny Markowa
4.2. Funkcja wartości-akcji i indukowanie strategii
4.3. Klasyczny algorytm programowania dynamicznego
4.4. Programowanie dynamiczne w algorytmice
4.5. Algorytm Iteracji Strategii
4.6. Algorytm Iteracji Funkcji Wartości
II. Uczenie się ze wzmocnieniem
5. Podstawy
5.1. Nieznany z góry Proces Decyzyjny Markowa
5.2. Algorytmy Q-Learning i SARSA
5.3. Rozszerzenie algorytmów Q-Learning i SARSA do ciągłych
przestrzeni stanów i akcji
6. Optymalizacja stochastycznego wyboru
6.1. Parametryzowane rozkłady prawdopodobieństwa
6.2. Algorytm REINFORCE punktowy
6.3. Stacjonarna strategia decyzyjna
6.4. Algorytm REINFORCE statyczny
6.5. Algorytm REINFORCE epizodyczny
7. Algorytm Aktor-Krytyk
7.1. Idea algorytmu Aktor-Krytyk
7.2. Klasyczny Aktor-Krytyk
7.3. Aktor-Krytyk(A)
8. Aktor-Krytyk z kompatybilną aproksymacją
8.1. Optymalizacja średniej nagrody
8.2. Gradient strategii
8.3. Aktor-Krytyk z kompatybilną aproksymacją
8.4. Naturalny Aktor-Krytyk
8.5. Dyskonto - ograniczenie wariancji estymatora gradientu
9. Wielokrotne przetwarzanie obserwacji
9.1. Algorytm Q-Learning z powtarzaniem doświadczenia
9.2. Próbkowanie istotnościowe
9.3. Algorytm Aktor-Krytyk z powtarzaniem doświadczenia
9.4. Optymalizacja estymatora wskaźnika jakości
10. Algorytmy wzbogacone
10.1. Asynchronous Advantage Actor-Critic
10.2. Prozimal Policy Optimization
10.3. Deep Deterministic Policy Gradient
10.4. Soft Actor-Critic
11. Gęsta dyskretyzacja czasu
11.1. Strategia z autoskorelowanymi akcjami
11.2. Actor-Critic with Experien.ee Replay and Autocorrelated aCtions
12. Uczenie się w warunkach częściowo obserwowalnego stanu
12.1. Rekurencyjne sieci neuronowe
12.2. Deep Recurrent Q-Learning
13. Wieloagentowe uczenie się ze wzmocnieniem
13.1. Model synchroniczny niekooperacyjny z częściowo obserwowanym stanem
13.2. Multi-Agent Deep Deterministic Policy Gradient
III. Sterowanie adaptacyjne
14. Obiekty dynamiczne
14.1. Wstęp
14.2. Liniowe obiekty SISO
14.3. Dyskretna aproksymacja obiektów o ciągłej dynamice
15. Stabilność i funkcja Lapunowa
15.1. Ogólna postać typowego schematu adaptacji
15.2. Stabilność
15.3. Funkcja Lapunowa
15.4. Stabilność w kontekście funkcji Lapunowa
16. Sterowanie adaptacyjne z modelem referencyjnym
16.1. Liniowy obiekt SISO pierwszego rzędu
16.2. Uogólnienie
16.3. Obiekty liniowe wyższych rzędów
17. Zaawansowane schematy adaptacji
17.1. Obiekty o nieliniowej dynamice
17.2. Obiekty z nieobserwowalnymi pochodnymi stanu
18. Samostrojące się regulatory
18.1. Dynamika liniowo parametryzowalna
18.2. Liniowe najmniejsze kwadraty
18.3. Najmniejsze kwadraty z wykładniczym zapominaniem
18.4. Adaptacyjny dobór współczynnika zapominania
IV. Inne podejścia do adaptacji
19. Aproksymowane programowanie dynamiczne
20. Stochastyczne sterowanie adaptacyjne
21. Sterowanie z iteracyjnym uczeniem się
22. Filtr Kalmana
22.1. Model
22.2. Algorytm
22.3. Wyprowadzenia
22.4. Rozszerzony Filtr Kalmana