Grant MNiSW 514237137

MNiSW

scientific project

Optymalizacja trajektorii ruchu w systemach robotycznych przy użyciu mechanizmów opartych na uczeniu się

Start: January 2009
Finish: December 2011
Principal Investigator: Paweł Wawrzyński,
Researchers: Konrad Banachowicz, Tomasz Bem, Rafał Tulwin, Michał Walęcki, Tomasz Winiarski,

Jednym z elementów składających się na postęp cywilizacyjny jest pojawianie się inteligentnych urządzeń, których działanie poprawia się z biegiem czasu. Ich inteligencja polega na realizowaniu zadań wymagających zdolności takich jak percepcja, planowanie, rozwiązywanie problemów itd. Poprawa działania z biegiem czasu polega zaś na tym, że urządzenie nie jest programowane do efektywnej realizacji zadań, natomiast wykorzystuje wielokrotne powtarzanie jego realizacji do tego aby “nauczyć się” wykonywać je w sposób optymalny. W rezultacie możliwe staje się realizacja przez urządzenia zadań które są niemożliwe do zaprogramowania ze względu na niepełną wiedzę programisty o środowisku w którym urządzenie działa, a w każdym przypadku oszczędzane są środki na programowanie urządzenia – stworzenie programu działania zbliżonego do optymalnego staje się bowiem niepotrzebne.

Urządzeniami, od których w pierwszej kolejności oczekiwalibyśmy inteligencji w sensie opisanym powyżej są roboty. Na działanie robota składają się ruchy takie jak np. przeniesienie manipulatora z punktu A i orientacji X do punktu B i orientacji Y. W trakcie takiego ruchu stan takiego robota pokonuje pewną trajektorię. Znane są metody projektowania trajektorii ruchu tak, aby spełniała ona podstawowe warunki. Tym niemniej, projektowanie trajektorii tak, aby była ona optymalna w sensie wskazanych obiektywnych kryteriów jest trudne, szczególnie wówczas gdy nie są dokładnie znane warunki w których robot będzie działał (np. waga obiektów, które robot nosi).

Celem projektu jest stworzenie metodologii służącej do optymalizacji trajektorii ruchu ramienia robotycznego w trakcie kolejnych powtórzeń takiego ruchu. Odpowiadałoby to naturalnej predyspozycji człowieka do doskonalenia czynności ruchowych w miarę ich powtarzania. Wydaje się, że metodologia taka jest w stanie istotnie zwiększyć efektywność pracy robota – podobnie jak rośnie efektywność ruchów osoby grającej w tenisa stołowego od chwili kiedy ma w rękach rakietkę do tej gry do chwili kiedy jest już jej mistrzem olimpijskim.

Punktem wyjścia do stworzenia takiej metodologii będą algorytmy uczenia się przez wzmacnianie. Będą to w szczególności, rozwijane w Zakładzie Biometrii i Uczenia Maszynowego Politechniki Warszawskiej algorytmy typu aktor-krytyk z symulowanym powtarzaniem doświadczenia (actor-critics with experience replay, Wawrzyński & Pacut, 2007). Efektywność tych metod jest wystarczająca do ich zastosowania do uczenia się w fizycznych systemach robotycznych.

Stworzona metodologia zostanie zastosowana do optymalizacji ruchów składających się na układanie kostki Rubika przez system robotyczny złożony z dwóch zmodyfikowanych robotów IRp-6.

List of selected publications:

M. Walęcki, K. Banachowicz, and T. Winiarski
Research oriented motor controllers for robotic applications
in Robot Motion and Control 2011 (LNCiS) Lecture Notes in Control & Information Sciences, 2012, vol. 422, pp. 193–203
[ BIB | DOI | abstract | URL ]
```
@inproceedings{Wal:11RoMoCo-twiki,
  author = {Walęcki, Michał and Banachowicz, Konrad and Winiarski, Tomasz},
  booktitle = {Robot Motion and Control 2011 (LNCiS) Lecture Notes in Control \& Information Sciences},
  title = {{Research oriented motor controllers for robotic applications}},
  year = {2012},
  editor = {K.~Kozłowski},
  pages = {193--203},
  publisher = {Springer Verlag London Limited},
  volume = {422},
  conference = {romoco11},
  doi = {10.1007/978-1-4471-2343-9_16},
  projects = {GrantMNiSWN514237137},
  lang = {en},
  location = {Bukowy Dworek, Poland},
  twiki = {article},
  url = {http://gitlab-stud.elka.pw.edu.pl/robotyka/rpmpg_pubs/-/raw/main/2012/11-controllers-romoco.pdf}
}
```
Motor controllers are vital parts of robotic manipulators as well as their grippers. Typical, commercial motor controllers available on the market are developed to work with high level robot industrial controllers, hence their adaptation to work as a part of a scientific, experimental robotic system is problematic. The general concept of research oriented motor controllers for robotic systems is presented in this article as well as an exemplary gripper and manipulator application based on this concept.
P. Wawrzyński and T. Winiarski
Optymalizacja trajektorii manipulatora w oparciu o metody uczenia się
in XI Krajowa Konferencja Robotyki – Problemy Robotyki, 2010, vol. 2, pp. 485–494
[ BIB | abstract | URL ]
```
@inproceedings{Wawrzynski:2010otm-eng-twiki,
  author = {Wawrzyński, P. and Winiarski, Tomasz},
  booktitle = {XI Krajowa Konferencja Robotyki -- Problemy Robotyki},
  title = {Optymalizacja trajektorii manipulatora w~oparciu o~metody uczenia się},
  year = {2010},
  note = {{(Manipulator trajectory optimization based on learning techniques (in Polish))}},
  pages = {485--494},
  publisher = {Oficyna Wydawnicza Politechniki Warszawskiej},
  volume = {2},
  conference = {kkr11},
  projects = {GrantMNiSWN514237137},
  lang = {pl},
  location = {Karpacz, 9--12 Września 2010},
  owner = {yoyek},
  twiki = {article},
  url = {http://gitlab-stud.elka.pw.edu.pl/robotyka/rpmpg_pubs/-/raw/main/2010/robot-neuronowy-kkr11.pdf}
}
```
Artykuł przedstawia metodę optymalizacji parametrycznych praw sterowania dla powtarzalnych ruchów systemu robotycznego. Metoda oparta jest na uczeniu się przez wzmacnianie oraz wielokrotnym powtarzaniu ruchu, nie obejmuje natomiast budowy i estymacji modelu dynamiki systemu robotycznego. Jakość prawa sterowania uzyskiwanego w prezentowanym tu podejściu nie jest więc ograniczona przez jakość modelu. Dlatego mogą˛ to być prawa optymalne dla założonych kryteriów oraz faktycznej dynamiki działającego sprzętu.