MNiSW
Grant MNiSW 514237137
scientific project
Optymalizacja trajektorii ruchu w systemach robotycznych przy użyciu mechanizmów opartych na uczeniu się
Finish: December 2011
Principal Investigator: Paweł Wawrzyński,
Researchers: Konrad Banachowicz, Tomasz Bem, Rafał Tulwin, Michał Walęcki, Tomasz Winiarski,
Jednym z elementów składających się na postęp cywilizacyjny jest pojawianie się inteligentnych urządzeń, których działanie poprawia się z biegiem czasu. Ich inteligencja polega na realizowaniu zadań wymagających zdolności takich jak percepcja, planowanie, rozwiązywanie problemów itd. Poprawa działania z biegiem czasu polega zaś na tym, że urządzenie nie jest programowane do efektywnej realizacji zadań, natomiast wykorzystuje wielokrotne powtarzanie jego realizacji do tego aby “nauczyć się” wykonywać je w sposób optymalny. W rezultacie możliwe staje się realizacja przez urządzenia zadań które są niemożliwe do zaprogramowania ze względu na niepełną wiedzę programisty o środowisku w którym urządzenie działa, a w każdym przypadku oszczędzane są środki na programowanie urządzenia – stworzenie programu działania zbliżonego do optymalnego staje się bowiem niepotrzebne.
Urządzeniami, od których w pierwszej kolejności oczekiwalibyśmy inteligencji w sensie opisanym powyżej są roboty. Na działanie robota składają się ruchy takie jak np. przeniesienie manipulatora z punktu A i orientacji X do punktu B i orientacji Y. W trakcie takiego ruchu stan takiego robota pokonuje pewną trajektorię. Znane są metody projektowania trajektorii ruchu tak, aby spełniała ona podstawowe warunki. Tym niemniej, projektowanie trajektorii tak, aby była ona optymalna w sensie wskazanych obiektywnych kryteriów jest trudne, szczególnie wówczas gdy nie są dokładnie znane warunki w których robot będzie działał (np. waga obiektów, które robot nosi).
Celem projektu jest stworzenie metodologii służącej do optymalizacji trajektorii ruchu ramienia robotycznego w trakcie kolejnych powtórzeń takiego ruchu. Odpowiadałoby to naturalnej predyspozycji człowieka do doskonalenia czynności ruchowych w miarę ich powtarzania. Wydaje się, że metodologia taka jest w stanie istotnie zwiększyć efektywność pracy robota – podobnie jak rośnie efektywność ruchów osoby grającej w tenisa stołowego od chwili kiedy ma w rękach rakietkę do tej gry do chwili kiedy jest już jej mistrzem olimpijskim.
Punktem wyjścia do stworzenia takiej metodologii będą algorytmy uczenia się przez wzmacnianie. Będą to w szczególności, rozwijane w Zakładzie Biometrii i Uczenia Maszynowego Politechniki Warszawskiej algorytmy typu aktor-krytyk z symulowanym powtarzaniem doświadczenia (actor-critics with experience replay, Wawrzyński & Pacut, 2007). Efektywność tych metod jest wystarczająca do ich zastosowania do uczenia się w fizycznych systemach robotycznych.
Stworzona metodologia zostanie zastosowana do optymalizacji ruchów składających się na układanie kostki Rubika przez system robotyczny złożony z dwóch zmodyfikowanych robotów IRp-6.
List of selected publications:
- M. Walęcki, K. Banachowicz, and T. Winiarski Research oriented motor controllers for robotic applicationsin Robot Motion and Control 2011 (LNCiS) Lecture Notes in Control & Information Sciences, 2012, vol. 422, pp. 193–203[ BIB | DOI | abstract | URL ]
- P. Wawrzyński and T. Winiarski Optymalizacja trajektorii manipulatora w oparciu o metody uczenia sięin XI Krajowa Konferencja Robotyki – Problemy Robotyki, 2010, vol. 2, pp. 485–494[ BIB | abstract | URL ]