MNiSW

Grant MNiSW 514237137

scientific project

Optymalizacja trajektorii ruchu w systemach robotycznych przy użyciu mechanizmów opartych na uczeniu się


Start: January 2009
Finish: December 2011
Principal Investigator: Paweł Wawrzyński,
Researchers: Konrad Banachowicz, Tomasz Bem, Rafał Tulwin, Michał Walęcki, Tomasz Winiarski,

Jednym z elementów składających się na postęp cywilizacyjny jest pojawianie się inteligentnych urządzeń, których działanie poprawia się z biegiem czasu. Ich inteligencja polega na realizowaniu zadań wymagających zdolności takich jak percepcja, planowanie, rozwiązywanie problemów itd. Poprawa działania z biegiem czasu polega zaś na tym, że urządzenie nie jest programowane do efektywnej realizacji zadań, natomiast wykorzystuje wielokrotne powtarzanie jego realizacji do tego aby “nauczyć się” wykonywać je w sposób optymalny. W rezultacie możliwe staje się realizacja przez urządzenia zadań które są niemożliwe do zaprogramowania ze względu na niepełną wiedzę programisty o środowisku w którym urządzenie działa, a w każdym przypadku oszczędzane są środki na programowanie urządzenia – stworzenie programu działania zbliżonego do optymalnego staje się bowiem niepotrzebne.

Urządzeniami, od których w pierwszej kolejności oczekiwalibyśmy inteligencji w sensie opisanym powyżej są roboty. Na działanie robota składają się ruchy takie jak np. przeniesienie manipulatora z punktu A i orientacji X do punktu B i orientacji Y. W trakcie takiego ruchu stan takiego robota pokonuje pewną trajektorię. Znane są metody projektowania trajektorii ruchu tak, aby spełniała ona podstawowe warunki. Tym niemniej, projektowanie trajektorii tak, aby była ona optymalna w sensie wskazanych obiektywnych kryteriów jest trudne, szczególnie wówczas gdy nie są dokładnie znane warunki w których robot będzie działał (np. waga obiektów, które robot nosi).

Celem projektu jest stworzenie metodologii służącej do optymalizacji trajektorii ruchu ramienia robotycznego w trakcie kolejnych powtórzeń takiego ruchu. Odpowiadałoby to naturalnej predyspozycji człowieka do doskonalenia czynności ruchowych w miarę ich powtarzania. Wydaje się, że metodologia taka jest w stanie istotnie zwiększyć efektywność pracy robota – podobnie jak rośnie efektywność ruchów osoby grającej w tenisa stołowego od chwili kiedy ma w rękach rakietkę do tej gry do chwili kiedy jest już jej mistrzem olimpijskim.

Punktem wyjścia do stworzenia takiej metodologii będą algorytmy uczenia się przez wzmacnianie. Będą to w szczególności, rozwijane w Zakładzie Biometrii i Uczenia Maszynowego Politechniki Warszawskiej algorytmy typu aktor-krytyk z symulowanym powtarzaniem doświadczenia (actor-critics with experience replay, Wawrzyński & Pacut, 2007). Efektywność tych metod jest wystarczająca do ich zastosowania do uczenia się w fizycznych systemach robotycznych.

Stworzona metodologia zostanie zastosowana do optymalizacji ruchów składających się na układanie kostki Rubika przez system robotyczny złożony z dwóch zmodyfikowanych robotów IRp-6.



List of selected publications:
  1. M. Walęcki, K. Banachowicz, and T. Winiarski
    Research oriented motor controllers for robotic applications
    in Robot Motion and Control 2011 (LNCiS) Lecture Notes in Control & Information Sciences, 2012, vol. 422, pp. 193–203
    [ | DOI | | URL ]
  2. P. Wawrzyński and T. Winiarski
    Optymalizacja trajektorii manipulatora w oparciu o metody uczenia się
    in XI Krajowa Konferencja Robotyki – Problemy Robotyki, 2010, vol. 2, pp. 485–494
    [ | | URL ]