your browser not support this video

در اینجا الگوریتم Q-Learning برای حل مسئله آونگ وارونه بکار گرفته شده است. هوش مصنوعی پس از 200 بار تلاش، به تدریج یاد می‌گیرد چگونه با چپ و راست کردن ارابه، آونگ را مستقیم نگه دارد. این شبیه سازی در پایتون انجام شده است.