کیو یادگیری

دانشنامه عمومی

کیو - یادگیری تکنیک یادگیری تقویتی است که با یادگیری یک تابع اقدام/مقدار، سیاست مشخصی را برای انجام حرکات مختلف در وضعیت های مختلف دنبال می کند. یکی از نقاط قوت این روش، توانایی یادگیری تابع مذکور بدون داشتن مدل معینی از محیط می باشد. اخیراً در این روش اصلاحی با نام کیو - یادگیری تأخیری انجام شده که بهبود قابل توجهی ایجاد نموده است. در روش اخیر یادگیری PAC با فراینده های تصمیم مارکوف ترکیب شده اند. [ ۱] کیو - یادگیری در تلاش است با توجه به شرایط فعلی، بهترین اقدامات را انجام دهد. این الگوریتم خارج از خط مشی در نظر گرفته می شود. چراکه، تابع کیو - یادگیری از اقداماتی خارج از خط مشی فعلی یادمی گیرد. به طور کلی می توان گفت که، کیو - یادگیری به دنبال یادگیری خط مشی است تا مجموع پاداش را بیشینه کند. [ ۲]
در اینجا مدل مسئله تشکیل شده از یک عامل، وضعیت ها یا حالت S و مجموعه از اقدامات یا عمل A برای هر وضعیت. با انجام یک اقدام a ∈ A ، عامل یا بازیگر از یک وضعیت به وضعیت بعدی حرکت کرده و هر وضعیت پاداشی به عامل می دهد. هدف عامل حداکثر کردن پاداش دریافتی کل خود است. این کار با یادگیری اقدام بهینه برای هر وضعیت انجام می گردد. الگوریتم دارای تابعی است که ترکیب حالت/اقدام را محاسبه می نماید:
قبل از شروع یادگیری، جدول کیو مقدار ثابتی را که توسط طراح انتخاب شده برمی گرداند. سپس هر بار که به عامل پاداش داده می شود، مقادیر جدیدی برای هر ترکیب وضعیت/اقدام محاسبه می گردد. هسته الگوریتم از یک بروز رسانی تکراری ساده تشکیل شده است. به این ترتیب که بر اساس اطلاعات جدید مقادیر قبلی اصلاح می شود.
که R ( s t ) پاداش حالت s t و عمل α t ( s , a ) است. نرخ یادگیری ( 0 < α ≤ 1 ) ممکن است برای همه زوج ها یکسان باشد. مقدار عامل تخفیف γ بگونه است که 0 ≤ γ < 1
فرمول فوق معادل عبارت زیر است: Q ( s t , a t ) ← Q ( s t , a t ) ( 1 − α t ( s t , a t ) ) + α t ( s t , a t )
یک اپیزود الگوریتم وقتی s t + 1 به وضعیت نهایی می سد پایان می یابد. توجه کنید که برای همه وضعیت های نهایی s f و Q ( s f , a ) مربوطه هیچگاه بروز نمی شود و مقدار اولیه خود را حفظ می کند.
این نرخ تعیین می کند که تا چه میزان اطلاعات به دست آمده جدید بر اطلاعات قدیمی ترجیح داده شود. مقدار صفر باعث می شود عامل چیزی یادنگیرد و مقدار یک باعث می شود عامل فقط اطلاعات جدید را ملاک قرار دهد.
عکس کیو یادگیریعکس کیو یادگیریعکس کیو یادگیریعکس کیو یادگیری
این نوشته برگرفته از سایت ویکی پدیا می باشد، اگر نادرست یا توهین آمیز است، لطفا گزارش دهید: گزارش تخلف

پیشنهاد کاربران

بپرس