عبارت جستجو:

تعداد نتایج: 71

مرتب سازی بر اساس: به صورت:

یادگیری تقویتی به عنوان یکی از روش‌های یادگیری ماشین بی نیاز به مدل، در دهه اخیر بیشتر مورد توجه محققین واقع شده است. توانایی یادگیری از طریق تعامل و بدون نیاز به راهنما، مشخصه اصلی این روش یادگیری می باشد. بسیاری از روش‌های سنتی یادگیری تقویتی، فقط در محیط‌های حالت و عمل گسسته و کوچک کارامد هستند. علاوه براین وجود نویز در محیط و تاخیر در دریافت پاداش توسط عامل، کارایی این روشها را محدود می سازد. با این وجود در بسیاری از مسائل واقعی محیط‌ها آغشته به نویز و فضاهای حالت و عمل ب ...

یادگیری تقویتی، نگاشت وضعیت‌ها به عمل‌ها با هدف ماکزیمم کردن سیگنال پاداش دریافتی را بررسی می‌کند. در این نوع یادگیری، به عامل گفته نمی‌شود که چه عملی را انتخاب کند، بلکه عامل باید عملی را انتخاب کند که پاداش دریافتی از محیط را بیشینه کند. در چالش برانگیزترین حالات، پاداش عمل‌ها بلافاصله مشخص نمی‌شود. یادگیری تقویتی، از یک سو دارای پشتوانه قوی از قضایا و اثبات‌های ریاضی است؛ و از سویی دیگر، این روش در مسایل مختلفی همچون مسیریابی ربات، اجتناب از مانع، تصمیم‌گیری در بازی‌ها، مس ...

چالش اصلی در غالب موتورهای جستجو، رتبه‌بندی اسناد بازیابی شده برای ارائه بهترین پاسخ به پرس‌و‌جوی کاربران است. در این پایان‌نامه با ‌فرموله کردن این مسئله با استفاده از مفاهيم يادگيري تقويتي، دو الگوریتم جديد رتبه‌بندي مبتنی بر اتصال با عناوین RL_Rank و RURL ارائه شده است. يادگيري تقويتي يک تکنیک قويِ هوش مصنوعی است که حول جايزه گذر بين حالت‌ها و تابع ارزش، عمل مي‌کند. در الگوریتم RL_Rank، هر صفحه‌ی وب به عنوان يک حالت لحاظ شده که کاربر همانند یک موج سوار تصادفی بین آن‌ها حرک ...

در سال‌های اخیر، تلاش مطالعات انجام شده بر روی الگوریتم‌های یادگیری به‌منظور پر کردن فضای خالی بین کنترل بهینه‌ی تطبیقی و روش‌های یادگیری برگرفته از سیستم‌های بیولوژیکی بوده است. یادگیری تقویتی یکی از مهم‌ترین روش‌ها است که امروزه جهت کنترل ربات‌ها مورد استفاده قرار گرفته است. از طرفی، کنترل راه‌روی ربات دوپا یکی از مهم‌ترین و پیچیده‌ترین مسائل با دینامیک غیرخطی می‌باشد. با توجه به اینکه پژوهش‌های بسیاری بر روی الگوریتم‌های یادگیری تقویتی و نیز شبکه‌های عصبی مصنوعی صورت گرفته ...

یادگیری تقویتی عبارت است از قالب بندی یک مسئله به فرم یادگیری از طریق تعامل برای رسیدن به هدف. زمانی که فضای حالات و یا کنش‌ها پیوسته و یا خیلی بزرگ شود استفاده از عناصر حافظه برای نگه‌داری ارزش حالات بسیار زیاد خواهد شد. این مسئله در رابطه با زمانی که در طول یادگیری ارزش کنش‌ها به دست آورده می‌شود، بحرانی تر خواهد شد. علاوه بر حافظه مصرفی مسئله ، داده و زمان لازم برای پر کردن آنها نیز مهم است. بنابراین مسئله تعمیم پیش خواهد آمد.روش پیشنهاد شده برای مسائل یادگیری تقویتی با فض ...

دسته ای از روش های یادگیری تقویتی سعی می کنند مسائل پیچیده را با تجزیه به مسائل کوچکتر حل کنند. به این صورت که هدف اصلی را به تعدادی زیرهدف یا وظیفه می شکنند و هریک را توسط یک یادگیر فرا می گیرند، سپس به ترکیب این وظایف یادگرفته شده می پردازند. بیشتر این روش ها به علت عدم استفاده مناسب از دانش موجود در این پیمانه های فراگرفته شده، در ترکیب آن ها با مشکل روبرو می شوند، و در نتیجه نمی توانند به خوبی به هدف اصلی دست بیابند. در این مقاله روشی یادگیر برای ترکیب وظایف ارائه شده است ...

یکی از چالش‌های یادگیری تقویتی، عدم وجود الگوریتم‌های قابل اجرا در فضای حالت و عمل پیوسته است که دارای استدلال ریاضی باشند. در این پایان نامه سعی داریم با ارائه یک روش جدید یادگیری تقویتی پیوسته مبتنی بر معماری نقاد-تنها برای مسائل کنترل این چالش‌ها را برطرف کنیم. روش ارائه شده از ترکیب روش "تکرار سیاست کمترین مربعات" با یک سیستم فازی سوگنوی مرتبه صفر حاصل شده و "تکرار سیاست کمترین مربعات فازی" نامیده می‌شود. هر قاعده سیستم فازی داری چند تالی کاندید می‌باشد. هدف از آموزش، یا ...

در این پایان‌نامه‏، جهت تولید فرمان‌‌‌های کنترلی پیچ، یک کنترلگر فازی سوگنوی مرتبه صفر طراحی شده است. سپس برای رسیدن به پاسخ با راندمان بالاتر، پارامترهای تالی این کنترلگر با استفاده از دو الگوریتم یادگیری کیو فازی و یادگیری سارسای فازی‏ که از الگوریتم‌های یادگیری تقویتی با معماری نقاد –تنها‏ هستند، به‌صورت برخط تنظیم شده‌اند. ...

روشهای یادگیری ماشین به ویژه روشهای مبتنی بریادگیری تقویتی Reinforcement Learning که کاربرد گسترده ای درحوزههایی همچون داده کاوی و کنترل سیستم های الکترومکانیکی یافته اند عموما برایکاردرمحیطهای مارکوفی Markovian) طراحی شده اند و باحذف این ویژگی ازمحیط کارایی این روش ها بشدت کاهش می یابد دراین مقاله رهیافت جدیدی برای تبدیل محیطهای غیرمارکوفی Non-Markovian بهمحیطهای مارکوفی ارایه گردیدها ست دراین رهیافت وضعیت های STATE جدید با برقراری شرط استقلال وضعیت ها به صورت لایه ای به وضع ...