رویکردی جدید برای یادگیری خود نظارتی

فائزه سرلکی‌فر
 این مقاله دربارهٔ معرفی معماری جدیدی به نام I-JEPA است که به تازگی توسط شرکت متا معرفی شده است. این معماری بر اساس ایده‌های Yann LeCun، محقق ارشد هوش مصنوعی شرکت متا و مبدع ایدهٔ یادگیری خود نظارتی (self-supervised learning) طراحی شده است.

ابتدا به شرح مختصری در رابطه با ایدهٔ یادگیری خود نظارتی می‌پردازم و سپس به توضیح دقیق‌تر معماری معرفی‌شده در مقاله و نوآوری‌ای که در طراحی آن داشته‌اند، خواهم پرداخت.

توضیح ایدهٔ اصلی یادگیری خود نظارتی

این ایده برای حل مسئلهٔ کمبود داده مطرح شد. موضوع کمبود داده یکی از چالش‌های اصلی در دنیای هوش مصنوعی از گذشته تاکنون بوده است. آقای لیکان و تیم‌شان روشی ارائه دادند که با وجود داده‌های آموزشی برچسب‌خوردهٔ بسیار کم (حتی گاهی با ۵ تا!) بتوان به نتایج مناسب و دلخواهی دست پیدا کرد.
روش به این صورت است که به جای آموزش از ابتدا روی داده‌های آموزشی برچسب‌دار خاص مسئله که معمولاً کم هستند و تهیهٔ آن‌ها دردسر و هزینه زیادی دارد، در مرحلهٔ اول روی داده‌های بدون برچسب، یک روند آموزشی تعریف می‌کنند. و در واقع می‌توان گفت که یک جورهایی برای داده‌های بدون برچسب، برچسب تعریف می‌کنند. مثلاً یکی از تکنیک‌ها، تکنیک چرخش تصاویر است که تصاویر ورودی را در ۴ زاویه مختلف می‌چرخانند و برچسب مربوط به هر تصویر، برابر با همان زاویه چرخش قرار داده می‌شود. مثلاً ۰، ۹۰، ۱۸۰ و ۲۷۰. پس از آن‌که مدل، فرآیند یادگیری اولیه‌ای روی این داده‌ها (که جمع‌‌آوری‌شان هم آسان‌تر است)، را طی کرد، این مدل pre-trainشده را روی داده‌های آموزشی اصلی خاص مسئله آموزش می‌دهند و این بار با تعداد بسیار کمی داده‌ٔ آموزشی، مدل می‌تواند ترند کلی داده‌ها را یاد بگیرد.

حالا به توضیح معماری جدید معرفی‌شده در این مقاله می‌پردازیم. (تا یادم نرفته بگم که این ایده برای پردازش تصویر مطرح شده!)

توصیف معماری I-JEPA

  • I-JEPA یک معماری یادگیری خود-نظارتی است که برای یادگیری نمایش‌های انتزاعی (سطح بالا) از تصاویر طراحی شده است.
  • این معماری شامل یک Encoder برای پردازش بلوک‌ Context و یک Predictor برای پیش‌بینی نمایش بلوک‌های هدف از روی بلوک Context است.
  • Predictor می‌تواند به عنوان یک مدل سادهٔ دنیا در نظر گرفته شود که می‌تواند عدم قطعیت مکانی را در یک تصویر ایستا از روی بخش قابل مشاهدهٔ آن، مدل‌سازی کند.
  • I-JEPA با پیش‌بینی اطلاعات سطح بالا در مورد نواحی نامرئی تصویر، به جای جزئیات سطح پیکسل، نمایش‌های معنایی (semantical) را یاد می‌گیرد.
I-JEPA.png 51.06 KB

تفاوت این معماری با معماری‌های قبلی معرفی‌شده برای یادگیری خودنظارتی، در این است که این روش برخلاف روش‌های قبلی self-supervised که در دستهٔ مدل‌های Energy-based قرار می‌گرفتند، Energy-based نیست و برای نمونه‌های مشابه (مربوط به یک object خاص)، بردارهای امبدینگ مشابهی دارد. در واقع برخلاف مدل‌های Energy-based که از روی بالاتر رفتن سطح انرژی، تفاوت objectها را متوجه می‌شدند، در اینجا انرژی مسطح (flat) هست. 

Energy-based-Models.jpg 69.48 KB

همچنین، تفاوت دیگری که وجود دارد، این است که در این روش، به جای اینکه یک target-block داشته باشیم، تعدادی target-block داریم و استراتژی تعریف target-block ها نیز به صورت خودکار تعریف می‌شود و مانند pretext-taskهای generative، به صورت دستی انتخاب نمی‌شوند.
Target-Blocks.png 1 MB

منبع:
مقاله

لینک‌های مفید:
-لینک کدها و مدل‌ها
-لینک اسلایدهای من
( generated by slidesAI.io with some changes made by me )