این مقاله دربارهٔ معرفی معماری جدیدی به نام I-JEPA است که به تازگی توسط شرکت متا معرفی شده است. این معماری بر اساس ایدههای Yann LeCun، محقق ارشد هوش مصنوعی شرکت متا و مبدع ایدهٔ یادگیری خود نظارتی (self-supervised learning) طراحی شده است.
ابتدا به شرح مختصری در رابطه با ایدهٔ یادگیری خود نظارتی میپردازم و سپس به توضیح دقیقتر معماری معرفیشده در مقاله و نوآوریای که در طراحی آن داشتهاند، خواهم پرداخت.
توضیح ایدهٔ اصلی یادگیری خود نظارتی
این ایده برای حل مسئلهٔ کمبود داده مطرح شد. موضوع کمبود داده یکی از چالشهای اصلی در دنیای هوش مصنوعی از گذشته تاکنون بوده است. آقای لیکان و تیمشان روشی ارائه دادند که با وجود دادههای آموزشی برچسبخوردهٔ بسیار کم (حتی گاهی با ۵ تا!) بتوان به نتایج مناسب و دلخواهی دست پیدا کرد. روش به این صورت است که به جای آموزش از ابتدا روی دادههای آموزشی برچسبدار خاص مسئله که معمولاً کم هستند و تهیهٔ آنها دردسر و هزینه زیادی دارد، در مرحلهٔ اول روی دادههای بدون برچسب، یک روند آموزشی تعریف میکنند. و در واقع میتوان گفت که یک جورهایی برای دادههای بدون برچسب، برچسب تعریف میکنند. مثلاً یکی از تکنیکها، تکنیک چرخش تصاویر است که تصاویر ورودی را در ۴ زاویه مختلف میچرخانند و برچسب مربوط به هر تصویر، برابر با همان زاویه چرخش قرار داده میشود. مثلاً ۰، ۹۰، ۱۸۰ و ۲۷۰. پس از آنکه مدل، فرآیند یادگیری اولیهای روی این دادهها (که جمعآوریشان هم آسانتر است)، را طی کرد، این مدل pre-trainشده را روی دادههای آموزشی اصلی خاص مسئله آموزش میدهند و این بار با تعداد بسیار کمی دادهٔ آموزشی، مدل میتواند ترند کلی دادهها را یاد بگیرد.
حالا به توضیح معماری جدید معرفیشده در این مقاله میپردازیم. (تا یادم نرفته بگم که این ایده برای پردازش تصویر مطرح شده!)
توصیف معماری I-JEPA
I-JEPA یک معماری یادگیری خود-نظارتی است که برای یادگیری نمایشهای انتزاعی (سطح بالا) از تصاویر طراحی شده است.
این معماری شامل یک Encoder برای پردازش بلوک Context و یک Predictor برای پیشبینی نمایش بلوکهای هدف از روی بلوک Context است.
Predictor میتواند به عنوان یک مدل سادهٔ دنیا در نظر گرفته شود که میتواند عدم قطعیت مکانی را در یک تصویر ایستا از روی بخش قابل مشاهدهٔ آن، مدلسازی کند.
I-JEPA با پیشبینی اطلاعات سطح بالا در مورد نواحی نامرئی تصویر، به جای جزئیات سطح پیکسل، نمایشهای معنایی (semantical) را یاد میگیرد.
I-JEPA.png51.06 KB تفاوت این معماری با معماریهای قبلی معرفیشده برای یادگیری خودنظارتی، در این است که این روش برخلاف روشهای قبلی self-supervised که در دستهٔ مدلهای Energy-based قرار میگرفتند، Energy-based نیست و برای نمونههای مشابه (مربوط به یک object خاص)، بردارهای امبدینگ مشابهی دارد. در واقع برخلاف مدلهای Energy-based که از روی بالاتر رفتن سطح انرژی، تفاوت objectها را متوجه میشدند، در اینجا انرژی مسطح (flat) هست.