شبکه های مولد تخاصمی (GAN) به طرز قابل ملاحظه‌ای پیشرفت کرده‌ است؛ از جمله قابلیت‌های پیشرفتۀ آن می‌توان به ترکیب و شبیه­ سازی فوق‌العاده دقیق چهره انسان، بازیابی رنگ و کیفیت ویدئوهای قدیمی و ساخت ویدئوهای دیپ فیک واقع‌گرایانه اشاره کرد. شبکه های‌ مولد تخاصمی عمدتاً بر تولید نمونه تمرکز دارد. پیکرۀ اصلیِ شبکه‌ مولد تخاصمی از تولید کننده و تفکیک کننده تشکیل یافته است. تولید­کننده به ساخت نمونه‌هایی می‌پردازد که معمولاً از داده‌های آموزشی نشات می‌گیرند، اما تفکیک­ کننده به قضاوت درباره نمونه‌هایِ ساخته شده می‌پردازد تا واقعی یا جعلی بودن آنها مشخص شود. مثال: فرد جاعلی که در تلاش است پولی چاپ کند که قابل تشخیص از پول اصلی باشد، اما پلیس در تلاش است تا پول جعلی را تشخیص دهد. اگرچه GAN عمدتاً در زمینه ترکیب و شبیه­سازی عکس به موفقیت‌های چشمگیری دست یافته است، اما آیا امکانِ استفاده از GAN در حوزه‌های دیگر نیز وجود دارد؟

تبدیل عکس به عکس

ترجمه ماشین این قابلیت را دارد که با یادگیری نگاشت‌های جفت جمله یا عبارت، از زبان مبداء به زبان مقصد ترجمه کند؛ به همین ترتیب، ترجمه عکس به عکس نیز به یادگیریِ نگاشت میان عکس ورودی و جفت عکس خروجی می‌پردازد.

شبکه های مولد تخاصمی

بر اساس مطالعه‌ای که در دانشگاه برکلی انجام شد، الگوریتمی ارائه شد که یاد می‌گیرد از عکسی به عکس دیگر ترجمه کند. مثلاً از گورخر به اسب، یا از تابستان به زمستان. محققانِ این دانشگاه در مطالعه خود روشی برای یادگیری در صورت نبودِ مثال‌های جفتی ارائه کردند. این روش که از زبان تخاصمی استفاده می‌کند، می‌تواند مرزهای یادگیری بدون نظارت را جابجا کند. شما می‌توانید با مراجعه وب‌سایتِ ما با کاربردهایِ خلاقانۀ این روش آشنا شوید.

تولید متن

ماهیتِ متن، کار را برای GAN در تولید زنجیره‌هایی از توکن‌های گسسته دشوار می‌کند. خروجی‌های گسسته، انتقالِ آپدیت گرادیان از مدل تفکیک­ کننده به مدل تولید­کننده را به امری سخت و دشوار بدل کرده است. با این حال، آقای «یو» و همکارانش، SeqGAN را برای سرودن شعر چینی پیشنهاد دادند. SeqGAN با استفاده از ابزار BLEU score که در ارزیابی کیفیت متن کاربرد دارد، به سرودن اشعاری می‌پردازد که با نمونه‌های سروده شده توسط انسان توان رقابت دارد. افزون بر این، محققان اشعار چینیِ اصیل و تولید شده با این ابزار را ادغام نموده و از کارشناسان چینی در حوزه شعر دعوت به عمل آوردند تا دیدگاه خود را درباره اشعار اصیل و اشعار سروده شده توسط ماشین را اعلام کنند. در کمال تعجب، این کارشناسان نتوانستند اشعار اصیل را از اشعار ماشینی تشخیص دهند!

تولید گراف شبکه

قابلیت تولید گراف‌های ترکیبی اما واقع‌گرایانه از اهمیت بسزایی در تشخیص نابهنجاری برخوردار است؛ به طوری که تفکیک میان شبکه‌های غیرعادی و شبکه‌های عادی به آسانی صورت می‌گیرد. بوچفسکی و همکارانش، NetGAN را پیشنهاد دادند. NetGAN گراف‌هایی تولید می‌کند که الگوهای مشهور شبکه را با استفاده از Wasserstein GAN نمایش می‌دهد. تولید­کننده NetGAN یاد می‌گیرد که گام‌های تصادفی در گراف واقعی ایجاد کند، اما تفکیک­ کننده این گراف را از گراف‌های اصلی تمییز می‌دهد.

ترکیب یا سنتز صدا

سنتز صدا در طراحیِ خلاقانۀ صدا در موسیقی و فیلم به کار برده شده است. این کلیپ‌های صوتی در پایگاه‌های داده بزرگی از افکت‌های صوتی ذخیره می‌شوند، اما شاید افکت صوتی ایده‌آلی در کتابخانه وجود نداشته باشد. آیا این امکان وجود دارد که با تنظیم چند پارامتر ورودی، افکت‌های صوتیِ مربوط به حرکت روی مسیرهای سنگریزه‌دار یا مسیرهای شِنی را تولید کنیم؟ محققان دانشگاه کالیفرنیا به ارائۀ WaveGAN پرداختند. این ابزار یاد می‌گیرد تا صدا را برای تولید افکت‌های صوتی سنتز یا ترکیب کند. این ابزار در تولید افکت‌های صوتیِ نواخته شدن طبل عملکرد خوبی داشته است. WaveGAN می‌تواند صدای انواع گوناگونی از پرندگان را نیز تولید کند. این ابزار برای تولید صداهای پیانو از طیف وسیعی از الگوهای ریتمیک استفاده می‌کند. نمونه صداهای مربوط به آزمایش در این لینک گنجانده شده است.

یو و همکارانش از SeqGAN با آموزش مجموعه‌ای قطعات موسیقی محلی به تولید آثار موسیقیایی پرداختند. این محققان در کارهای تحقیقاتی‌شان، فایل‌های midi را به زنجیره‌ای از اعداد (۱ تا ۸۸) تبدیل کردند تا ۸۸ صدای مختلف کلیدهای پیانو را پوشش دهند. روش آنان عملکردی بهتر از الگوریتم‌های موجود داشت، اما کارشناسان در خصوص قطعات موسیقیِ تولید شده اظهار نظر نکرده‌اند.

منبع: hooshio.com