نرم افزار جنجالی که به جای اوباما حرف می زند

1396/4/24
محمدرضا مرتضایی
0

محققان ابزار جدیدی را ساخته اند که با استفاده از هوش مصنوعی می تواند از روی هر صوت ضبط شده ای، ویدئوهایی با ظاهر کاملا واقعی از آن سخنرانی بسازد، و این ابزار جدید فناوری را با انتشار چهار ویدئوی ساختگی رونمایی کرده اند که در آن باراک اوباما جملات مشابهی را در هر چهار ویدئو بیان می کند.

گویا آی تی – این ابزار برای انتشار سیلی از اخبار جعلی و نقل قول های نادرست از افراد ساخته نشده است- بلکه به عنوان ابزاری برای تشخیص فیلم ها و ویدئوهای جعلی که با واقعیت ها فاصله بسیاری دارند، طراحی شده است.
طبق اظهارات تیم طراحی در دانشگاه واشینگتن، تا زمانی که یک منبع صوتی برای استفاده موجود باشد، ویدئو می تواند طوری تنظیم شود که حالات تکان خوردن لب ها و دهان، تقریبا با سخنان پخش شده از فایل صوتی، هماهنگی کاملی داشته باشند. در مرحله بعد می توان این حرکات هماهنگ لب و دهان را با یک ویدئو موجود از صحبت کردن یک فرد اضافه کرد.
یکی از محققان این پروژه، آیرا کلماچر-شلیزرمن، می گوید:” این نوع دستاوردها تاکنون مشاهده نشده اند. تبدیل واقعی صوت به ویدئو می توان کاربردهای عملی خوبی نظیر بهبود ویدئو کنفرانس ها در جلسات را داشته باشد. علاوه بر این این فناوری می تواند در آینده از جنبه های دیگر، مانند قابلیت گفت و گو کردن با یک شخصیت تاریخی در فضای واقعیت مجازی نیز سودمند باشد.”

” این فناوری می تواند موفقیتی بزرگ باشد که رسیدن به مراحل را در آینده محقق کند.”
سیستم ساخته شده دارای دو بخش است: بخش اول یک شبکه عصبی است که به آن آموزش داده شده است حجم گسترده ای از ویدئوها را مشاهده کند تا بتواند تشخیص دهد که کدام یک از صداگذاری های انجام شده، بیشتر با حرکات دهان مطابقت دارد. سپس نتایج با تصاویر مختلف از صحبت های یک فرد مشخص ترکیب می شود، و این تصاویر بر اساس مطالعات قبلی که در دانشگاه واشنگتن، روی مدلسازی دیجیتالی انجام گرفته، تأمین می شوند.
همانطور که با مشاهده کلیپ معرفی این نرم افزار می توانید متوجه شوید، این ابزار عملکرد نسبتا خوبی دارد، اما همیشه برای کار کردن به فایل های صوتی و ویدئویی منبع نیز دارد و نمی تواند از هیچ، یک سخنرانی ساختگی خلق کند. محققان عنوان می کنند که در آینده، می توانند سیستم هوش مصنوعی را با استفاده از ویدئوهای به دست آمده از برنامه های ارسال پیام (مسنجرها) آموزش داده و در مرحله بعد برای بهبود کیفیت از آن استفاده کنند.

استیو سایتز، یکی از اعضای این تیم می گوید:” زمانی که شما در حال مشاهده تصاویر در Skype یا Google Hangouts هستید، در بیشتر موارد اشکال در ارتباط و رزولوشن پایین تصاویر واقعا ناخوشایند است. بنابراین شما می توانید از صوت پخش شده برای ایجاد ویدئوهایی با کیفیت استفاده کنید که واقعا حیرت انگیز خواهد بود.”
طبق اظهارات پژوهشگران، هنگامی که موضوع تشخیص ویدئوهای جعلی در میان باشد، می توان الگوریتم استفاده شده در این فناوری را برای تشخیص ویدئوهایی که به صورت ساختگی ایجاد شده اند، به صورت معکوس به کار برد.
همانطور که احتمالا با توجه به سر و کار داشتن با بازی های ویدئویی و فیلم های انیمیشنی می دانید، دانشمندان در تلاشند که مشکل “دره وهمی” را حل کنند. این مشکل زمانی مطرح می شود که یک ویدئوی کامپیوتری از شخصی که در حال صحبت کردن است، تقریبا مشابه حالت واقعی است، با این حال در دیدگاه بیننده به نظر می رسد که چیزی کم است.
در چنین شرایطی، استفاده از هوش مصنوعی می تواند در تنظیم کردن حالات دهان، موقعیت چانه و سایر اجزایی که برای واقعی به نظر رسیدن یک ویدئوی ساختگی از صحبت کردن یک فرد ضروری هستند، نقش مهمی ایفا کند.

هوش مصنوعی، در مسائل یادگیری ماشینی، که برای آموزش دادن یک مأموریت به سیستم های کامپیوتری، لازم است حجم وسیعی از داده ها تحلیل شوند، بهترین عملکرد را دارد – چه این مأموریت تشخیص چهره یک سگ در جست و جوی تصاویر یا خلق یک ویدئوی ساختگی با ظاهری واقعی باشد.
Supasorn Suwajanakorn، یکی از پژوهشگران ارشد این پروژه می گوید: “حجم گسترده ای از ویدئوها، از جمله مصاحبه ها، تماس های تصویری، برنامه های تلویزیونی و منابع دیگر وجود دارد و این الگوریتم های آموزشی ماشینی نیز اشتهای خوبی برای تحلیل داده ها دارند، بنابراین واگذار کردن تحلیل این ویدئوها به سیستم هوش مصنوعی می تواند روش بسیار خوبی باشد.”

این ابزار، گام جدیدی برای حرکت به سوی ارتقاء کیفی محتوای جعلی دیجیتالی بر می دارد که تا حدودی ترسناک بوده، و مشابه پروژه VoCo شرکت Adobe است که سال گذشته شاهد آن بودیم؛ یک سیستم هوش مصنوعی دیگر که می تواند با بررسی ۲۰ دقیقه ای نحوه صحبت کردن یک فرد، از هیچ یک سخنرانی جدید بسازد.
با این وجود، این شبکه عصبی خاص، طوری طراحی شده است که با استفاده از فایل های صوتی معتبر، و تنها برای یک شخص قابل تنظیم است، بنابر این هنوز می توانید تا مدتی به تصاویر ویدئویی پخش شده در اخبار اعتماد کنید!
سایتز می گوید:” ما با آگاهی کامل، با قراردادن صحبت های افراد دیگر در دهان شخصی خاص، مخالفت کرده ایم. با ارائه این ابزار تنها می خواهیم با دریافت فایل صوتی سخنان واقعی یک فرد، ویدئویی ظاهرا واقعی از همان شخص را بسازیم.”

دیدگاه خود را وارد کنید