چگونه گول دیپ‌فیک‌ها را نخوریم؟

شماره خبر: 458799
نام خبرنگار: ابوالفضل نورالدین

در دنیای عجیب کلاهبرداری های اینترنتی، هویت های جعلی و هزاران و هزاران جرم سایبری، دیگر به هیچ چیز نمی توان اعتماد کرد. در گذشته ای نه چندان دور، تنها چند صداپیشه فوق حرفه ای می توانستند صدای یک نفر را به قدری دقیق تقلید کنند که حتی اطرافیان نیز آن را اشتباه می گرفتند. به همین دلیل احتمال اینکه این افراد در نیمه های شب با شما تماس بگیرند و از بستگان شما بخواهند هزاران دلار وثیقه را منتقل کنند تقریباً صفر بود.

اما امروزه، به لطف شبیه‌سازهای صوتی مبتنی بر هوش مصنوعی که در سراسر اینترنت وجود دارند، تقریباً هر کسی می‌تواند در عرض چند دقیقه یک جعل صدای عالی بسازد. خوشبختانه برای همه کسانی که می خواهند از پول خود و همچنین سلامت انتخابی خود در برابر مجرمان سایبری و خرابکاران سیاسی محافظت کنند، پیشرفت مهمی رخ داده است. فناوری جدیدی به نام آموزش با کمک آگاهانه نمونه‌گیری یا RAIS می‌تواند بین صداهای واقعی و جعلی تمایز قائل شود و با پیشرفت پیشرفت‌های هوش مصنوعی، عملکرد دقیق را حفظ کند.

همانطور که محققان توضیح می دهند، ابزارهای فعلی در برابر دیپ فیک های جدید شکست می خورند. اینجاست که RAIS اهمیت می یابد. این ابزار از یادگیری مستمر و مبتنی بر تمرین استفاده می کند. یعنی مدل ها را با مجموعه محدودی از نمونه های قدیمی به روز می کند و در نتیجه دانش قبلی را حفظ می کند و به طور همزمان اطلاعات جدیدی را وارد سیستم می کند.

این تحقیق که در کنفرانس Interspeech، بزرگترین رویداد جهانی در زمینه علم و فناوری پردازش گفتار ارائه شد، نشان می‌دهد که چگونه محققان سازمان ملی علوم استرالیا (CSIRO)، دانشگاه فدراسیون استرالیا و دانشگاه RMIT موفق شده‌اند سلاح جدیدی علیه جعل صدای دیجیتال بسازند. جعل‌هایی که برای دور زدن سیستم‌های احراز هویت صوتی، جعل و تولید اطلاعات نادرست استفاده می‌شوند.

با توجه به ماهیت مستمر تهدید هوش مصنوعی و نیاز به توسعه دفاعی همراه با آن، محققان می‌خواهند سیستم‌های تشخیص بتوانند بدون نیاز به آموزش مجدد مدل از ابتدا، دیپ‌فیک‌های جدید را تشخیص دهند. اگر مدل را فقط روی نمونه های جدید تنظیم کنیم، باعث می شود مدل دیپ فیک های قدیمی را فراموش کند.

تکنیک‌های آموزشی کنونی انعطاف‌پذیری لازم برای پوشش طیف گسترده‌ای از صداهای انسانی یا حتی تنوع بسیاری از یک صدا را ندارند. این ضعف باعث ایجاد سوگیری می شود و امکان حذف اطلاعات حیاتی در حین بازآموزی را افزایش می دهد. برای حل این مشکل، RAIS از یک شبکه تولید برچسب برای ساخت برچسب های کمکی استفاده می کند تا بتوان نمونه های متنوع تری را برای حافظه انتخاب کرد. در نتیجه، توانایی بالاتری برای تشخیص صداهای جعلی به دست آمد و در پنج آزمایش تجربی به میانگین نرخ خطای مساوی (EER) 1.953٪ رسید. نرخ EER یکی از معیارهای مهم در سیستم های بیومتریک است و هر چه کمتر باشد، سیستم قابل اعتمادتر است. کد RAIS نیز با وجود استفاده از حافظه کم بسیار کارآمد است و در GitHub منتشر شده است.

راه حل RAIS به طور خودکار مجموعه ای کوچک اما متنوع از نمونه های گذشته را ذخیره می کند، از جمله ویژگی های صوتی که حتی انسان ها متوجه آن نمی شوند. به جای برچسب‌های ساده «جعلی» یا «واقعی»، این مدل مجموعه‌ای غنی‌تر از برچسب‌ها را تولید می‌کند و با آموزش مجدد روی این نمونه‌ها، به هوش مصنوعی کمک می‌کند تا سبک‌های دیپ‌فیک جدید را بدون فراموش کردن سبک‌های قبلی بیاموزد و در نتیجه ترکیب متنوع‌تری از داده‌های آموزشی ایجاد می‌کند که سازگاری و یادآوری مدل را افزایش می‌دهد.

ویدیوهای دیپ فیک در شبکه های اجتماعی آنقدر واقعی شده اند که حتی افراد شکاک هم فریب می خورند و دیگر صداهای عجیب و غریب یا چیز نادرستی برای مشکوک کردن مردم ندارند. این سطح جدید از قابل قبول بودن بسیار خطرناک تر از تکنیک های جعل متن قدیمی است. با توجه به AICompetence، مطالعات نشان داده است که صداهای شبیه سازی شده با هوش مصنوعی نسبت به اطلاعات غلط مبتنی بر متن، پاسخ های احساسی قوی تری را برمی انگیزند. تفکر انتقادی زمانی متوقف می شود که یک صدای آشنا واقعی به نظر برسد. به عنوان مثال، همان فراخوان دروغین عمیق منتسب به جو بایدن که از رای دهندگان نیوهمپشایر خواسته بود رای ندهند، نمونه ای از این خطر است. اگر یک صدای آشنا به شما بگوید که رای ندهید، آیا برای بررسی آن مکث می کنید؟

از دیگر نمونه های جعل صوتی می توان به مارک رید مدیر عامل WPP اشاره کرد. کلاهبرداران با استفاده از عکس او یک حساب کاربری مایکروسافت تیمز ایجاد کردند و سعی کردند با استفاده از صدای جعلی رید در یک جلسه آنلاین برای دریافت پول و اطلاعات حساس یک تجارت جعلی ایجاد کنند. اگرچه در این مورد موفق نشدند، اما در ایتالیا گروهی موفق شدند خود را به عنوان وزیر دفاع معرفی کنند و از برخی از مدیران تجاری یک میلیون یورو اخاذی کنند و برخی از آنها پول را پرداخت کردند.

در سیاست، درست زمانی که بایدن مورد هدف قرار گرفت، ایلان ماسک یک ویدیوی تحریف شده و تهمت‌آمیز از کامالا هریس را بدون هیچ توضیحی بازنشر کرد. اقدامی برخلاف قوانین پلتفرمی که خودش مالک آن بود. حملات مشابهی علیه انتخابات در بنگلادش، مجارستان و اسلواکی انجام شده است. از جمله پرونده انتخابات 2023 اسلواکی، که در آن فایل‌های صوتی جعلی از Michal Szymčka به اتهام توطئه برای ارتکاب تقلب در انتخابات منتشر شد. این فایل ها چند روز قبل از رای گیری به صورت ویروسی پخش شدند.

AICompetence هشدار می دهد: “خطر فقط دروغ نیست، بلکه این است که چگونه اعتماد مردم به حقایق واقعی را تضعیف می کند.” با آگاهی بیشتر مردم از دیپ فیک، سیاستمداران نیز ممکن است رسوایی های واقعی را به دروغ های جعلی هوش مصنوعی نسبت دهند. آگاهی بدون سواد رسانه ای به تقویت دروغ کمک می کند.

دانیل سیترون، استاد حقوق و نویسنده کتاب Deep Fakes: The Coming Infocalypse نیز می گوید: “تهدید واقعی جعلیات عمیق این نیست که مردم چیزهای نادرست را باور کنند، بلکه این است که دیگر چیزهای درست را باور نمی کنند. این پدیده “سود کاذب” نامیده می شود.