در دنیای عجیب کلاهبرداری های اینترنتی، هویت های جعلی و هزاران و هزاران جرم سایبری، دیگر به هیچ چیز نمی توان اعتماد کرد. در گذشته ای نه چندان دور، تنها چند صداپیشه فوق حرفه ای می توانستند صدای یک نفر را به قدری دقیق تقلید کنند که حتی اطرافیان نیز آن را اشتباه می گرفتند. به همین دلیل احتمال اینکه این افراد در نیمه های شب با شما تماس بگیرند و از بستگان شما بخواهند هزاران دلار وثیقه را منتقل کنند تقریباً صفر بود.
اما امروزه، به لطف شبیهسازهای صوتی مبتنی بر هوش مصنوعی که در سراسر اینترنت وجود دارند، تقریباً هر کسی میتواند در عرض چند دقیقه یک جعل صدای عالی بسازد. خوشبختانه برای همه کسانی که می خواهند از پول خود و همچنین سلامت انتخابی خود در برابر مجرمان سایبری و خرابکاران سیاسی محافظت کنند، پیشرفت مهمی رخ داده است. فناوری جدیدی به نام آموزش با کمک آگاهانه نمونهگیری یا RAIS میتواند بین صداهای واقعی و جعلی تمایز قائل شود و با پیشرفت پیشرفتهای هوش مصنوعی، عملکرد دقیق را حفظ کند.
همانطور که محققان توضیح می دهند، ابزارهای فعلی در برابر دیپ فیک های جدید شکست می خورند. اینجاست که RAIS اهمیت می یابد. این ابزار از یادگیری مستمر و مبتنی بر تمرین استفاده می کند. یعنی مدل ها را با مجموعه محدودی از نمونه های قدیمی به روز می کند و در نتیجه دانش قبلی را حفظ می کند و به طور همزمان اطلاعات جدیدی را وارد سیستم می کند.
این تحقیق که در کنفرانس Interspeech، بزرگترین رویداد جهانی در زمینه علم و فناوری پردازش گفتار ارائه شد، نشان میدهد که چگونه محققان سازمان ملی علوم استرالیا (CSIRO)، دانشگاه فدراسیون استرالیا و دانشگاه RMIT موفق شدهاند سلاح جدیدی علیه جعل صدای دیجیتال بسازند. جعلهایی که برای دور زدن سیستمهای احراز هویت صوتی، جعل و تولید اطلاعات نادرست استفاده میشوند.
با توجه به ماهیت مستمر تهدید هوش مصنوعی و نیاز به توسعه دفاعی همراه با آن، محققان میخواهند سیستمهای تشخیص بتوانند بدون نیاز به آموزش مجدد مدل از ابتدا، دیپفیکهای جدید را تشخیص دهند. اگر مدل را فقط روی نمونه های جدید تنظیم کنیم، باعث می شود مدل دیپ فیک های قدیمی را فراموش کند.
تکنیکهای آموزشی کنونی انعطافپذیری لازم برای پوشش طیف گستردهای از صداهای انسانی یا حتی تنوع بسیاری از یک صدا را ندارند. این ضعف باعث ایجاد سوگیری می شود و امکان حذف اطلاعات حیاتی در حین بازآموزی را افزایش می دهد. برای حل این مشکل، RAIS از یک شبکه تولید برچسب برای ساخت برچسب های کمکی استفاده می کند تا بتوان نمونه های متنوع تری را برای حافظه انتخاب کرد. در نتیجه، توانایی بالاتری برای تشخیص صداهای جعلی به دست آمد و در پنج آزمایش تجربی به میانگین نرخ خطای مساوی (EER) 1.953٪ رسید. نرخ EER یکی از معیارهای مهم در سیستم های بیومتریک است و هر چه کمتر باشد، سیستم قابل اعتمادتر است. کد RAIS نیز با وجود استفاده از حافظه کم بسیار کارآمد است و در GitHub منتشر شده است.
راه حل RAIS به طور خودکار مجموعه ای کوچک اما متنوع از نمونه های گذشته را ذخیره می کند، از جمله ویژگی های صوتی که حتی انسان ها متوجه آن نمی شوند. به جای برچسبهای ساده «جعلی» یا «واقعی»، این مدل مجموعهای غنیتر از برچسبها را تولید میکند و با آموزش مجدد روی این نمونهها، به هوش مصنوعی کمک میکند تا سبکهای دیپفیک جدید را بدون فراموش کردن سبکهای قبلی بیاموزد و در نتیجه ترکیب متنوعتری از دادههای آموزشی ایجاد میکند که سازگاری و یادآوری مدل را افزایش میدهد.
ویدیوهای دیپ فیک در شبکه های اجتماعی آنقدر واقعی شده اند که حتی افراد شکاک هم فریب می خورند و دیگر صداهای عجیب و غریب یا چیز نادرستی برای مشکوک کردن مردم ندارند. این سطح جدید از قابل قبول بودن بسیار خطرناک تر از تکنیک های جعل متن قدیمی است. با توجه به AICompetence، مطالعات نشان داده است که صداهای شبیه سازی شده با هوش مصنوعی نسبت به اطلاعات غلط مبتنی بر متن، پاسخ های احساسی قوی تری را برمی انگیزند. تفکر انتقادی زمانی متوقف می شود که یک صدای آشنا واقعی به نظر برسد. به عنوان مثال، همان فراخوان دروغین عمیق منتسب به جو بایدن که از رای دهندگان نیوهمپشایر خواسته بود رای ندهند، نمونه ای از این خطر است. اگر یک صدای آشنا به شما بگوید که رای ندهید، آیا برای بررسی آن مکث می کنید؟
از دیگر نمونه های جعل صوتی می توان به مارک رید مدیر عامل WPP اشاره کرد. کلاهبرداران با استفاده از عکس او یک حساب کاربری مایکروسافت تیمز ایجاد کردند و سعی کردند با استفاده از صدای جعلی رید در یک جلسه آنلاین برای دریافت پول و اطلاعات حساس یک تجارت جعلی ایجاد کنند. اگرچه در این مورد موفق نشدند، اما در ایتالیا گروهی موفق شدند خود را به عنوان وزیر دفاع معرفی کنند و از برخی از مدیران تجاری یک میلیون یورو اخاذی کنند و برخی از آنها پول را پرداخت کردند.
در سیاست، درست زمانی که بایدن مورد هدف قرار گرفت، ایلان ماسک یک ویدیوی تحریف شده و تهمتآمیز از کامالا هریس را بدون هیچ توضیحی بازنشر کرد. اقدامی برخلاف قوانین پلتفرمی که خودش مالک آن بود. حملات مشابهی علیه انتخابات در بنگلادش، مجارستان و اسلواکی انجام شده است. از جمله پرونده انتخابات 2023 اسلواکی، که در آن فایلهای صوتی جعلی از Michal Szymčka به اتهام توطئه برای ارتکاب تقلب در انتخابات منتشر شد. این فایل ها چند روز قبل از رای گیری به صورت ویروسی پخش شدند.
AICompetence هشدار می دهد: “خطر فقط دروغ نیست، بلکه این است که چگونه اعتماد مردم به حقایق واقعی را تضعیف می کند.” با آگاهی بیشتر مردم از دیپ فیک، سیاستمداران نیز ممکن است رسوایی های واقعی را به دروغ های جعلی هوش مصنوعی نسبت دهند. آگاهی بدون سواد رسانه ای به تقویت دروغ کمک می کند.
دانیل سیترون، استاد حقوق و نویسنده کتاب Deep Fakes: The Coming Infocalypse نیز می گوید: “تهدید واقعی جعلیات عمیق این نیست که مردم چیزهای نادرست را باور کنند، بلکه این است که دیگر چیزهای درست را باور نمی کنند. این پدیده “سود کاذب” نامیده می شود.





