کمیته رکن چهارم – دیپفیک صوتی هم مانند نمونههای تصویری از هوش مصنوعی برای تغییر صدا استفاده میکند و شرکتهای تولیدکننده ابزار صدای مصنوعی هم تلاشهایی برای مقابله با سوءاستفاده از دیپفیک صوتی توسعه دادهاند.
فناوری دیپفیک اگرچه در ابتدا بهعنوان سرگرمی متولد شد، بهمرور خود را به یک نگرانی و بحران امنیتی تبدیل کرد. درواقع بسیاری از متخصصان امنیت نگران هستند که در آینده، محتوای صوتی و تصویری تولیدشده بهکمک دیپفیک، حتی به جنگهای جهانی بینجامد. تصور کنید پیامی صوتی یا تصویری از مقام مسئول یک کشور پخش شود که با کشوری دیگر، اعلام جنگ میکند. شاید تا پاسخ رسمی آن مقام مسئول و تکذیب محتوای منتشرشده، نیمی از جهان وارد جنگ شده باشند. بههرحال دیپفیک امروز اهمیت بالایی در نظر متخصصان دارد و شاید آشنایی بهتر با آن، از فریب خوردن ساده و ابتدایی جلوگیری کند.
اکثر ما ویدئوهای دیپفیک را دیدهایم که در آنها، چهره شخصیت اصلی یک فیلم با چهره فرد دیگری جابهجا میشود. در نمونههای حرفهای، شناسایی تقلبی بودن چهرهی جدید بسیار دشوار میشود. اکنون نمونههای دیگری دیده میشوند که از هوش مصنوعی برای تغییر صدا استفاده میکنند. شرکت Resemble AI یکی از ارائهدهندههای فناوری کپی کردن صدا است. زهیب احمد، مدیرعامل شرکت، دیپفیک صوتی را به فتوشاپ تشبیه میکند که برای صوت به کار رفته باشد. ویرایش ناشیانهی یک فایل فتوشاپ، اغلب بهراحتی شناسایی میشود. درحالیکه محققان امنیتی میگویند مردم در شناسایی صدای دیپفیک، تنها ۵۷ درصد دقت دارند.
دیپفیک صوتی از هوش مصنوعی برای جابهجایی یا کپی کردن صدای افراد استفاده میکند. نکته قابلتوجه در دیپفیک صوتی این است که اغلب محتوای ضبطشده از تماسهای صوتی یا پیامهای صوتی که در شبکههای اجتماعی ردوبدل میشود، کیفیت پایینی دارد. بههرحال این محتوا در محیطهای پر سروصدا یا با دستگاههای نهچندان حرفهای ضبط میشود. در چنین شرایطی دیپ فیک صوتی راحتتر عمل میکند. درنهایت هرچه کیفیت صدا پایینتر باشد، شناسایی صدای اصلی و تقلبی دشوارتر خواهد بود.
اکنون این سؤال ایجاد میشود که چرا از ابتدا باید یک فناوری شبیه فتوشاپ برای صدا توسعه پیدا کند؟
دلیل قانعکننده برای ساخت صدای مصنوعی
زهیب میگوید تقاضای زیادی برای صدای مصنوعی در بازار وجود دارد. خصوصا در دنیای بازی، تقاضا بسیار بیشتر میشود. در گذشته، صدای صحبت کردن افراد در بازیها بهصورت آنی ساخته نمیشد. حتی در حرفهایترین بازیها با صحنههای سینمایی باکیفیت هم صدای شخصیتها بهصورت ایستا ضبط و پخش شده بود. امروزه با پیشرفت فناوری، استودیوها ظرفیت مناسب را برای کپی کردن صدای یک بازیگر پیدا کردهاند. آنها با ترکیب این صدای کپی با فناوریهای تبدیل متن به صوت، صدای زنده را به شخصیتهای بازی میدهند. درنتیجه هر شخصیت در بازی، بهصورت زنده صحبت میکند.
علاوه بر دنیای بازی، تبلیغات و پشتیبانی مشتریان و دیگر حوزههای فناوری هم از صدای مصنوعی بهره میبرند. در بخش ارتباط با مشتری، صدایی طبیعی و شبیه به انسان که واکنشی طبیعی به پرسشها و سؤالهای مشتری دارد، بسیار کارآمد خواهد بود. شرکتهای فعال در صنعت کپی کردن صدا، کاربردهای زیادی را هم در حوزههای پزشکی پیدا کردهاند. البته استفاده از صدای جایگزین در دنیای پزشکی آنچنان جدید نیست. استیون هاوکینگ از سال ۱۹۸۵ و پس از آنکه صدایش را از دست داد، از صدای مصنوعی برای صحبت کردن استفاده میکرد. امروزه فناوریهای پیشرفتهتری به کمک دانشمندان میآیند و صدای مصنوعی با کیفیت بالاتری تولید میکنند.
از شرکتهای فعال در صنعت ساخت صدای مصنوعی میتوان به CereProc اشاره کرد. این شرکت پروژههایی همچون ساخت صدای مصنوعی برای منتقد سینما، راجر ایبرت داشت که پس از ابتلا به سرطان، صدای خود را از دست داده بود. آنها همچنین وبسایتی توسعه دادند که متنهای واردشده توسط کاربران را با صدای رئیسجمهور ایالات متحده میخواند. شرکت مذکور بههمراه چندین شرکت مشابه، همکاریهایی هم با مؤسسهی ASL Associaton دارد و با راهاندازی Project Revoice، در بازیابی صدا به بیماران مبتلا به ALS کمک میکند.
صدای مصنوعی چگونه ساخته میشود؟
تولید صدای کپی و مصنوعی امروزه طرفداران زیادی دارد و شرکتهای متعددی با جدیت در این حوزه فعالیت میکنند. بهعنوان مثال Resemble AI و Descript دموهای آنلاینی را دراختیار کاربران عادی قرار میدهند که امکانات قابلتوجهی هم دارند. برای استفاده از دموهای آنلاین تنها باید صدای خود را با خواندن یک متن روی نمایشگر ضبط کرده و ارسال کنید. سپس یک نمونهی کامل از صدای شما ساخته میشود.
تبدیل کردن نمونهی صدا به صدایی کامل، به لطف فناوری هوش مصنوعی و خصوصا الگوریتمهای یادگیری عمیق ممکن میشود. این الگوریتمها، جزئیات صدای شما را از نمونهی ضبطشده استخراج میکنند و مدلی از آن میسازند. سپس بلوکهای سازندهی زبان استخراج میشوند تا برای تفلظ کلماتی که شما به زبان نیاوردهاید، استفاده شوند. فناوری موردنیاز برای چنین فرایندی از مدتها پیش وجود داشت، اما دانشمندان به ترکیب کردن و استخراج بهترین راهکار برای استفاده از آن، نیاز داشتند.
پیشرفتهای صورتگرفته در بینایی کامپیوتری در کپی کردن صدا هم به کار آمدند
توسعهدهندهها برای ساختن الگوریتمهای حرفهای، به مجموعهای عظیم از صداهای ضبطشده نیاز داشتند تا نتایج قابلقبولی از فرایندهای ساخت صدا کسب شود. از چند سال پیش، تحقیقات و پیشرفتهای علمی با سرعت زیادی پیش رفتند و زمینهی کافی برای توسعه فناوری فراهم شد. تحقیقات در حوزهی بینایی کامپیوتری اهمیت زیادی پیدا کرد که بعدا منجر به پیشرفت سریعتر هوش مصنوعی صوتی هم شد. دانشمندان برای توسعه الگوریتمهای بینایی کامپیوتری، شبکههای GAN توسعه دادند که توانایی پیشبینی براساس دادههای موجود را داشت. درنهایت دانشمندان حوزه هوش مصنوعی صوتی اعتقاد دارند پایههای پیشرفت از توسعه هوش مصنوعی بصری ایجاد شد.
یکی از نوآوریهای مهمی که در فناوری کپی کردن صدا ایجاد شد، نیاز به دادههای خام برای ساخت یک صدا را تا حد زیادی کاهش داد. همانطور که گفته شد در گذشته به دهها یا صدها ساعت صدا نیاز بود تا یک صدای مصنوعی ساخته شود. اکنون تنها با استفاده از چند دقیقه نمونهی صدا، میتوان آن را کپی کرد.
ترس ذاتی و عدم اعتماد
فناوری صدای مصنوعی هم مانند هر فناوری انقلابی دیگر همچون انرژی هستهای، نانوتکنولوژی، چاپ سهبعدی و CRISPR، در ابتدا با نگرانی و ترس روبهرو شد. در مجموع، گزارشهای متعددی هم وجود داشتند که از فریب خوردن بهخاطر صدای مصنوعی و تقلبی شکایت میکردند. یک شرکت بریتانیای در سال ۲۰۱۹ گزارش داد که با فریب خوردن از یک صدای مصنوعی، مقداری پول به مجرمان پرداخت کرده است. برای دیدن نمونههای صوت کپی شده، نیاز به جستوجوی زیادی ندارید. هماکنون در یوتیوب کانالهای متعددی هستند که از صدای شخصیتهای مشهور برای ساختن کلیپهای طنز استفاده میکنند.
دموهایی که شرکتهای Descript و Resemble AI در وب قرار دادهاند، کیفیت قابلقبولی دارند. Descript از الگوریتمی بهنام Lyrebird استفاده میکند و صدای کپی را با وجود کمی جلوههای مصنوعی، بسیار نزدیک به واقعیت تولید میکند. Resemble AI امکانات بیشتری دارد و حتی میتوان با استفاده از چند صدا در سرویس آنها یک مکالمهی مصنوعی ایجاد کرد. همچنین امکان تغییر شدت صدا و احساسات هم وجود دارد تا صدای تولیدی، هرچه بیشتر طبیعی باشد. البته درنهایت سرویس این شرکت آنچنان طبیعی عمل نمیکند.
فناوری ساخت صدای مصنوعی مانند هر فناوری دیگر به مرور زمان بهبود پیدا میکند و طبیعیتر میشود. با گذشت زمان، سیستمها با نمونههای کوتاهتر و کمتر صدا، موفق به ساخت صدای مصنوعی میشوند. با پیشرفت پردازندهها، سرعت ساخت صدای مصنوعی هم بیشتر میشود و شاید بتوان بهصورت زنده، یک صدای مصنوعی تولید کرد. هوش مصنوعی هم با هوشمندتر شدن، قابلیت اضافه کردن جلوههای طبیعی به صدا را پیدا میکند و نمونههایی نزدیکتر به واقعیت تولید خواهد کرد.
در مجموع، پیشرفت فناوریهای ساخت صدای مصنوعی، به سمتی میرود که شاید نگرانی ما را از ساخت نمونههای بسیار نزدیک به واقعی بیشتر کند.
تعهد اخلاقی توسعهدهندهها
توسعهدهندههای فناوری هوش مصنوعی برای تولید صدا، چالشهای اخلاقی زیادی را پیش روی خود میبینند. آنها باید به جامعه اطمینان دهند که فناوری تولیدی، برای کاربردهای غلط استفاده نمیشود. بهعنوان مثال، Resemble AI در وبسایت خود بخشی مخصوص همین موارد دارد. آنها در متنی مرتبط با پیشنیازهای اخلاقی میگویند که با شرکتهای خریدار فناوری، فرایندی سختگیرانه را طی میکنند تا محصول خریداری شده با مسئولیتپذیری کامل استفاده شود. شرکت از خریداران میخواهد که تأییدیه و اجازهی لازم را برای استفاده کردن از صدا، از صداپیشهی اصلی دریافت کنند.
توسعهدهندهها چارچوبهای سختگیرانهای برای فروش فناوری ساخت صدای مصنوعی دارند
شرکتها برای جلوگیری هرچه بیشتر از سوءاستفاده از فناوری تغییر صدا، راهکارهایی جدی را پیاده میکنند. بهعنوان مثال Resemble AI و Descript کاربر را ملزم میکنند تا صدای خود را بهصورت زنده از طریق میکروفون وارد کند. با این کار تاحدودی از وارد شدن صدای فرد دیگر و ساخت مدل از آن، جلوگیری میشود.
پیادهسازی سیاستها و قوانین سختگیرانه در شرکتهایی که فناوری را بهصورت تجاری عرضه میکنند، امیدوارکننده بهنظر میرسد. ازطرفی فراموش نکنید که آنها تنها فعالان صنعت نیستند. امروزه انواع ابزارهای متنباز مشابه در دنیای فناوری دیده میشود که بدون هیچ قانون و تعهد خاصی میتوان از آنها استفاده کرد. حتی برخی از کارشناسان میگویند بدون دانش برنامهنویسی حرفهای میتوان الگوریتمها را مورد استفاده قرار داد.
هشدار و فعالیت همیشگی متخصصان امنیت
مجرمان از سالها پیش تلاش میکنند تا با تماسهای تلفنی، از افراد سرقت کنند. آنها فعالیت خود را سالها پیش از توسعه فناوری کپی صدا شروع کردهاند. درمقابل، متخصصان امنیت نیز همیشه درگیر پیدا کردن راههای برای پیشگیری از سرقتها بودهاند. شرکت امنیتی Pindrop یکی از فعالان جدی این حوزه محسوب میشود که در شناسایی صدای تقلبی فعالیتی جدی دارد. آنها تنها در سال ۲۰۱۹ با تحلیل ۱/۲ میلیارد تعامل صوتی توانستند از ۴۷۰ میلیون دلار کلاهبرداری مبتنی بر کپی کردن صدا، جلوگیری کنند.
فناوریهای امنیتی امروزه با ترکیب موقعیتیابی و شناسایی مشخصههای صوتی از تماسها، امکان شناسایی کلاهبرداری و صدای تقلبی را دارند. بهعنوان مثال اگر یک مجرم، موقعیت مکانی تماس را با استفاده از تماسهای اینترنتی تغییر دهد و همچنین صدا هم بهکمک هوش مصنوعی کپی شود، میتوان از برخی از مشخصههای موجود در مکالمه، او را شناسایی کرد. نکته جالبتوجه اینکه برخی از مجرمان از صدای پسزمینه و شلوغ کردن صدای مکالمه برای فریب آسانتر استفاده میکنند. برخی دیگر نیز جنسیت صدای خود را تغییر میدهند که باز هم با دقت بیشتر میتوان غیرطبیعی بودن لحن صدا را در مکالمه آنها تشخیص داد.
بههرحال نبرد بین مجرمان سایبری و متخصصان امنیت همیشه ادامه دارد. هر دو طرف بهدنبال فناوریهای پیشرفتهتر هستند تا جبهه مقابل را شکست دهند. در اینمیان مجرمان فعالیتهایی بسیار جدی در ترکیب فناوریها و پیدا کردن قربانیهای بیشتر دارند.
شناسایی صدای مصنوعی
در شناسایی صداهای مصنوعی و دیپ فیک صوتی اخبار خوب و بد به یک میزان وجود دارند. خبر بد اینکه صداهای مصنوعی روزبهروز قویتر میشوند. سیستمهای یادگیری عمیق هوشمندتر شدهاند و صداهایی معتبرتر تولید میکنند. با جستوجویی ساده در اینترت، نمونههای زیادی را میبینید که صدای افراد مشهور و معتبر را برای گفتن عبارتهای طنز به کار گرفتهاند و نمونههای موفقی هم به شمار میروند.
هرچه طول کلیپ صوتی بیشتر باشد، شانس شناسایی کپی بودن صدا هم بیشتر میشود. در کلیپهای کوتاهتر، احتمال شناسایی پایین میآید. خصوصا اگر مخاطب با آمادگی و دقت زیاد به کلیپ گوش ندهد، امکات فریب خوردن بیشتر خواهد بود.
با افزایش کیفیت فایل صوتی، میتوان وجود جلوههای مصنوعی در صدا را بهتر شناسایی کرد. وقتی صدای ضبطشده، از صحبت مستقیم با میکروفن حرفهای استودیویی ضبط شده باشد، شناسایی کپی بودن آن آسانتر شده باشد. با اینحال در تماسهای صوتی که اغلب کیفیت پایینی دارند، شرایط دشوارتر خواهد بود.
خبر خوب درباره دیپفیک صوتی اینکه توانایی کامپیوترها در شناسایی صدای ساختگی از انسانها بیشتر است. خوشبختانه ابزارهای شناسایی صدای مصنوعی بهخوبی پیشرفت کردهاند و کیفیت عملکردی بالایی هم دارند. شرکت Pindrop ابزاری دارد که بهنوعی الگوریتمهای یادگیری عمیق را در نبردی روبهرو هم قرار میدهد تا تفلبی بودن صدا را شناسایی کند. در ابزار آنها، این امکان بررسی میشود که آیا یک فرد عادی میتواند تمامی صداهای موجود در فایل صوتی نمونه را ایجاد کند؟
بسته به کیفیت صدا، هر ثانیه از صحبت یک فرد در فایل صوتی دارای هشت تا ۵۰ هزار نمونهی دادهای میشود که باید بررسی و تحلیل شود. الگوریتم امنیتی، در دادههای موجود بهدنبال مواردی میگردد که با محدودیتهای صحبت کردن انسان ارتباط داشته باشد. بهعنوان مثال، صداهای صحبت کردن افراد، فاصلهی زمانی مشخصی با هم دارند. این فاصله بهخاطر محدودیت فیزیکی ایجاد میشود که در ماهیچههای دهان وجود دارد. به بیان سادهتر، برای گفتن دو صدای گوناگون درکنار یکدیگر، شما محدودیت سرعت دارید و نمیتوانید با سرعت زیاد، آنها را به هم متصل کنید. متخصصان در شناسایی صدای مصنوعی اغلب متوجه میشوند که صدای مذکور، امکان گفته شدن توسط یک انسان عادی را ندارد و مثلا برای ادای آن، نیاز به گردنی بسیار بزرگ خواهد داشت!
برخی صداها که به صداهای سایشی شناخته میشوند، المانهایی دیگر برای شناسایی صدای مصنوعی هستند. این صداها با نزدیک شدن مجراهای تولید صدا در دهان ایجاد میشوند. بهعنوان مثال در گفتن حروف «ف»، «س»، «و» و «ز»، صداهای سایشی ایجاد میشوند. هوش مصنوعی در ادای صداهای مذکور مشکل دارد و نمیتواند آنها را از نویز متمایز کند. درواقع درحالحاضر نرمافزار هوش مصنوعی درکی از انسان سازنده صدا ندارد و نمیتواند تمامی رفتارهای گفتاری او را کپی کند.
شرکتهای تولیدکننده ابزار صدای مصنوعی هم تلاشهایی برای مقابله با سوءاستفاده از دیپ فیک صوتی توسعه دادهاند. بهعنوان مثال Resemble AI ابزاری بهنام Resemblyzer را بهصورت متنباز در گیتهاب قرار داده است که صداهای ساختگی را با دقت و عملکرد مناسبی شناسایی میکند.
نیاز همیشگی به هوشیاری
در دنیای فناوری، حدس زدن آینده بههیچوجه آسان نیست. البته باتوجهبه گذشته میدانیم که قطعا فناوری دیپ فیک صوتی هم در مسیر پیشرفت قرار میگیرد. ازطرفی، فراموش نکنید که هر فردی شاید روزی قربانی دیب فیک صوتی شود. مجرمان سایبری لزوما تنها افراد مشهور و مدیران بانک را هدف قرار نمیدهند. متخصصان امنیتی هشدار میدهند که سرقت صدای کاربران عادی، درحال اوجگیری است.
با وجود هشدارهای زیاد، درحالحاضر خطر زیادی در دنیای واقعی از دیپ فیک دیده نمیشود. ابزارهای موجود، قدرت بالایی در شناسایی صدای مصنوعی پیدا کردهاند. بهعلاوه، در وضعیت کنونی که شرکتهای تجاری دقت زیادی در انتخاب مشتریان الگوریتم صدای ساختگی دارند، خطر زیادی مردم را تهدید نمیکند. تهدید و خطر نهایی در همکاری توسعهدهندههای ناشناس و ایجاد ابزارهای متنباز با رابطهای کاربری ساده دیده میشود که ابزار تغییر صدا را در دستان همهی مردم قرار میدهد. این ابزارها دیگر لایهی اخلاقی و امنیتی موجود در شرکتهای تجاری را ندارند و هر کسی با هر هدفی امکان استفاده از آنها را خواهد داشت.
توسعه ابزارهایی ساده که امکان تغییر صدا را به همهی کاربران میدهند، دور از انتظار نیست. درواقع بالاخره چنین اتفاقی رخ میدهد و مردم باید با هوشیاری بیشتری از ابزارها استفاده کنند. درمقابل، شرکتهای امنیتی هم منفعل نیستند و تمام تلاش خود را برای بهبود ابزارهای شناسایی بهکار میگیرند