صنعت صدای مصنوعی در سالهای اخیر با پیشرفتهای شگرف در فناوریهای هوش مصنوعی و یادگیری ماشین تحولات قابلتوجهی را تجربه کرده است. صداهای تولیدشده توسط سیستمهای هوش مصنوعی، که زمانی بهدلیل روباتیک بودن غیرطبیعی به نظر میرسیدند، اکنون میتوانند نوسانات، تُن و حتی احساسات انسانی را تقلید کنند. این فناوری بهویژه برای صنایع تولید محتوای صوتی مانند پادکستها، تبلیغات، و بازیهای ویدیویی جذاب است، چراکه صدای مصنوعی بهسرعت، با هزینۀ کمتر و بدون محدودیتهای سنتی مانند زمان ضبط و تغییرات فیزیکی بازیگران صوتی تولید میشود.
با وجود این پیشرفتها، صداهای انسانی همچنان از نظر عمق احساسی و پیچیدگیهای ارتباطی بیرقیب هستند. صداپیشهها در صدای خود انعطافپذیری و تغییرات ظریفی را دارند که هنوز برای فناوریهای هوش مصنوعی دستنیافتنی است. آیندۀ این صنعت احتمالاً شامل همکاری بین انسان و هوش مصنوعی خواهد بود، جایی که صداهای مصنوعی وظایف مکانیکی و سریع را بر عهده میگیرند و صداهای انسانی بر تولید محتواهایی با بار عاطفی بیشتر تمرکز خواهند کرد. بااینحال، چالشهای اخلاقی مانند مالکیت صدا و حفظ حقوق بازیگران صوتی نیازمند توجه جدی در این تحول هستند.
از توسعۀ یک افزونۀ کروم تا خلق یک غول صوتی
در سال ۲۰۱۶، حمد سید، مهندس سابق دوبیزل امارات، و محمود فلفل، مهندس سابق واتساپ، ایدۀ جالبی در سر داشتند: ساخت یک افزونۀ تبدیل متن به گفتار برای مرورگر کروم که مقالات سایت مدیوم را بهصورت صوتی برای کاربران بخواند. این افزونه توسعه پیدا کرد و در پلتفرم پروداکتهانت معرفی شد. تنها یک سال بعد، این پروژه به یک کسبوکار همهچیزتمام تبدیل شد.
حمد سید در مصاحبهای به تککرانچ گفته است: «ما فرصت بزرگتری در کمک به افراد و سازمانها برای ایجاد محتوای صوتی واقعی برای اپلیکیشنهایشان دیدیم. بدون نیاز به ساخت مدلهای خودشان، آنها میتوانستند سریعتر از همیشه تجربههای صوتی با کیفیت انسانی را پیادهسازی کنند.»
پلیایآی: رابط صوتی هوش مصنوعی
این شرکت که اکنون با نام پلیایآی (PlayAI) شناخته میشود و پیشتر به نام PlayHT فعالیت میکرد، خود را بهعنوان «رابط صوتی هوش مصنوعی» معرفی میکند. مشتریان میتوانند از بین مجموعهای از صداهای از پیش تعریفشده انتخاب کنند یا صدای جدیدی را کپی کنند. همچنین، کاربران پلیایآی قادر خواهند بود با استفاده از API پلیایآی، قابلیت متن به گفتار را در برنامههای خود ادغام کنند.
یکی از قابلیتهای ویژۀ این پلتفرم، ابزارهایی برای تنظیم لحن، ریتم و تن صداها است که به کاربران اجازه میدهد صداهایی با ویژگیهای شخصیسازیشده تولید کنند.
ابزارها و امکانات پلیایآی
۱. محیط کاربری
پلیایآی یک ابزار به نام پلیگرند فراهم کرده است که کاربران میتوانند با آپلود فایلهای خود، نسخههای صوتی از آنها تولید کنند. این ابزار بهویژه برای روایتهای صوتی حرفهایتر و ساخت نریشنهای باکیفیت مفید است.
۲. پلینوت: تبدیل فایلها به پادکست و داستان
یکی از جذابترین امکانات پلیایآی، ابزار پلینوت است. این ابزار میتواند فایلهای پیدیاف، ویدئوها، عکسها و حتی آهنگها را به برنامههایی شبیه پادکست، ریکپهای صوتی، مناظرهها و مصاحبههای یکبهیک و داستانهای کودکانه تبدیل کند. به این شکل که پلینوت ابتدا فایل آپلودشده یا لینک آن را پردازش کرده، سپس با تولید یک اسکریپت، نتیجۀ نهایی را با کمک مجموعهای از مدلهای هوش مصنوعی ارائه میدهد.
۳. مدل پیشرفتۀ پلیدیالوگ
پلیدیالوگ جدیدترین و قدرتمندترین مدل تبدیل متن به گفتار پلیایآی است که با استفاده از فناوری «سازگارکننده گفتار متنی» انقلابی در تولید گفتار طبیعی ایجاد کرده است. این مدل از زمینه و تاریخچۀ کامل مکالمه استفاده میکند تا ویژگیهایی مانند لحن، احساسات، ریتم و زیر و بمی صدا را به گونهای تنظیم کند که به واقعیت نزدیکتر باشد. برخلاف نسلهای قبلی مدلهای صوتی، پلیدیالوگ مکالمات را بهصورت یکپارچه پردازش میکند و خروجیها را به شکلی طبیعی و پویا ارائه میدهد، گویی گویندگان در یک اتاق واقعی با یکدیگر تعامل دارند.
این مدل برای کاربردهایی مانند نریشن، دوبله، پادکستهای مصنوعی و حتی تعاملات صوتی یکبهیک در محیطهای تجاری طراحی شده است. پلیدیالوگ نهتنها توانایی خلق صداهای طبیعیتر را دارد، بلکه به کاربران امکان میدهد تجربههای گفتاری پیچیده و احساسی بسازند. از طریق ابزارهای کاربردی مانند پلینوت و API، کاربران میتوانند در عرض چند دقیقه محتوای صوتی باکیفیت و جذاب تولید کنند که کاملاً متناسب با جریان مکالمه است و استانداردهای جدیدی در حوزه صداهای مصنوعی تعریف میکند.
مسائل اخلاقی و ایمنی
۱. چالشهای کپی صدا و عدم نظارت کافی
یکی از ابزارهای بحثبرانگیز پلیایآی، قابلیت کپی صدا است. این شرکت از کاربران میخواهد که تأیید کنند حق لازم برای کپی صدا را دارند، اما هیچ سازوکار نظارتی برای بررسی صحت این ادعا وجود ندارد. برای مثال، یکی از نویسندگان وبسایت تککرانچ موفق شده است با استفاده از یک صدای ضبط شده، صدای کامالا هریس، معاون رئیسجمهور آمریکا را بهراحتی کپی کند.
این قابلیت نگرانیهایی در خصوص کلاهبرداری و دیپفیکها (جعل عمیق) ایجاد کرده است.
۲. ادعای شناسایی محتواهای نامناسب
پلیایآی مدعی است که محتوای «جنسی، توهینآمیز، نژادپرستانه یا تهدیدآمیز» را شناسایی و مسدود میکند. اما در آزمایشهای انجامشده، این ادعا تأیید نشد. حتی زمانی که صداهای کپیشده محتوای نامناسب تولید کردند، هیچ هشدار یا پیامی مبنی بر تخلف ارسال نشد.
۳. واکنش پلیایآی به گزارشهای سوءاستفاده
حمد سید میگوید پلیایآی به گزارشهایی دربارۀ کپی صداهای بدون رضایت واکنش نشان میدهد و کاربران متخلف را مسدود و صداهای کپیشده را حذف میکند. او همچنین معتقد است که قیمت بالای مدلهای پیشرفته (که به ۲۰ دقیقه نمونۀ صوتی نیاز دارند) میتواند مانعی برای سوءاستفاده کلاهبرداران باشد.
چالشهای قانونی و رقابتی
۱. مشکلات قانونی
پلیایآی تاکنون شکایتی دریافت نکرده است. اما شرایط استفاده از خدمات این شرکت نشان میدهد که اگر کاربران با تهدیدات قانونی مواجه شوند، شرکت از آنها حمایت نخواهد کرد. این موضوع باتوجهبه قوانین جدید در ایالاتی مانند تنسی و کالیفرنیا، که استفادۀ غیرمجاز از صداهای دیجیتال را جرمانگاری کردهاند، میتواند مشکلاتی برای پلیایآی ایجاد کند.
۲. رقبای بزرگ
ایلِوِنلَبز یکی از شرکتهای پیشرو در حوزۀ تولید گفتار مصنوعی است که با استفاده از هوش مصنوعی، صداهایی با کیفیت انسانی و طبیعی تولید میکند. این شرکت در سال ۲۰۲۲ تأسیس و بهسرعت به یکی از بازیگران اصلی در این صنعت تبدیل شده است. ایلِوِنلَبز با ارائۀ ابزارهایی مانند تبدیل متن به گفتار، تغییر صدا، دوبله و کپیبرداری صدا، به کاربران امکان میدهد محتوای صوتی متنوعی را در ۳۲ زبان مختلف ایجاد کنند. این شرکت در ژانویۀ ۲۰۲۴ موفق به جذب ۸۰ میلیون دلار سرمایهگذاری سریB شد و تبدیل به یک یونیکورن شد.
علاوه بر ایلونلبز، شرکتهای دیگری نیز در این حوزه فعالیت میکنند. مورفایآی و لُوُایآی از جمله رقبای برجسته هستند که ابزارهای مشابهی برای تولید گفتار مصنوعی ارائه میدهند. این شرکتها با تمرکز بر کیفیت صدا، سرعت تولید و قابلیتهای متنوع، در تلاشاند تا سهمی از بازار رو به رشد گفتار مصنوعی را به دست آورند. رقابت فشرده در این حوزه منجر به نوآوریهای مستمر و بهبود کیفیت خدمات ارائهشده به کاربران میشود.
آیندۀ پلیایآی
با وجود چالشهای قانونی و رقابتی، پلیایآی همچنان توانسته است سرمایهگذاران را جذب کند و این سرمایه را صرف توسعۀ مدلهای صوتی هوش مصنوعی و گسترش نیروی کار بکند.
پلیایآی، با تمرکز بر پیشرفتهای فنی و تعاملات انسانیتر، همچنان مسیر خود را در بازار پررقابت صداهای مصنوعی ادامه میدهد.
منبع خبر:
مصور
/ پلیایآی؛ صداسازی با هوش مصنوعی و چالشهای اخلاقی آن
تمامی حقوق گردآوری و تالیف خبر متعلق به ناشر اصلی آن که در لینک فوق به آن اشاره شده است می باشد. در صورت نیاز به ارسال جوابیه یا توضیح تکمیلی برای مطلب منتشر شده صرفا از طریق مرجع اصلی خبر اقدام نمایید.