پلی‌ای‌آی؛ صداسازی با هوش مصنوعی و چالش‌های اخلاقی آن

کد خبر : 14847
08 آذر 1403 - 8:08

صنعت صدای مصنوعی در سال‌های اخیر با پیشرفت‌های شگرف در فناوری‌های هوش مصنوعی و یادگیری ماشین تحولات قابل‌توجهی را تجربه کرده است. صداهای تولیدشده توسط سیستم‌های هوش مصنوعی، که زمانی به‌دلیل روباتیک بودن غیرطبیعی به نظر می‌رسیدند، اکنون می‌توانند نوسانات، تُن و حتی احساسات انسانی را تقلید کنند. این فناوری به‌ویژه برای صنایع تولید محتوای صوتی مانند پادکست‌ها، تبلیغات، و بازی‌های ویدیویی جذاب است، چراکه صدای مصنوعی به‌سرعت، با هزینۀ کمتر و بدون محدودیت‌های سنتی مانند زمان ضبط و تغییرات فیزیکی بازیگران صوتی تولید می‌شود.

با وجود این پیشرفت‌ها، صداهای انسانی همچنان از نظر عمق احساسی و پیچیدگی‌های ارتباطی بی‌رقیب هستند. صداپیشه‌ها در صدای خود انعطاف‌پذیری و تغییرات ظریفی را دارند که هنوز برای فناوری‌های هوش مصنوعی دست‌نیافتنی است. آیندۀ این صنعت احتمالاً شامل همکاری بین انسان و هوش مصنوعی خواهد بود، جایی که صداهای مصنوعی وظایف مکانیکی و سریع را بر عهده می‌گیرند و صداهای انسانی بر تولید محتواهایی با بار عاطفی بیشتر تمرکز خواهند کرد. بااین‌حال، چالش‌های اخلاقی مانند مالکیت صدا و حفظ حقوق بازیگران صوتی نیازمند توجه جدی در این تحول هستند.

از توسعۀ یک افزونۀ کروم تا خلق یک غول صوتی

در سال ۲۰۱۶، حمد سید، مهندس سابق دوبیزل امارات، و محمود فلفل، مهندس سابق واتس‌اپ، ایدۀ جالبی در سر داشتند: ساخت یک افزونۀ تبدیل متن به گفتار برای مرورگر کروم که مقالات سایت مدیوم را به‌صورت صوتی برای کاربران بخواند. این افزونه توسعه پیدا کرد و در پلتفرم پروداکت‌هانت معرفی شد. تنها یک سال بعد، این پروژه به یک کسب‌وکار همه‌چیزتمام تبدیل شد.

حمد سید در مصاحبه‌ای به تک‌کرانچ گفته است: «ما فرصت بزرگ‌تری در کمک به افراد و سازمان‌ها برای ایجاد محتوای صوتی واقعی برای اپلیکیشن‌هایشان دیدیم. بدون نیاز به ساخت مدل‌های خودشان، آن‌ها می‌توانستند سریع‌تر از همیشه تجربه‌های صوتی با کیفیت انسانی را پیاده‌سازی کنند.»

پلی‌ای‌آی: رابط صوتی هوش مصنوعی

این شرکت که اکنون با نام پلی‌ای‌آی (PlayAI) شناخته می‌شود و پیش‌تر به نام PlayHT فعالیت می‌کرد، خود را به‌عنوان «رابط صوتی هوش مصنوعی» معرفی می‌کند. مشتریان می‌توانند از بین مجموعه‌ای از صداهای از پیش تعریف‌شده انتخاب کنند یا صدای جدیدی را کپی کنند. همچنین، کاربران پلی‌ای‌آی قادر خواهند بود با استفاده از API پلی‌ای‌آی، قابلیت متن به گفتار را در برنامه‌های خود ادغام کنند.

یکی از قابلیت‌های ویژۀ این پلتفرم، ابزارهایی برای تنظیم لحن، ریتم و تن صداها است که به کاربران اجازه می‌دهد صداهایی با ویژگی‌های شخصی‌سازی‌شده تولید کنند.

ابزارها و امکانات پلی‌ای‌آی

۱. محیط کاربری

پلی‌ای‌آی یک ابزار به نام پلی‌گرند فراهم کرده است که کاربران می‌توانند با آپلود فایل‌های خود، نسخه‌های صوتی از آن‌ها تولید کنند. این ابزار به‌ویژه برای روایت‌های صوتی حرفه‌ای‌تر و ساخت نریشن‌های باکیفیت مفید است.

۲. پلی‌نوت: تبدیل فایل‌ها به پادکست و داستان

یکی از جذاب‌ترین امکانات پلی‌ای‌آی، ابزار پلی‌نوت است. این ابزار می‌تواند فایل‌های پی‌دی‌اف، ویدئوها، عکس‌ها و حتی آهنگ‌ها را به برنامه‌هایی شبیه پادکست، ری‌کپ‌های صوتی، مناظره‌ها و مصاحبه‌های یک‌به‌یک و داستان‌های کودکانه تبدیل کند. به این شکل که پلی‌نوت ابتدا فایل آپلودشده یا لینک آن را پردازش کرده، سپس با تولید یک اسکریپت، نتیجۀ نهایی را با کمک مجموعه‌ای از مدل‌های هوش مصنوعی ارائه می‌دهد.

۳. مدل پیشرفتۀ پلی‌دیالوگ

پلی‌دیالوگ جدیدترین و قدرتمندترین مدل تبدیل متن به گفتار پلی‌ای‌آی است که با استفاده از فناوری «سازگارکننده گفتار متنی» انقلابی در تولید گفتار طبیعی ایجاد کرده است. این مدل از زمینه و تاریخچۀ کامل مکالمه استفاده می‌کند تا ویژگی‌هایی مانند لحن، احساسات، ریتم و زیر و بمی صدا را به گونه‌ای تنظیم کند که به واقعیت نزدیک‌تر باشد. برخلاف نسل‌های قبلی مدل‌های صوتی، پلی‌دیالوگ مکالمات را به‌صورت یکپارچه پردازش می‌کند و خروجی‌ها را به شکلی طبیعی و پویا ارائه می‌دهد، گویی گویندگان در یک اتاق واقعی با یکدیگر تعامل دارند.

این مدل برای کاربردهایی مانند نریشن، دوبله، پادکست‌های مصنوعی و حتی تعاملات صوتی یک‌به‌یک در محیط‌های تجاری طراحی شده است. پلی‌دیالوگ نه‌تنها توانایی خلق صداهای طبیعی‌تر را دارد، بلکه به کاربران امکان می‌دهد تجربه‌های گفتاری پیچیده و احساسی بسازند. از طریق ابزارهای کاربردی مانند پلی‌نوت و API، کاربران می‌توانند در عرض چند دقیقه محتوای صوتی باکیفیت و جذاب تولید کنند که کاملاً متناسب با جریان مکالمه است و استانداردهای جدیدی در حوزه صداهای مصنوعی تعریف می‌کند.

مسائل اخلاقی و ایمنی

۱. چالش‌های کپی صدا و عدم نظارت کافی

یکی از ابزارهای بحث‌برانگیز پلی‌ای‌آی، قابلیت کپی صدا است. این شرکت از کاربران می‌خواهد که تأیید کنند حق لازم برای کپی صدا را دارند، اما هیچ سازوکار نظارتی برای بررسی صحت این ادعا وجود ندارد. برای مثال، یکی از نویسندگان وب‌سایت تک‌کرانچ موفق شده است با استفاده از یک صدای ضبط شده، صدای کامالا هریس، معاون رئیس‌جمهور آمریکا را به‌راحتی کپی کند.

این قابلیت نگرانی‌هایی در خصوص کلاهبرداری و دیپ‌فیک‌ها (جعل عمیق) ایجاد کرده است.

۲. ادعای شناسایی محتواهای نامناسب

پلی‌ای‌آی مدعی است که محتوای «جنسی، توهین‌آمیز، نژادپرستانه یا تهدیدآمیز» را شناسایی و مسدود می‌کند. اما در آزمایش‌های انجام‌شده، این ادعا تأیید نشد. حتی زمانی که صداهای کپی‌شده محتوای نامناسب تولید کردند، هیچ هشدار یا پیامی مبنی بر تخلف ارسال نشد.

۳. واکنش پلی‌ای‌آی به گزارش‌های سوءاستفاده

حمد سید می‌گوید پلی‌ای‌آی به گزارش‌هایی دربارۀ کپی صداهای بدون رضایت واکنش نشان می‌دهد و کاربران متخلف را مسدود و صداهای کپی‌شده را حذف می‌کند. او همچنین معتقد است که قیمت بالای مدل‌های پیشرفته (که به ۲۰ دقیقه نمونۀ صوتی نیاز دارند) می‌تواند مانعی برای سوءاستفاده کلاهبرداران باشد.

چالش‌های قانونی و رقابتی

۱. مشکلات قانونی

پلی‌ای‌آی تاکنون شکایتی دریافت نکرده است. اما شرایط استفاده از خدمات این شرکت نشان می‌دهد که اگر کاربران با تهدیدات قانونی مواجه شوند، شرکت از آن‌ها حمایت نخواهد کرد. این موضوع باتوجه‌به قوانین جدید در ایالاتی مانند تنسی و کالیفرنیا، که استفادۀ غیرمجاز از صداهای دیجیتال را جرم‌انگاری کرده‌اند، می‌تواند مشکلاتی برای پلی‌ای‌آی ایجاد کند.

۲. رقبای بزرگ

ایلِوِن‌لَبز یکی از شرکت‌های پیشرو در حوزۀ تولید گفتار مصنوعی است که با استفاده از هوش مصنوعی، صداهایی با کیفیت انسانی و طبیعی تولید می‌کند. این شرکت در سال ۲۰۲۲ تأسیس و به‌سرعت به یکی از بازیگران اصلی در این صنعت تبدیل شده است. ایلِوِن‌لَبز با ارائۀ ابزارهایی مانند تبدیل متن به گفتار، تغییر صدا، دوبله و کپی‌برداری صدا، به کاربران امکان می‌دهد محتوای صوتی متنوعی را در ۳۲ زبان مختلف ایجاد کنند. این شرکت در ژانویۀ ۲۰۲۴ موفق به جذب ۸۰ میلیون دلار سرمایه‌گذاری سریB شد و تبدیل به یک یونیکورن شد.

علاوه بر ایلون‌لبز، شرکت‌های دیگری نیز در این حوزه فعالیت می‌کنند. مورف‌ای‌آی و لُوُای‌آی از جمله رقبای برجسته هستند که ابزارهای مشابهی برای تولید گفتار مصنوعی ارائه می‌دهند. این شرکت‌ها با تمرکز بر کیفیت صدا، سرعت تولید و قابلیت‌های متنوع، در تلاش‌اند تا سهمی از بازار رو به رشد گفتار مصنوعی را به دست آورند. رقابت فشرده در این حوزه منجر به نوآوری‌های مستمر و بهبود کیفیت خدمات ارائه‌شده به کاربران می‌شود.

آیندۀ پلی‌ای‌آی

با وجود چالش‌های قانونی و رقابتی، پلی‌ای‌آی همچنان توانسته است سرمایه‌گذاران را جذب کند و این سرمایه را صرف توسعۀ مدل‌های صوتی هوش مصنوعی و گسترش نیروی کار بکند.

پلی‌ای‌آی، با تمرکز بر پیشرفت‌های فنی و تعاملات انسانی‌تر، همچنان مسیر خود را در بازار پررقابت صداهای مصنوعی ادامه می‌دهد.

منبع خبر:
مصور
/ پلی‌ای‌آی؛ صداسازی با هوش مصنوعی و چالش‌های اخلاقی آن

تمامی حقوق گردآوری و تالیف خبر متعلق به ناشر اصلی آن که در لینک فوق به آن اشاره شده است می باشد. در صورت نیاز به ارسال جوابیه یا توضیح تکمیلی برای مطلب منتشر شده صرفا از طریق مرجع اصلی خبر اقدام نمایید.

لینک کوتاه : https://ertebatatoresaneha.ir/?p=14847

ارسال توسط : سردبیر
101 بازدید
بدون دیدگاه

ارتباطات و رسانه ها

پلی‌ای‌آی؛ صداسازی با هوش مصنوعی و چالش‌های اخلاقی آن

از توسعۀ یک افزونۀ کروم تا خلق یک غول صوتی

پلی‌ای‌آی: رابط صوتی هوش مصنوعی