یک مدل هوش مصنوعی جدید میتواند تقلیدهای صوتی از صداهای روزمره را تولید و درک کند. این روش میتواند به ایجاد رابط های صوتی جدید برای سرگرمی و آموزش کمک کند.
اگر شما در حال توصیف صدای موتور خراب خودروی تان باشید یا بخواهید مانند گربه همسایه تان میو میو کنید، تقلید صداها با صدای خود میتواند راهی مفید برای انتقال یک مفهوم باشد زمانی که کلمات کارساز نیستند.
تقلید صدای یک تصویر صوتی سریع است که به شما کمک میکند چیزی را که دیدهاید توضیح دهید. با این تفاوت که به جای استفاده از مداد برای تصویرسازی، از مجرای صوتی خود برای بیان یک صدا استفاده میکنید. این ممکن است دشوار به نظر برسد، اما چیزی است که ما به طور شهودی انجام میدهیم: برای تجربه آن، سعی کنید با صدای خود صدای آژیر آمبولانس، کلاغ یا زنگی که به صدا درمیآید را تقلید کنید. بیشتر بخوانید : آیا هوش مصنوعی میتواند جایگزین انسان شود؟
محققان آزمایشگاه علوم کامپیوتر و هوش مصنوعی (MIT (CSAIL سیستمی توسعه دادهاند که میتواند تقلیدهای صوتی شبیه انسان را بدون هیچ آموزشی و بدون اینکه قبلاً صدای یک تقلید صوتی انسانی را شنیده باشد، تولید میکند.
برای دستیابی به این هدف، محققان سیستم خود را به گونهای طراحی کردند که صداها را درست مانند ما تولید و تفسیر کند. آنها با ساخت مدلی از مجرای صوتی انسان شروع کردند که نحوه شکل گیری ارتعاشات از جعبه صوتی را توسط گلو، زبان و لبها شبیه سازی میکند. سپس، آنها از یک الگوریتم هوش مصنوعی الهام گرفته از شناخت استفاده کردند تا این مدل مجرای صوتی را کنترل کرده و آن را وادار به تولید تقلیدها کنند، با در نظر گرفتن روشهای خاص متنی که انسانها برای ارتباط صدا انتخاب میکنند.
مدل میتواند به طور مؤثر بسیاری از صداهای دنیای واقعی را گرفته و تقلیدهایی شبیه به انسان از آنها تولید کند. از جمله صداهایی مانند خشخش برگها، hiss مار و صدای آژیر آمبولانس که به سمت شما نزدیک میشود. این مدل همچنین میتواند به صورت معکوس اجرا شود تا صداهای واقعی را از تقلیدهای صوتی انسانی حدس بزند، مشابه با اینکه برخی سیستمهای بینایی کامپیوتری میتوانند بر اساس طراحیها، تصاویر با کیفیت بالا را بازیابی کنند. به عنوان مثال، این مدل می تواند به درستی صدای انسانی که صدای "میو" گربه را تقلید میکند را از صدای "hiss" آن تمایز دهد.
در آینده، این مدل میتواند به توسعه رابطهای "تقلید محور" بیشتر و شهودی تری برای طراحان صدا، کاراکترهای هوش مصنوعی انسانی تر در واقعیت مجازی و حتی روشهایی برای کمک به دانش آموزان در یادگیری زبانهای جدید هوش مصنوعی که صداها را مانند انسان تقلید میکند.
این مدل هوش مصنوعی میتواند به طور موثر بسیاری از صداهای جهان را گرفته و تقلیدی شبیه به انسان از آنها تولید کند. از جمله صداهایی مانند شُرشُر برگها، سوسمار، و آژیر آمبولانس نزدیک شونده. این مدل همچنین میتواند به صورت معکوس اجرا شود تا صداهای واقعی جهان را از تقلیدهای صوتی انسانی حدس بزند، شبیه به اینکه برخی از سیستمهای بینایی کامپیوتری میتوانند تصاویر با کیفیت بالا را بر اساس طرحهای اسکیس بازیابی کنند. به عنوان مثال، این مدل میتواند به درستی صدای یک انسان که در حال تقلید "میو" یا "غرش" گربه است را تشخیص دهد.
در آینده، این مدل میتواند منجر به ایجاد رابطهای "مبتنی بر تقلید" برای طراحان صدا، شخصیتهای هوش مصنوعی شبیه به انسان در واقعیت مجازی، و حتی روشهایی برای کمک به دانشآموزان در یادگیری زبانهای جدید شود.
هنر تقلید، در سه بخش
ابتدا، یک مدل پایه ایجاد کردند که تنها هدفش تولید تقلیدهایی بود که تا حد ممکن شبیه به صداهای واقعی باشند . اما این مدل رفتار انسانی را به خوبی بازنمایی نمیکرد.
سپس محققان یک مدل "ارتباطی" دوم طراحی کردند. به گفته کارن، این مدل به ویژگیهای متمایز یک صدا برای شنونده توجه میکند. به عنوان مثال، شما احتمالاً صدای یک قایق موتوری را با تقلید از غرش موتور آن تقلید میکنید، زیرا این ویژگی شنیداری متمایزترین آن است، حتی اگر بلندترین جنبه صدا نباشد (در مقایسه با، مثلاً، آب که به اطراف پاشیده میشود). این مدل دوم تقلیدهایی بهتر از مدل پایه ایجاد کرد، اما تیم میخواست آن را بیشتر بهبود ببخشد.
برای پیشبرد روش خود یک قدم دیگر، محققان یک لایه نهایی از استدلال را به مدل افزودند. تقلیدهای صوتی ممکن است بسته به میزان تلاشی که برای آنها میگذارید، متفاوت به نظر برسند. تولید صداهایی که کاملاً دقیق هستند زمان و انرژی میطلبد. مدل کامل محققان این موضوع را با تلاش برای جلوگیری از تولید صداهایی که بسیار سریع، بلند یا با فرکانسهای بسیار بالا یا پایین هستند، در نظر میگیرد، زیرا مردم کمتر احتمال دارد از این نوع صداها در یک مکالمه استفاده کنند. نتیجه: تقلیدهای شبیه تر به انسان که به بسیاری از تصمیماتی که انسانها هنگام تقلید از صداهای مشابه میگیرند، نزدیکتر است.
پس از ساخت این مدل، تیم یک آزمایش رفتاری انجام داد تا ببیند آیا تقلیدهای صوتی تولید شده توسط هوش مصنوعی یا انسان توسط داوران انسانی بهعنوان بهتر ارزیابی میشوند یا نه. جالب است که شرکتکنندگان در این آزمایش به طور کلی ۲۵ درصد از زمان مدل هوش مصنوعی را ترجیح دادند و حتی تا ۷۵ درصد برای تقلید صدای قایق موتوری و ۵۰ درصد برای تقلید صدای شلیک تفنگ.
به سوی فناوری صوتی با بیان بهتر
این فناوری همچنین میتواند به یک موسیقیدان کمک کند که به سرعت در یک پایگاه داده صوتی جستجو کند و صدایی را تقلید کند که توصیف آن در یک متن دشوار است.
هنوز کارهای زیادی با نسخه فعلی مدل دارد: این مدل در تقلید برخی از صامتها، مانند "z"، مشکل دارد که منجر به تولید تقلیدهای نادرست از برخی صداها، مانند وزوز زنبورها میشود. آنها همچنین هنوز نمیتوانند تقلید انسانها از گفتار، موسیقی یا صداهایی که در زبانهای مختلف به شیوههای متفاوتی تقلید میشوند، مانند صدای ضربان قلب، را شبیه سازی کنند.
روبرت هاوکینز، پروفسور زبان شناسی دانشگاه استنفورد، میگوید که زبان پر از الفاظ صوتی و کلماتی است که تقلید میکنند اما به طور کامل آنچه را که توصیف میکنند، بازتولید نمیکنند، مانند صدای "میو" که به طور دقیق صدای گربهها را تقریب میزند. فرایندهایی که ما را از صدای یک گربه واقعی به کلمهای مانند 'میو' میرسانند،این مدل یک قدم هیجانانگیز به سوی رسمی سازی و آزمایش نظریههای این فرآیندها ارائه میدهد و نشان میدهد که هم محدودیتهای فیزیکی مجرای صوتی انسانی و هم فشارهای اجتماعی ناشی از ارتباطات برای توضیح توزیع تقلیدهای صوتی لازم هستند.
صفر و یک همراه شما در دنیای دیجیتال
با خدمات ADSL2+، TD-LTE و VDSL شرکت صفر و یک، شما میتوانید از سرعت بی نظیری بهره مند شوید!
همین حالا برای استفاده از خدمات ما تماس بگیرید.