هوش مصنوعی در مسیر یادگیری صدای انسان‌ ها

۳ بهمن ۱۴۰۳ مطالعه ۲ دقیقه

یک مدل هوش مصنوعی جدید می‌تواند تقلیدهای صوتی از صداهای روزمره را تولید و درک کند. این روش می‌تواند به ایجاد رابط‌ های صوتی جدید برای سرگرمی و آموزش کمک کند.

اگر شما در حال توصیف صدای موتور خراب خودروی‌ تان باشید یا بخواهید مانند گربه همسایه‌ تان میو میو کنید، تقلید صداها با صدای خود می‌تواند راهی مفید برای انتقال یک مفهوم باشد زمانی که کلمات کارساز نیستند.

تقلید صدای یک تصویر صوتی سریع است که به شما کمک می‌کند چیزی را که دیده‌اید توضیح دهید. با این تفاوت که به جای استفاده از مداد برای تصویرسازی، از مجرای صوتی خود برای بیان یک صدا استفاده می‌کنید. این ممکن است دشوار به نظر برسد، اما چیزی است که ما به طور شهودی انجام می‌دهیم: برای تجربه آن، سعی کنید با صدای خود صدای آژیر آمبولانس، کلاغ یا زنگی که به صدا درمی‌آید را تقلید کنید. بیشتر بخوانید : آیا هوش مصنوعی می‌تواند جایگزین انسان شود؟

محققان آزمایشگاه علوم کامپیوتر و هوش مصنوعی (MIT (CSAIL سیستمی توسعه داده‌اند که می‌تواند تقلیدهای صوتی شبیه انسان را بدون هیچ آموزشی و بدون اینکه قبلاً صدای یک تقلید صوتی انسانی را شنیده باشد، تولید می‌کند.

برای دستیابی به این هدف، محققان سیستم خود را به گونه‌ای طراحی کردند که صداها را درست مانند ما تولید و تفسیر کند. آنها با ساخت مدلی از مجرای صوتی انسان شروع کردند که نحوه شکل‌ گیری ارتعاشات از جعبه صوتی را توسط گلو، زبان و لب‌ها شبیه‌ سازی می‌کند. سپس، آنها از یک الگوریتم هوش مصنوعی الهام‌ گرفته از شناخت استفاده کردند تا این مدل مجرای صوتی را کنترل کرده و آن را وادار به تولید تقلیدها کنند، با در نظر گرفتن روش‌های خاص متنی که انسان‌ها برای ارتباط صدا انتخاب می‌کنند.

صحبت کردن هوش مصنوعی

مدل می‌تواند به‌ طور مؤثر بسیاری از صداهای دنیای واقعی را گرفته و تقلیدهایی شبیه به انسان از آن‌ها تولید کند. از جمله صداهایی مانند خش‌خش برگ‌ها، hiss مار و صدای آژیر آمبولانس که به سمت شما نزدیک می‌شود. این مدل همچنین می‌تواند به‌ صورت معکوس اجرا شود تا صداهای واقعی را از تقلیدهای صوتی انسانی حدس بزند، مشابه با اینکه برخی سیستم‌های بینایی کامپیوتری می‌توانند بر اساس طراحی‌ها، تصاویر با کیفیت بالا را بازیابی کنند. به عنوان مثال، این مدل می‌ تواند به‌ درستی صدای انسانی که صدای "میو" گربه را تقلید می‌کند را از صدای "hiss" آن تمایز دهد.

در آینده، این مدل می‌تواند به توسعه رابط‌های "تقلید محور" بیشتر و شهودی‌ تری برای طراحان صدا، کاراکترهای هوش مصنوعی انسانی‌ تر در واقعیت مجازی و حتی روش‌هایی برای کمک به دانش‌ آموزان در یادگیری زبان‌های جدید هوش مصنوعی که صداها را مانند انسان تقلید می‌کند.

این مدل هوش مصنوعی می‌تواند به طور موثر بسیاری از صداهای جهان را گرفته و تقلیدی شبیه به انسان از آنها تولید کند. از جمله صداهایی مانند شُرشُر برگ‌ها، سوسمار، و آژیر آمبولانس نزدیک شونده. این مدل همچنین می‌تواند به صورت معکوس اجرا شود تا صداهای واقعی جهان را از تقلیدهای صوتی انسانی حدس بزند، شبیه به اینکه برخی از سیستم‌های بینایی کامپیوتری می‌توانند تصاویر با کیفیت بالا را بر اساس طرح‌های اسکیس بازیابی کنند. به عنوان مثال، این مدل می‌تواند به درستی صدای یک انسان که در حال تقلید "میو" یا "غرش" گربه است را تشخیص دهد.

در آینده، این مدل می‌تواند منجر به ایجاد رابط‌های "مبتنی بر تقلید" برای طراحان صدا، شخصیت‌های هوش مصنوعی شبیه به انسان در واقعیت مجازی، و حتی روش‌هایی برای کمک به دانش‌آموزان در یادگیری زبان‌های جدید شود.

هنر تقلید، در سه بخش

ابتدا، یک مدل پایه ایجاد کردند که تنها هدفش تولید تقلیدهایی بود که تا حد ممکن شبیه به صداهای واقعی باشند . اما این مدل رفتار انسانی را به خوبی بازنمایی نمی‌کرد.

تقلید صدا

سپس محققان یک مدل "ارتباطی" دوم طراحی کردند. به گفته کارن، این مدل به ویژگی‌های متمایز یک صدا برای شنونده توجه می‌کند. به عنوان مثال، شما احتمالاً صدای یک قایق موتوری را با تقلید از غرش موتور آن تقلید می‌کنید، زیرا این ویژگی شنیداری متمایزترین آن است، حتی اگر بلندترین جنبه صدا نباشد (در مقایسه با، مثلاً، آب که به اطراف پاشیده می‌شود). این مدل دوم تقلیدهایی بهتر از مدل پایه ایجاد کرد، اما تیم می‌خواست آن را بیشتر بهبود ببخشد.

برای پیشبرد روش خود یک قدم دیگر، محققان یک لایه نهایی از استدلال را به مدل افزودند. تقلیدهای صوتی ممکن است بسته به میزان تلاشی که برای آنها می‌گذارید، متفاوت به نظر برسند. تولید صداهایی که کاملاً دقیق هستند زمان و انرژی می‌طلبد. مدل کامل محققان این موضوع را با تلاش برای جلوگیری از تولید صداهایی که بسیار سریع، بلند یا با فرکانس‌های بسیار بالا یا پایین هستند، در نظر می‌گیرد، زیرا مردم کمتر احتمال دارد از این نوع صداها در یک مکالمه استفاده کنند. نتیجه: تقلیدهای شبیه‌ تر به انسان که به بسیاری از تصمیماتی که انسان‌ها هنگام تقلید از صداهای مشابه می‌گیرند، نزدیک‌تر است.

پس از ساخت این مدل، تیم یک آزمایش رفتاری انجام داد تا ببیند آیا تقلیدهای صوتی تولید شده توسط هوش مصنوعی یا انسان توسط داوران انسانی به‌عنوان بهتر ارزیابی می‌شوند یا نه. جالب است که شرکت‌کنندگان در این آزمایش به طور کلی ۲۵ درصد از زمان مدل هوش مصنوعی را ترجیح دادند و حتی تا ۷۵ درصد برای تقلید صدای قایق موتوری و ۵۰ درصد برای تقلید صدای شلیک تفنگ.

به سوی فناوری صوتی با بیان بهتر

این فناوری همچنین می‌تواند به یک موسیقیدان کمک کند که به سرعت در یک پایگاه داده صوتی جستجو کند و صدایی را تقلید کند که توصیف آن در یک متن دشوار است.

به سوی فناوری صوتی با بیان بهتر

هنوز کارهای زیادی با نسخه فعلی مدل دارد: این مدل در تقلید برخی از صامت‌ها، مانند "z"، مشکل دارد که منجر به تولید تقلیدهای نادرست از برخی صداها، مانند وزوز زنبورها می‌شود. آنها همچنین هنوز نمی‌توانند تقلید انسان‌ها از گفتار، موسیقی یا صداهایی که در زبان‌های مختلف به شیوه‌های متفاوتی تقلید می‌شوند، مانند صدای ضربان قلب، را شبیه‌ سازی کنند.

روبرت هاوکینز، پروفسور زبان‌ شناسی دانشگاه استنفورد، می‌گوید که زبان پر از الفاظ صوتی و کلماتی است که تقلید می‌کنند اما به‌ طور کامل آنچه را که توصیف می‌کنند، بازتولید نمی‌کنند، مانند صدای "میو" که به‌ طور دقیق صدای گربه‌ها را تقریب می‌زند. فرایندهایی که ما را از صدای یک گربه واقعی به کلمه‌ای مانند 'میو' می‌رسانند،این مدل یک قدم هیجان‌انگیز به سوی رسمی‌ سازی و آزمایش نظریه‌های این فرآیندها ارائه می‌دهد و نشان می‌دهد که هم محدودیت‌های فیزیکی مجرای صوتی انسانی و هم فشارهای اجتماعی ناشی از ارتباطات برای توضیح توزیع تقلیدهای صوتی لازم هستند.

صفر و یک همراه شما در دنیای دیجیتال 

با خدمات ADSL2+، TD-LTE و VDSL شرکت صفر و یک، شما می‌توانید از سرعت بی‌ نظیری بهره‌ مند شوید! 

همین حالا برای استفاده از خدمات ما تماس بگیرید.


داغ‌ترین مطالب روز

بهترین DNSهای گیمینگ 🎮

بهترین DNSهای گیمینگ 🎮

DNS یکی از مهم ترین مواردی است که سبب می شود تا تجربه شما از بازی کردن بهبود یافته و اتصال شما به سرورها پایداری و ثبات پیدا کند. اما پیدا کردن دی ان اس خوب برای بازی ها آنلاین به خصوص بازی هایی نظیر Valorant، Call of Duty و … همواره چالش محسوب شده […]

۱۶ خرداد ۱۴۰۱ ۹

رفع مشکل وصل نشدن اینترنت در ویندوز 7🌐

رفع مشکل وصل نشدن اینترنت در ویندوز 7🌐

اینترنت یکی از مهم ترین عناصر زندگی در عصر امروز است. اما اگر نتوانیم با ویندوز به اینترنت وصل شویم چه؟ مشکل وصل نشدن اینترنت در ویندوز 7 چیست؟ در این مقاله به آموزش رفع مشکل وصل نشدن اینترنت در ویندوز 7 می پردازیم تا با بررسی راه حل های آن بتوانید به صورت اصولی […]

۲۸ اردیبهشت ۱۴۰۱ ۸

سرور ابری

سرور ابری

سرور ابری و یا سرویس ابری از اصطلاحاتی هستند که امروزه به آن زیاد بر می خوریم. اما شاید تا کنون درک درستی در خصوص خدمات مبتنی بر ابر و سرور ابری (سرور رایانش ابری) نداشته باشیم. انتخاب خدمات مرکز داده مناسب ، می تواند تاثیر به سزایی در هزینه های یک کسب و کار […]

۲ تیر ۱۳۹۹ ۵

آموزش دانلود از اینترنت📥

آموزش دانلود از اینترنت📥

دانلود کردن بخش جدایی ناپذیر این روزهای زندگی شده است. هر روز حجم عظیمی از اطلاعات دانلود و آپلود شده و به زندگی مجازی جان می بخشد. اما نحوه دانلود اصولی و حرفه ای از اینترنت به چه صورت است؟ چطور دانلود کنیم که از سالم بودن فایل اطمینان بالایی داشته باشیم؟ در این مقاله […]

۱۱ بهمن ۱۴۰۰ ۴

فیلتر کردن یعنی چه؟🤚

فیلتر کردن یعنی چه؟🤚

فیلتر کردن یکی از پرکاربردترین عبارت های این روزهاست که در گوشه و کنار فضای مجازی از آن زیاد می شنویم. اما فیلتر کردن یعنی چه ؟ فیلتر کردن به معنای بستن سایت به روی کاربران تعیین شده است. به صورتی که این کاربران نتوانند به راحتی به برنامه ها و سایت های مورد نظر […]

۱۱ خرداد ۱۴۰۱ ۴

دیدگاه‌ها

comment symbol

برای این مقاله ۰ دیدگاه نوشته شده است. دیدگاه شما چیست؟

شما نیز، دیدگاه خود را از طریق دکمه زیر به اشتراک بگذارید.

نوشتن دیدگاه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *