کد مطلب: ۸۹۱۸۵۷
|
|
۰۴ شهريور ۱۴۰۴ - ۱۳:۳۱

مشکلات گفتار و زبان در کودکان با هوش مصنوعی حل میشود!

مشکلات گفتار و زبان در کودکان با هوش مصنوعی حل میشود!
با کمک هوش مصنوعی ابزاری توسعه داده شده تا مشکلات گفتار و زبان در کودکان زودتر امکانپذیر شود.

به گزارش مجله خبری نگار/فیز، از قابلیت تبدیل صدا به متن در موبایل گرفته تا زیرنویس‌هایی که ویدیو‌ها را قابل‌دسترس‌تر می‌کنند، تبدیل گفتار به نوشتار در زندگی روزمره جا افتاده است. در پشت صحنه، هوش مصنوعی کار‌های سنگین را انجام می‌دهد و کلام گفتاری را با سرعت و دقتی که زمانی غیرممکن به نظر می‌رسید، به متن تبدیل می‌کند.

در همین راستا ابر رایانه Lonestar ۶ در مرکز رایانش پیشرفته تگزاس به محققان گفتارشناسی دانشگاه تگزاس در دالاس امکان داد مرز‌های شناسایی خودکار زبان (ASR) برای کودکان را ارتقا دهند. پژوهشگران با ابداع انتزاعات ریاضی به نام «واحد‌های گفتاری گسسته» از صدا به عنوان نوعی رمزگذاری ناشناس، می‌توانند مشکلات گفتار و زبان را در کودکان خردسال شناسایی و مداخل پزشکی سریع‌تری را برای کمک به آنها فراهم کنند.

ساتویک داتا، دانشجوی دکترای مدرسه مهندسی و علوم کامپیوتر اریک جانسون و بورسیه تحصیلات تکمیلی یوجین مک‌درموت در دانشگاه تگزاس در دالاس می‌گوید:هدف ما این است که بتوانیم نحوه صحبت کردن کودکان را درک و تحلیل کنیم.

وی در این باره می‌افزاید:طی سال‌ها، توسعه چنین سیستم‌هایی به خصوص برای کودکان بسیار چالش‌برانگیز بوده است. زیرا کودکان به خصوص کمتر از هشته سال سن هنوز در حال یادگیری مهارت‌های گفتاری و صوتی خود هستند و دانش شان از دستور زبان هم کامل نیست. گفتار آنها تفاوت زیادی با داده‌های گفتاری بزرگسالان دارد که اغلب برای آموزش سیستم‌های ASR متن‌باز استفاده می‌شود و این باعث می‌شود عملکرد مدل‌ها در تشخیص گفتار کودکان ضعیف باشد.

این پروژه با همکاری چند محقق دیگر انجام شد. وقتی پروژه در دوران محدودیت‌های مربوط به کووید-۱۹ آغاز شد، پژوهشگران تنها به مجموعه داده‌های موجود از بیش از هزار کودک دسترسی داشتند که از طریق هدست‌ها در جلسات آموزشی مجازی ضبط شده بود. پس از کاهش محدودیت‌ها، آنها توانستند داده‌های جدیدی را در محیط‌های واقعی جمع‌آوری کند و کودکان پیش‌دبستانی را در محیط‌های پرسر و صدای مراکز مراقبت روزانه با استفاده از دستگاه ضبط کوچکی به نام «لنا» ثبت کنند. این دستگاه به‌طور مخفیانه در جیب تی‌شرت سفارشی آنها قرار گرفته بود.

تحقیق مذکور وجهه‌ای جدید از تشخیص گفتار خودکار با استفاده از واحد‌های گسسته گفتار را بررسی می‌کند، که می‌توان آنها را به عنوان نمایش‌های انتزاعی ریاضی از گفتار در نظر گرفت. نکته کلیدی این است که تولید توالی خروجی از واحد‌های گسسته گفتار، عملا امکان بازگشت به عقب و بازسازی موج اصلی گفتار را غیرممکن و در نتیجه درجه‌ای از حفاظت حریم خصوصی را فراهم می‌کند.

به گفته داتا به محض اینکه گفتار بارگذاری شود، می‌توان آن را به واحد‌های گسسته گفتار تبدیل کرد، و در این حالت دیگر نگرانی از بابت نقض حریم خصوصی وجود ندارد، زیرا گفتار اصلی دیگر وجود ندارد و امکان تولید آن مجدداً وجود ندارد.

فرآیند تبدیل به واحد‌های گسسته گفتار، لایه‌های افزونگی داده‌ای را حذف کرده و نیاز‌های کلی آموزش و محاسباتی مدل تشخیص گفتار خودکار (ASR) را کاهش می‌دهد.

ارسال نظرات
قوانین ارسال نظر