به گزارش مجله خبری نگار، حالا دیگر تنها کلمات نیستند که فناوری در حال کشف و درک آنهاست، بلکه گفتار و لحن پشت آنها نیز مورد توجه قرار گرفتهاند.
با افزایش اهمیت مدلهای زبانی مانند ChatGPT، این موضوع آشکار شده است که ماشینها قادرند بهطور قابلتوجهی ارتباطات انسانی را تقلید کنند. با این حال، یک لایه عمیقتر از تعامل باقی مانده است که تنها در کلمات یافت نمیشود.
تحقیقی که اخیراً توسط آزمایشگاه پروفسور الیشا موسی در موسسه وایزمن انجام شده، این بعد گمشده را آشکار کرده است.
این تحقیق نشان میدهد که لحن گفتار – که به آن «پروزودی» گفته میشود – یک زبان ساختاری و مستقل است که واژگان، معنایشناسی و دستور زبان خود را دارد و منتظر رمزگشایی است.
در زندگی روزمره، کلمات تنها بخشی از تعاملات انسانی را تشکیل میدهند. پروزودی یا موسیقی گفتار شامل تغییرات در تن صدا، تغییرات در بلندی، تغییرات در سرعت و کیفیت صوتی است.
این ابزارهای بیانی عمق احساسی و عملکردی را به ارتباطات میافزایند و معنای آنها را حتی زمانی که کلمات همانند باقی میمانند، تحت تأثیر قرار میدهند.
این موضوع یک توسعه جدید نیست. مطالعات نشان میدهند که هم شامپانزهها و هم نهنگها از ساختارهای پروزودیک در ارتباطات خود استفاده میکنند، که نشان میدهد پروزودی پیش از زبان وجود داشته است. در انسانها، یک مکث میتواند معنای یک جمله را بهطور چشمگیری تغییر دهد.
دکتر نداو ماتالون و دکتر ایال وینراب، که تحقیق را از آزمایشگاه موسی رهبری میکنند، تصمیم گرفتند که پروزودی را مانند یک زبان ناشناخته مطالعه کنند.
آنها به پایگاههای داده گستردهای از مکالمات خودجوش انگلیسی مراجعه کردند: CallHome Corpus و Santa Barbara Corpus. آنها بهجای استفاده از گفتار نوشتهشده یا تمرینشده، زیبایی بینظم مکالمات واقعی را جستوجو کردند.
از این خوشهبندی، محققان حدود ۲۰۰ الگوی پروزودیک متمایز کشف کردند. این عدد بهوضوح با هزاران کلمه در واژگان اصلی زبانی انگلیسی متفاوت است. هر الگوی پروزودی، که حدود یک ثانیه طول میکشد، بهعنوان یک «کلمه» در زبان پنهان لحن عمل میکند.
با وجود تفاوت در صداهای فردی، این اشکال ملودیک بهطور پیوسته در مکالمات خودجوش ظاهر میشوند. هر شکل میتواند چندین عملکرد زبانی داشته باشد بسته به زمینه، اما معمولاً یک نگرش عاطفی غالب مانند اشتیاق، بدبینی یا کنجکاوی را بیان میکند.
محققان فراتر از شناسایی «کلمات» پروزودیک ابتدایی، قوانینی برای نحوه ترکیب این واحدهای ملودیک کشف کردند. آنها دریافتند که برخی از الگوهای پروزودی تمایل دارند در جفتها ظاهر شوند، بهطوری که یک واحد پیشبینی میکند واحد بعدی را بر اساس قوانینی ساده و به یادماندنی شبیه به فرایند مارکوف.
یکی از یافتههای چشمگیر این تحقیق، تفاوت بین گفتار خودجوش و گفتار نوشتهشده است. زمانی که محققان کتابهای صوتی حرفهای را تجزیه و تحلیل کردند، متوجه شدند که گفتار نوشتهشده فاقد جفتهای طبیعی پروزودیکی است که در مکالمات رایج وجود دارد.
آموزش هوش مصنوعی برای درک پروزودی میتواند بهشدت نحوه تعامل ماشینها با انسانها را تغییر دهد. محققان پیشبینی میکنند که سیستمهای آینده قادر خواهند بود نهتنها کلمات را پردازش کنند، بلکه سیگنالهای عاطفی را نیز از لحنهای گفتار دریافت کنند.
این تحقیق اذعان میکند که گفتار انسانی دارای نویز درونی است. مکالمات روزمره پر از وقفهها، اصلاحات و صداهای همپوشانی است. خوشهبندی الگوهای پروزودیک باید این آشوب را مدیریت کند و جداسازی کامل «کلمات» پروزودیک همچنان دشوار است.
این کار با همکاری تیمی متشکل از دکتر دومینیک فرچه، دکتر اریز فولک از NeuraLight Inc. دکتر تیرزا بیرون و پروفسور دیوید بیرون از دانشگاه شیکاگو ممکن شده است.
منبع:فوت وفن