|
آقای سید مهدی حسنی دانشجوی دکتری دکتر محمدرضا کنگاوری مورخ: ۱۴۰۴/۱۱/۲۹ ساعت: ۱۵:۰۰ از رساله دکتری خودباعنوان«استفاده از لحن در تعامل مؤثر انسان با رباتهای مجازی» دفاع خواهند نمود. (ادامه مطلب)
ارائه دهنده:
سید مهدی حسنی
استاد راهمنا:
دکتر محمدرضا کنگاوری
هیات داوران:
استاد: راهنما دکتر محمدرضا کنگاوری
دکتر بهروز مینایی بیدگلی
دکتر مرضیه ملکی مجد؛ دکترعلی معینی(دانشگاه تهران)
دکتر محمد صنیعی آباده (دانشگاه تربیت مدرس)
زمان ۲۹ بهمن ماه ۱۴۰۴
ساعت: ۱۵:۰۰
مکان: سالن دفاعیه طبقه سوم دانشکده مهندسی کامپیوتر
|
|
|
چکیده
گفتار علاوه بر انتقال محتوای زبانی، نقش مهمی در بیان هیجانها و ایجاد تعاملات طبیعی میان انسان و عاملهای هوشمند ایفا میکند. ازاینرو، تولید گفتار آگاه از هیجان به یکی از موضوعات کلیدی در حوزه تعامل انسان و رایانه تبدیل شده است. با وجود پیشرفتهای اخیر در تولید گفتار طبیعی، بسیاری از روشهای موجود در شناسایی و انتقال هیجان به گفتار با محدودیتهایی نظیر وابستگی صرف به متن، تقلید از گفتار مرجع یا تنظیم دستی هیجان مواجهاند و عموماً علت شکلگیری هیجان در بستر گفتوگو را بهصورت صریح مدلسازی نمیکنند.
در روش پیشنهادی، هیجانهای بلادرنگ عامل مجازی بر اساس متغیرهای ارزیابی شناختی استخراجشده از مکالمه مدلسازی شده و علت هیجان بهعنوان یک مؤلفه بنیادین در فرآیند برانگیختگی هیجانی شناسایی میشود. برای این منظور، وابستگیهای شناختی، هیجانی و گفتاری مکالمه در قالب یک گراف ناهمگن گفتوگو بازنمایی شده و از پیامرسانی گرافی برای استنتاج نوع، شدت و علت هیجان بهره گرفته میشود.
علاوه بر این، یک مدل متنبهگفتار آگاه از هیجان برای تولید هیجانهای مختلط ارائه میگردد که با استفاده از اطلاعات هیجان، شدت و علت آن، قادر است ترکیب هیجانهای اولیه را بهصورت پویا، طبیعی و متناسب با زمینه مکالمه بازنمایی کند.
|
: Abstract
|
|
Speech, beyond conveying linguistic content, plays a crucial role in expressing emotions and enabling natural interactions between humans and intelligent agents. Consequently, emotional speech synthesis has emerged as a key research topic in the field of human–computer interaction. Despite recent advances in natural speech generation, many existing approaches to emotion recognition and expression in speech suffer from limitations such as exclusive reliance on textual information, imitation of reference speech, or manual emotion control, and generally fail to explicitly model the underlying causes of emotion within conversational contexts.
In this dissertation, a data-driven approach to emotional speech synthesis grounded in cognitive appraisal theory is proposed. In this approach, the real-time emotions of a virtual agent are modeled based on cognitive appraisal variables extracted from the dialogue, and the cause of emotion is identified as a fundamental component of the emotional elicitation process. To this end, the cognitive, emotional, and conversational dependencies within the dialogue are represented using a heterogeneous dialogue graph, and graph-based message passing is employed to infer the type, intensity, and cause of emotion.
Furthermore, an emotion-aware text-to-speech model is introduced for the generation of mixed emotions. By incorporating information about emotion, its intensity, and its cause, the proposed model is capable of dynamically and naturally rendering combinations of primary emotions in a manner that is consistent with the conversational context. Objective and subjective evaluation results demonstrate that the proposed approach outperforms baseline methods in terms of emotion conveyance, speech naturalness, emotional explainability, and perceptual similarity to reference speech, thereby enabling more effective and emotionally rich interactions between humans and virtual agents.
|