+98 21 8609-3065 h.veisi@ut.ac.ir
Digital Speech Processing

پردازش گفتار دیجیتال

نيم‌سال دوم 1404-1403

مدرس: دکتر هادی ویسی

دانشکدگان علوم و فناوری‌های میان رشته‌ای، دانشکده سامانه‌های هوشمند، دانشگاه تهران

آدرس ایمیل: h.veisi@ut.ac.ir

3
i

پیش‌ نیاز: ندارد

e

تعداد واحد: ۳

}

زمان و محل برگزاری

  • ‌یک‌شنبه و سه‌شنبه، ساعت 16:00 الی 17:30
    دانشکدگان علوم و فناوری‌های میان رشته‌ای، دانشکده سامانه‌های هوشمند

دستیاران آموزشی

فاطمه چیت‌ساز : f.chitsaz7918@gmail.com

محمد جواد رنجبر : mohammadjavadranjbark@gmail.com

درباره درس

شرح درس درس پردازش گفتار به عنوان مبانی فناوری پردازش زبان گفتاری، مروری بر مفاهیم پایه پردازش گفتار دیجیتال و کاربردهای آن مانند تشخیص گفتار، سنتز گفتار، بهسازی گفتاری و … است. در این درس، اصول و روش‌های پردازش سیگنال گفتار و یادگیری ماشین پوشش داده می‌شوند و در طول درس تمرین‌های مرتبط صورت می‌گیرد.

منابع

1. منابع کمکی 1. هادی ویسی، کبری مفاخری، پردازش گفتار: مبانی نظری، الگوریتم ها و توسعه محصول (جلد اول)، نص، 1400

X Huang, A Acero, HW Hon, Spoken Language Processing, Prentice Hall, Upper Saddle River, NJ, USA, 2001.

2. هادی ویسی، مصطفی صالحی، وحید رنجبر بافقی، الما جعفری صدر، فرناز صادقی، محمد بحرانی، پردازش زبان و گفتـار: مقدمه‌ای بر پردازش زبان طبیعی، زبان‌شناسی رایانشی و پردازش گفتار، نویسه پارسی، 1401

Daniel Jurafsky and James H. Martin, Speech and Language Processing, Pearson Education (2nd edition, 3rd Ed), 2008, 2021.

3. 3. Daniel Jurafsky and James H. Martin. 2025. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition with Language Models, 3rd edition. Online manuscript released January 12, 2025. https://web.stanford.edu/~jurafsky/slp3

4. Lawrence R. Rabiner, Ronald W. Schafer, Theory and Applications of Digital Speech Processing, Pearson, 2011.

اسلایدهای اصلی

i

معرفی و کاربردها

i

ساختار زبان گفتاری

i

مروری بر پردازش سیگنال دیجیتال

i

مروری بر آمار و احتمال

نمره‌دهی

توضیح

وزن

عنوان

بعد از هر موضوع (وزن تمرین‌ها برابر نیست) 50% تمرین

دو-سه سوال کوتاه، چند بار در طول دوره 10% آزمونک (کویز)

5%

آزمونک (کویز)

دوشنبه 27/01/1403 ساعت 10:30 20% آزمون میان‌ترم
از کل مطالب درس، مطابق برنامه دانشگاه 20% آزمون پایان‌ترم

موضوع اختیاری مرتبط با مباحث درس، تعیین موضوع تا روز امتحان میان‌ترم

تحویل پروژه: اولین هفته (یک‌شنبه یا سه‌شنبه) بعد از آخرین امتحان پایان‌ترم (1404/04/17)

10% (اختیاری، نمره اضافی) پروژه

نظر به تمرینی بودن درس و اختصاص بخش عمده نمره به تمرین‌ها و پروژه، جهت موفقیت، همراهی دانشجو در طول ترم و یادگیری مستمر، ضروری است.

سیاست‌های درس

1. تمرین:

برای هر بخش (موضوع)، تعدادی تمرین در نظر گرفته شده است که باید در مهلت‌های مقرر شده تحویل شود. همفکری و همکاری در یافتن پاسخ سوال‌ها نه تنها بلامانع است، بلکه مورد حمایت نیز است، اما پاسخ هر دانشجو باید توسط خودش و به صورت مستقل نوشته شود و در صورتی که کپی بودن یکی یا چند مورد از پاسخ سوال‌های یک تمرین مشخص شود، کل نمره آن تمرین در نظر گرفته نمی‌شود. استفاده از ابزارهای هوش مصنوعی مانند ChatGPT و DeepSeek برای حل تمرین‌ها و نوشتن کدها توصیه می‌شود! اما ضروری است که دانشجو پاسخ این مدل‌ها را بررسی کرده و به آن مسلط باشد؛ چرا که به صورت موردی برای برخی از تمرین‌ها و پرسش‌ها، تحویل به صورت حضوری خواهد بود و لازم است دانشجو کار خود را توضیح دهد. تمرین‌های دارای پیاده‌سازی، باید هم شامل کدها و هم شامل گزارش مربوطه باشد (ارسال گزارش یا کد به تنهایی، شامل نمره نمی‌شود).

ارسال پاسخ تمرین‌ها:

تنها به صورت الکترونیکی و به ایمیل استاد درس است. در صورت نوشتن پاسخ تمرین‌های حل شدنی روی کاغذ، می‌توانید تصویر آن را ارسال کنید و نیاز به تایپ نیست. همه مطالب و فایل‌های مرتبط با یک تمرین را در یک فایل فشرده شده ارسال کنید. فرمت نام‌گذاری فایل ارسالی به صورت زیر است (لطفا از ارسال فایل با اسم‌هایی بی‌معنی و نامفهوم مانند New Folder.rar یا HW.rar خودداری کنید):
Speech_Family_StNo_HW#.rar
که در آن Family بیانگر نام‌خانودگی دانشجو، StNo شماره دانشجویی و # شماره تمرین است. مثلا پاسخ تمرین شماره 1 توسط آقای/خانم احمدی با شماره دانشجویی 830496001 به صورت Speech_Ahmadi_830496001_HW1.rar است.

دیرکرد در تحویل:

تحویل به موقع پاسخ تمرین‌ها از موارد ضرروی است و پاسخ‌ها باید حداکثر تا ساعت 23:59 تاریخ تعیین شده ارسال شود. در صورت داشتن تاخیر در ارسال پاسخ‌ها، به ازای هر یک ساعت دیرکرد (از یک ثانیه تا 60 دقیقه!) به میزان 1% از نمره آن کسر می‌شود. هر دانشجو در انتهای نیمسال می‌تواند از امکان بخشودگی یک مورد دیرکرد (برای یک تمرین)، حداکثر به اندازه یک روز (24 ساعت)، به انتخاب خودش برخوردار شود..

2. کلاس‌های کار عملی و حل تمرین:

با توجه به حجم مطالب، به جز کلاس‌های درس، هر هفته یک جلسه کلاس کار عملی برای انجام برنامه‌نویسی و پیاده‌سازی و کمک در حل تمرین و رفع اشکال‌ها به کم دستیار آموزشی درس برگزار می‌شود. حضور در این کلاس‌ها برای افزایش تجربه و مهارت کار عملی شما ضروری است. برای فعالیت‌ها و اطلاع‌رسانی‌های این کلاس، یک گروه در یکی از شبکه‌های اجتماعی مانند اسکایپ یا تلگرام تشکیل خواهد شد.

3. آزمونک (کویز):

در طول ترم، چند آزمونک خواهیم داشت که دو-سه سوال است و ممکن است بدون اطلاع قبلی برگزار شود..

4. امتحان میان‌ترم:

آزمون میان‌ترم به صورت کتبی است و شامل مطالب تدریس شده تا زمان آزمون خواهد بود.

5. امتحان پایان‌ترم:

این آزمون به صورت کتبی است و شامل کلیه مطالب تدریس شده (از جمله مطالب پوشش داده شده در آزمون میان‌ترم) است.

6. ارائه:

هر دانشجو یک موضوع مرتبط با مطالب درس را انتخاب کرده و بعد از مطالعه منابع لازم، یک ارائه کوتاه از آن در کلاس خواهد داشت. هدف این بخش آشنایی با مطالب به‌روز در حوزه درس هست لذا باید منابع اصلی متعلق به سه سال اخیر باشند. زمان هر ارائه 15 تا 20 دقیقه است. موضوع ارائه با هماهنگی استاد درس تعیین شده و می‌تواند (و نه محدود به) شامل موضوعات زیر باشد:
– مدل‌های زبانی بزرگ (LLM) و روش ساخت آنها
– مدل‌های زبانی گفتار (SpeechLM) و روش ساخت آنها
– مروری بر کتابخانه‌ها و ابزارهای مدرن در پردازش گفتار
– مدل‌های مدرن تشخیص گفتار
– روش‌های تبدیل گفتار و مدل‌های مدرن آن
– ترجمه گفتار به گفتار
– مکالمه گفتار به گفتار

7. پروژه:

برای درس، هر دانشجو باید یک پروژه کاربردی جهت پیاده‌سازی انتخاب کرده و آن را در MATLAB/Python (یا سایر زبان‌های برنامه‌نویسی) پیاده کند. در انجام پروژه نیاز به نوآوری نبوده و کافیست پیاده‌سازی از یک پژوهش (مقاله، پایان‌نامه و …) موجود صورت پذیرد. علاوه‌بر کد برنامه، گزارش مکتوبی (به صورت تایپ شده) از دانشجویان تحویل گرفته می‌شود که باید شامل نتایج بدست آمده و تحلیل‌های مربوطه باشد. هر دانشجو می‌تواند با هماهنگی استاد موضوع خود را انتخاب کرده و اعلام نماید. آخرین زمان تعیین موضوع پروژه در جدول نمره‌دهی مشخص شده است. در صورت عدم نهایی کردن موضوع تا این تاریخ، انجام پروژه مورد قبول نخواهد بود. برخی موضوع‌های پیشنهادی عبارتنداز:
• تشخیص احساس در گفتار با استفاده از یادگیری عمیق
• تشخیص گفتار برای تعداد کلمات محدود
• تبدیل متن به گفتار با استفاده از شبکه‌های عمیق مانند مبدل‌ها یا GAN
• بهسازی گفتار و حذف نویز با شبکه‌های عصبی عمیق
• بازشناسی دیداری-شنیداری (Audio-Visual) گفتار

8. مقاله:

برای این درس، هر دانشجو می‌تواند (اختیاری است و نمره آن اضافی است) یک پروژه کاربردی جهت پیاده‌سازی انتخاب کرده و آن را در Python یا سایر زبان‌های برنامه‌نویسی، پیاده کند. در انجام پروژه نیاز به نوآوری نبوده و کافیست پیاده‌سازی از یک پژوهش (مقاله، پایان‌نامه و …) موجود صورت پذیرد. علاوه‌بر کد برنامه، داده‌ها و یک گزارش مکتوب (به صورت تایپ شده) از دانشجویان تحویل گرفته می‌شود که باید شامل نتایج بدست آمده و تحلیل‌های مربوطه باشد. تحویل پروژه‌ها به صورت حضوری یا غیرحضوری است.
هر دانشجو می‌تواند با هماهنگی استاد موضوع خود را انتخاب کرده و اعلام نماید. موضوع پروژه الزاما باید مرتبط با مطالب درس باشد. آخرین زمان تعیین موضوع پروژه در جدول نمره‌دهی تعیین شده است. برخی موضوعات پیشنهادی عبارتنداز:
• ترجمه گفتار به گفتار (S2ST) با شبکه‌های عصبی عمیق (مانند مدل SeamlessM4T)
• مکالمه گفتار به گفتار با مدل‌های بنیادی (مانند مدل Moshi)
• تبدیل متن به گفتار و تبدیل صدا با استفاده از شبکه‌های عمیق مانند مبدل‌ها یا GAN (مانند مدل StyleTTS2)
• بهسازی گفتار و حذف نویز با شبکه‌های عصبی عمیق
• بازشناسی دیداری-شنیداری (Audio-Visual) گفتار
• تشخیص گفتار با روش‌های نوین (مانند Whisper)

9. بازنگری نمره‌ها و برگه‌ها:

دانشجویانی که درخواست دارند هر کدام از نمرات آنها بازنگری شود و یا برگه‌های خود را ببینند، در تاریخ تحویل پروژه درس این کار را انجام دهند (حتی اگر پروژه انجام نداده باشند) و نیازی نیست در طول ترم درخواست بررسی و بازنگری ارسال کنند.

8. تقلب و کپی‌بردای:

هدف درس تمرین و یادگیری مطالب موردنظر توسط دانشجو در طول ترم است و لازم است تمام مطالب مربوط به تمرین‌ها توسط خود دانشجو انجام شود. هرچند همکاری دانشجویان در حل مسائل درس توصیه می‌شود اما پاسخ نهایی سوال‌ها باید توسط هر دانشجو به صورت مستقل نوشته شود. در صورتی که در هر شرایطی مشخص شود که تمام یا بخشی از مطالب توسط دانشجو آماده نشده و کپی‌برداری مستقیم و بدون مرجع بوده است، تقلب تلقی شده و مطابق قوانین انضباطی دانشگاه با آن رفتار می‌شود.

نمره‌ها

دانشجویان عزیز، با داشتن شماره دانشجویی می توانید نمرات خود را مشاهده کنید.
سعی شده است امتیازات با نهایت دقت و انصاف محاسبه شود.
برای مشاهده هر بخش، روی عنوان آن کلیک و سپس روی دانلود کلیک کنید.

All

Download

Final

Download

Sample Exam

Download

Project

Download

Midterm

Download

Quiz 1

Download

Homework 1

Download