پردازش گفتار دیجیتال
نيمسال دوم 1404-1403

مدرس: دکتر هادی ویسی
دانشکدگان علوم و فناوریهای میان رشتهای، دانشکده سامانههای هوشمند، دانشگاه تهران
آدرس ایمیل: h.veisi@ut.ac.ir

پیش نیاز: ندارد
تعداد واحد: ۳
زمان و محل برگزاری
- یکشنبه و سهشنبه، ساعت 16:00 الی 17:30
دانشکدگان علوم و فناوریهای میان رشتهای، دانشکده سامانههای هوشمند

دستیاران آموزشی
فاطمه چیتساز : f.chitsaz7918@gmail.com
محمد جواد رنجبر : mohammadjavadranjbark@gmail.com

درباره درس
شرح درس درس پردازش گفتار به عنوان مبانی فناوری پردازش زبان گفتاری، مروری بر مفاهیم پایه پردازش گفتار دیجیتال و کاربردهای آن مانند تشخیص گفتار، سنتز گفتار، بهسازی گفتاری و … است. در این درس، اصول و روشهای پردازش سیگنال گفتار و یادگیری ماشین پوشش داده میشوند و در طول درس تمرینهای مرتبط صورت میگیرد.
منابع
1. منابع کمکی 1. هادی ویسی، کبری مفاخری، پردازش گفتار: مبانی نظری، الگوریتم ها و توسعه محصول (جلد اول)، نص، 1400
X Huang, A Acero, HW Hon, Spoken Language Processing, Prentice Hall, Upper Saddle River, NJ, USA, 2001.
2. هادی ویسی، مصطفی صالحی، وحید رنجبر بافقی، الما جعفری صدر، فرناز صادقی، محمد بحرانی، پردازش زبان و گفتـار: مقدمهای بر پردازش زبان طبیعی، زبانشناسی رایانشی و پردازش گفتار، نویسه پارسی، 1401
Daniel Jurafsky and James H. Martin, Speech and Language Processing, Pearson Education (2nd edition, 3rd Ed), 2008, 2021.
3. 3. Daniel Jurafsky and James H. Martin. 2025. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition with Language Models, 3rd edition. Online manuscript released January 12, 2025. https://web.stanford.edu/~jurafsky/slp3
4. Lawrence R. Rabiner, Ronald W. Schafer, Theory and Applications of Digital Speech Processing, Pearson, 2011.
اسلایدهای اصلی
معرفی و کاربردها
ساختار زبان گفتاری
مروری بر پردازش سیگنال دیجیتال
مروری بر آمار و احتمال
تمرینها
نمرهدهی
توضیح |
وزن |
عنوان |
بعد از هر موضوع (وزن تمرینها برابر نیست) | 50% | تمرین |
دو-سه سوال کوتاه، چند بار در طول دوره 10% آزمونک (کویز) |
5% |
آزمونک (کویز) |
دوشنبه 27/01/1403 ساعت 10:30 | 20% | آزمون میانترم |
از کل مطالب درس، مطابق برنامه دانشگاه | 20% | آزمون پایانترم |
موضوع اختیاری مرتبط با مباحث درس، تعیین موضوع تا روز امتحان میانترم تحویل پروژه: اولین هفته (یکشنبه یا سهشنبه) بعد از آخرین امتحان پایانترم (1404/04/17) |
10% | (اختیاری، نمره اضافی) پروژه |
نظر به تمرینی بودن درس و اختصاص بخش عمده نمره به تمرینها و پروژه، جهت موفقیت، همراهی دانشجو در طول ترم و یادگیری مستمر، ضروری است.
سیاستهای درس
1. تمرین:
برای هر بخش (موضوع)، تعدادی تمرین در نظر گرفته شده است که باید در مهلتهای مقرر شده تحویل شود. همفکری و همکاری در یافتن پاسخ سوالها نه تنها بلامانع است، بلکه مورد حمایت نیز است، اما پاسخ هر دانشجو باید توسط خودش و به صورت مستقل نوشته شود و در صورتی که کپی بودن یکی یا چند مورد از پاسخ سوالهای یک تمرین مشخص شود، کل نمره آن تمرین در نظر گرفته نمیشود. استفاده از ابزارهای هوش مصنوعی مانند ChatGPT و DeepSeek برای حل تمرینها و نوشتن کدها توصیه میشود! اما ضروری است که دانشجو پاسخ این مدلها را بررسی کرده و به آن مسلط باشد؛ چرا که به صورت موردی برای برخی از تمرینها و پرسشها، تحویل به صورت حضوری خواهد بود و لازم است دانشجو کار خود را توضیح دهد. تمرینهای دارای پیادهسازی، باید هم شامل کدها و هم شامل گزارش مربوطه باشد (ارسال گزارش یا کد به تنهایی، شامل نمره نمیشود).
ارسال پاسخ تمرینها:
تنها به صورت الکترونیکی و به ایمیل استاد درس است. در صورت نوشتن پاسخ تمرینهای حل شدنی روی کاغذ، میتوانید تصویر آن را ارسال کنید و نیاز به تایپ نیست. همه مطالب و فایلهای مرتبط با یک تمرین را در یک فایل فشرده شده ارسال کنید. فرمت نامگذاری فایل ارسالی به صورت زیر است (لطفا از ارسال فایل با اسمهایی بیمعنی و نامفهوم مانند New Folder.rar یا HW.rar خودداری کنید):
Speech_Family_StNo_HW#.rar
که در آن Family بیانگر نامخانودگی دانشجو، StNo شماره دانشجویی و # شماره تمرین است. مثلا پاسخ تمرین شماره 1 توسط آقای/خانم احمدی با شماره دانشجویی 830496001 به صورت Speech_Ahmadi_830496001_HW1.rar است.
دیرکرد در تحویل:
تحویل به موقع پاسخ تمرینها از موارد ضرروی است و پاسخها باید حداکثر تا ساعت 23:59 تاریخ تعیین شده ارسال شود. در صورت داشتن تاخیر در ارسال پاسخها، به ازای هر یک ساعت دیرکرد (از یک ثانیه تا 60 دقیقه!) به میزان 1% از نمره آن کسر میشود. هر دانشجو در انتهای نیمسال میتواند از امکان بخشودگی یک مورد دیرکرد (برای یک تمرین)، حداکثر به اندازه یک روز (24 ساعت)، به انتخاب خودش برخوردار شود..
2. کلاسهای کار عملی و حل تمرین:
با توجه به حجم مطالب، به جز کلاسهای درس، هر هفته یک جلسه کلاس کار عملی برای انجام برنامهنویسی و پیادهسازی و کمک در حل تمرین و رفع اشکالها به کم دستیار آموزشی درس برگزار میشود. حضور در این کلاسها برای افزایش تجربه و مهارت کار عملی شما ضروری است. برای فعالیتها و اطلاعرسانیهای این کلاس، یک گروه در یکی از شبکههای اجتماعی مانند اسکایپ یا تلگرام تشکیل خواهد شد.
3. آزمونک (کویز):
در طول ترم، چند آزمونک خواهیم داشت که دو-سه سوال است و ممکن است بدون اطلاع قبلی برگزار شود..
4. امتحان میانترم:
آزمون میانترم به صورت کتبی است و شامل مطالب تدریس شده تا زمان آزمون خواهد بود.
5. امتحان پایانترم:
این آزمون به صورت کتبی است و شامل کلیه مطالب تدریس شده (از جمله مطالب پوشش داده شده در آزمون میانترم) است.
6. ارائه:
هر دانشجو یک موضوع مرتبط با مطالب درس را انتخاب کرده و بعد از مطالعه منابع لازم، یک ارائه کوتاه از آن در کلاس خواهد داشت. هدف این بخش آشنایی با مطالب بهروز در حوزه درس هست لذا باید منابع اصلی متعلق به سه سال اخیر باشند. زمان هر ارائه 15 تا 20 دقیقه است. موضوع ارائه با هماهنگی استاد درس تعیین شده و میتواند (و نه محدود به) شامل موضوعات زیر باشد:
– مدلهای زبانی بزرگ (LLM) و روش ساخت آنها
– مدلهای زبانی گفتار (SpeechLM) و روش ساخت آنها
– مروری بر کتابخانهها و ابزارهای مدرن در پردازش گفتار
– مدلهای مدرن تشخیص گفتار
– روشهای تبدیل گفتار و مدلهای مدرن آن
– ترجمه گفتار به گفتار
– مکالمه گفتار به گفتار
7. پروژه:
برای درس، هر دانشجو باید یک پروژه کاربردی جهت پیادهسازی انتخاب کرده و آن را در MATLAB/Python (یا سایر زبانهای برنامهنویسی) پیاده کند. در انجام پروژه نیاز به نوآوری نبوده و کافیست پیادهسازی از یک پژوهش (مقاله، پایاننامه و …) موجود صورت پذیرد. علاوهبر کد برنامه، گزارش مکتوبی (به صورت تایپ شده) از دانشجویان تحویل گرفته میشود که باید شامل نتایج بدست آمده و تحلیلهای مربوطه باشد. هر دانشجو میتواند با هماهنگی استاد موضوع خود را انتخاب کرده و اعلام نماید. آخرین زمان تعیین موضوع پروژه در جدول نمرهدهی مشخص شده است. در صورت عدم نهایی کردن موضوع تا این تاریخ، انجام پروژه مورد قبول نخواهد بود. برخی موضوعهای پیشنهادی عبارتنداز:
• تشخیص احساس در گفتار با استفاده از یادگیری عمیق
• تشخیص گفتار برای تعداد کلمات محدود
• تبدیل متن به گفتار با استفاده از شبکههای عمیق مانند مبدلها یا GAN
• بهسازی گفتار و حذف نویز با شبکههای عصبی عمیق
• بازشناسی دیداری-شنیداری (Audio-Visual) گفتار
8. مقاله:
برای این درس، هر دانشجو میتواند (اختیاری است و نمره آن اضافی است) یک پروژه کاربردی جهت پیادهسازی انتخاب کرده و آن را در Python یا سایر زبانهای برنامهنویسی، پیاده کند. در انجام پروژه نیاز به نوآوری نبوده و کافیست پیادهسازی از یک پژوهش (مقاله، پایاننامه و …) موجود صورت پذیرد. علاوهبر کد برنامه، دادهها و یک گزارش مکتوب (به صورت تایپ شده) از دانشجویان تحویل گرفته میشود که باید شامل نتایج بدست آمده و تحلیلهای مربوطه باشد. تحویل پروژهها به صورت حضوری یا غیرحضوری است.
هر دانشجو میتواند با هماهنگی استاد موضوع خود را انتخاب کرده و اعلام نماید. موضوع پروژه الزاما باید مرتبط با مطالب درس باشد. آخرین زمان تعیین موضوع پروژه در جدول نمرهدهی تعیین شده است. برخی موضوعات پیشنهادی عبارتنداز:
• ترجمه گفتار به گفتار (S2ST) با شبکههای عصبی عمیق (مانند مدل SeamlessM4T)
• مکالمه گفتار به گفتار با مدلهای بنیادی (مانند مدل Moshi)
• تبدیل متن به گفتار و تبدیل صدا با استفاده از شبکههای عمیق مانند مبدلها یا GAN (مانند مدل StyleTTS2)
• بهسازی گفتار و حذف نویز با شبکههای عصبی عمیق
• بازشناسی دیداری-شنیداری (Audio-Visual) گفتار
• تشخیص گفتار با روشهای نوین (مانند Whisper)
9. بازنگری نمرهها و برگهها:
دانشجویانی که درخواست دارند هر کدام از نمرات آنها بازنگری شود و یا برگههای خود را ببینند، در تاریخ تحویل پروژه درس این کار را انجام دهند (حتی اگر پروژه انجام نداده باشند) و نیازی نیست در طول ترم درخواست بررسی و بازنگری ارسال کنند.
8. تقلب و کپیبردای:
هدف درس تمرین و یادگیری مطالب موردنظر توسط دانشجو در طول ترم است و لازم است تمام مطالب مربوط به تمرینها توسط خود دانشجو انجام شود. هرچند همکاری دانشجویان در حل مسائل درس توصیه میشود اما پاسخ نهایی سوالها باید توسط هر دانشجو به صورت مستقل نوشته شود. در صورتی که در هر شرایطی مشخص شود که تمام یا بخشی از مطالب توسط دانشجو آماده نشده و کپیبرداری مستقیم و بدون مرجع بوده است، تقلب تلقی شده و مطابق قوانین انضباطی دانشگاه با آن رفتار میشود.
نمرهها
دانشجویان عزیز، با داشتن شماره دانشجویی می توانید نمرات خود را مشاهده کنید.
سعی شده است امتیازات با نهایت دقت و انصاف محاسبه شود.
برای مشاهده هر بخش، روی عنوان آن کلیک و سپس روی دانلود کلیک کنید.
All
Download
Final
Download
Sample Exam
Download
Project
Download
Midterm
Download
Quiz 1
Download
Homework 1
Download