آشنایی با زبانشناسی رایانشی
نيمسال دوم 1404-1403

مدرس: دکتر هادی ویسی
دانشکدگان علوم و فناوریهای میان رشتهای، دانشکده سامانههای هوشمند، دانشگاه تهران
آدرس ایمیل: h.veisi@ut.ac.ir

پیش نیاز
برنامهسازي رايانهاي، رياضيات عمومي و آمار
تعداد واحد: ۳
زمان و محل برگزاری
- یکشنبه و سهشنبه، ساعت 9:00 الی 10:30، دانشکدگان علوم و فناوریهای میان رشتهای

دستیاران آموزشی
پرنیا ایزدیراد : parniaizadirad@gmail.com

درباره درس
درس آشنايي با زبانشناسی رايانشی شامل مروری بر مفاهیم پایه زبانشناسی رایانشی مانند پردازش و پالایش متن (واحدسازی و نرمالسازي)، تحلیل ساختواژی (مورفولوژي)، مدلسازي زباني، گرامر و تجزيه نحوي، برچسپزنی اجرای کلام، مبانی پردازش سیگنال، و نمونه کاربردهای این حوزه مانند بازیابی اطلاعات، تشخیص گفتار، سنتز گفتار و ترجمه ماشینی است.
در این درس، اصول و روشهای زبانشناسی رايانشی پوشش داده میشوند و به همراه آن، تمرینهای متناسب که عموماً به صورت عملی و پیادهسازی است، صورت میگیرد.
منابع
1: هادی ویسی، مصطفی صالحی، وحید رنجبر بافقی، الما جعفری صدر، فرناز صادقی، محمد بحرانی، پردازش زبان و گفتـار: مقدمهای بر پردازش زبان طبیعی، زبانشناسی رایانشی و پردازش گفتار، نویسه پارسی، 1403
Daniel Jurafsky, James Martin, Speech and Language Processing, 2nd Edition, Prentice Hall, 2009.
2: مهرنوش شمسفرد، محمود بیجنخان، پردازش متن و گفتار فارسی: مروری بر مبانی نظری و آخرین یافتههای پژوهشی، انتشارات سمت، اردیبهشت 1404.
3: Daniel Jurafsky and James H. Martin. 2025. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition with Language Models, 3rd edition. Online manuscript released January 12, 2025. https://web.stanford.edu/~jurafsky/slp3.
4: Ruslan Mitkov, The Oxford Handbook of Computational Linguistics, 2003.
5: 5. Igor Bolshakov, Alexander Gelbukh, Computational Linguistics, Models, Resources, Applications, 2004.
اسلایدها و لینکها
مقدمه و معرفی
واحدسازی و نرمالسازی
ساختواژه (مورفولوژی)
مدلسازی زبانی
تمرینها
Download Homework PDF
Download Data
نمرهدهی
توضیح |
وزن |
عنوان |
بعد از هر موضوع (وزن تمرینها برابر نیست) | 50% | تمرین |
دو-سه سوال کوتاه |
10% |
آزمونک (کویز) |
سهشنبه 1404/01/26 ساعت 9:00 | 20% | آزمون میانترم |
از کل مطالب درس، مطابق برنامه دانشگاه | 20% | آزمون پایانترم |
موضوع اختیاری مرتبط با مباحث درس، تعیین موضوع تا روز امتحان میانترم تحویل پروژه: اولین هفته (یکشنبه یا سهشنبه) بعد از آخرین امتحان پایانترم (احتمالا 1404/04/17) |
10% | (اختیاری، نمره اضافی) پروژه |
نظر به تمرینی بودن درس و اختصاص بخش عمده نمره به تمرینها و پروژه، جهت موفقیت، همراهی دانشجو در طول ترم و یادگیری مستمر، ضروری است.
سیاستهای درس
1. تمرین:
برای هر بخش (موضوع)، تعدادی تمرین در نظر گرفته شده است که باید در مهلتهای مقرر شده تحویل شود. همفکری و همکاری در یافتن پاسخ سوالها نه تنها بلامانع است، بلکه مورد حمایت نیز است، اما پاسخ هر دانشجو باید توسط خودش و به صورت مستقل نوشته شود و در صورتی که کپی بودن یکی یا چند مورد از پاسخ سوالهای یک تمرین مشخص شود، کل نمره آن تمرین در نظر گرفته نمیشود. تمرینهای دارای پیادهسازی، باید هم شامل کدها و هم شامل گزارش مربوطه باشد (ارسال گزارش یا کد به تنهایی، شامل نمره نمیشود).
ارسال پاسخ تمرینها:
تنها به صورت الکترونیکی و به ایمیل استاد درس است. در صورت نوشتن پاسخ تمرینهای حل شدنی روی کاغذ، میتوانید تصویر آن را ارسال کنید و نیاز به تایپ نیست. همه مطالب و فایلهای مرتبط با یک تمرین را در یک فایل فشرده شده ارسال کنید. فرمت نامگذاری فایل ارسالی به صورت زیر است (لطفا از ارسال فایل با اسمهایی بیمعنی و نامفهوم مانند New Folder.rar یا HW.rar خودداری کنید):
CL_YourFamilyName_YourStNo_HW#
که در آن YourFamilyName بیانگر نامخانودگی دانشجو، YourStNo شماره دانشجویی و # شماره تمرین است. مثلا پاسخ تمرین شماره 1 توسط خانم/آقای احمدی با شماره دانشجویی 830496001 به صورت CL_Ahmadi_830496001_HW1.rar است.
دیرکرد در تحویل:
تحویل به موقع پاسخ تمرینها از موارد ضرروی است و پاسخها باید حداکثر تا ساعت 23:59 تاریخ تعیین شده ارسال شود. در صورت داشتن تاخیر در ارسال پاسخها، به ازای هر یک ساعت دیرکرد (از یک ثانیه تا 60 دقیقه!) به میزان 1% از نمره آن کسر میشود. هر دانشجو در انتهای نیمسال میتواند از امکان بخشودگی یک مورد دیرکرد (برای یک تمرین)، حداکثر به اندازه یک روز (24 ساعت)، به انتخاب خودش برخوردار شود.
2. کلاسهای کار عملی و حل تمرین:
با توجه به حجم مطالب، به جز کلاسهای درس، هر هفته یک جلسه کلاس کار عملی برای انجام برنامهنویسی و پیادهسازی و کمک در حل تمرین و رفع اشکالها به کم دستیار آموزشی درس برگزار میشود. حضور در این کلاسها برای افزایش تجربه و مهارت کار عملی شما ضروری است. برای فعالیتها و اطلاعرسانیهای این کلاس، یک گروه در یکی از شبکههای اجتماعی مانند اسکایپ یا تلگرام تشکیل خواهد شد.
3. آزمونک (کویز):
در طول ترم، چند آزمونک خواهیم داشت که دو-سه سوال است و ممکن است بدون اطلاع قبلی برگزار شود.
4. امتحان میانترم:
آزمون میانترم به صورت کتبی است و شامل مطالب تدریس شده تا زمان آزمون خواهد بود.
5. امتحان پایانترم:
این آزمون به صورت کتبی است و شامل کلیه مطالب تدریس شده (از جمله مطالب پوشش داده شده در آزمون میانترم) است.
6. پروژه (اختیاری):
برای این درس، هر دانشجو میتواند (اختیاری است و نمره آن اضافی است) یک پروژه کاربردی جهت پیادهسازی انتخاب کرده و آن را در Python یا سایر زبانهای برنامهنویسی، پیاده کند. در انجام پروژه نیاز به نوآوری نبوده و کافیست پیادهسازی از یک پژوهش (مقاله، پایاننامه و …) موجود صورت پذیرد. علاوهبر کد برنامه، دادهها و یک گزارش مکتوب (به صورت تایپ شده) از دانشجویان تحویل گرفته میشود که باید شامل نتایج بدست آمده و تحلیلهای مربوطه باشد. تحویل پروژهها به صورت حضوری یا غیرحضوری است.
هر دانشجو میتواند با هماهنگی استاد موضوع خود را انتخاب کرده و اعلام نماید. موضوع پروژه الزاما باید مرتبط با مطالب درس باشد. آخرین زمان تعیین موضوع پروژه در جدول نمرهدهی تعیین شده است. برخی موضوعات پیشنهادی عبارتنداز:
• پیادهسازی یک ریشهیاب برای فارسی
• برچسبزنی اجزای کلام فارسی با روشهای یادگیری ماشین
• تحلیل احساس در متون فارسی
• مقایسه روشهای مختلف واحدسازی برای زبان فارسی
• استفاده از مدلهای زبانی بزرگ (LLM) برای تحلیل نحوی فارسی
7. مقاله:
برای آن دسته از دانشجویانی که در موضوعهای مرتبط با درس، به ویژه در پروژه، کار علمی مناسبی انجام داده و به نتایج قابل انتشاری دست یافتهاند، میتوانند آن را در قالب یک مقاله منتشر کنند. این درس، شما را به نوشتن مقاله تشویق نمیکند! و نمره آن فقط به منظور ارج نهادن به تلاش افرادی است که بیشتر از بقیه کوشش داشته و دستاورد بهتری داشتهاند. بنابراین، در این درس نه تنها اجباری در نوشتن مقاله نیست و نمره آن مازاد بر نمره درس است، بلکه در هیچ شرایطی (در طول عمرتان!) نباید مقاله را به عنوان یک هدف در نظر بگیرید. مقاله باید محصول جانبی یک کار پژوهشی خوب باشد. لذا از نظر سیاستهای این درس، ننوشتن مقاله، بسیار پسندیدهتر از نوشتن آن به قیمت نمره گرفتن است! نمره مقاله تنها به دانشجویانی تعلق میگیرد که قبل از ارسال نمرات درس به آموزش، مقاله خود را به مجله/کنفرانس ارسال کرده باشند. بدیهی است قبل از ارسال هر مقالهای نیاز به بررسی و تایید استاد درس وجود دارد. یادآوری میشود دانشجویانی که استاد راهنمای آنها مشخص شده است، لازم است همکاری با این درس در نوشتن مقاله را به اطلاع و تایید استاد خود برسانند.
8. بازنگری نمرهها و برگهها:
دانشجویانی که درخواست دارند هر کدام از نمرات آنها بازنگری شود و یا برگههای خود را ببینند، در تاریخ تحویل پروژه درس این کار را انجام دهند (حتی اگر پروژه انجام نداده باشند) و نیازی نیست در طول ترم درخواست بررسی و بازنگری ارسال کنند.
9. تقلب و کپیبردای:
هدف درس تمرین و یادگیری مطالب موردنظر توسط دانشجو در طول ترم است و لازم است تمام مطالب مربوط به تمرینها و پاسخدهی به آزمونها توسط خود دانشجو انجام شود. هرچند همکاری و همفکری دانشجویان و یا استفاده از ابزارهای هوش مصنوعی در حل مسائل درس در مواردی مانند حل تمرینها اکیدا توصیه میشود، اما پاسخ نهایی سوالها باید توسط هر دانشجو به صورت مستقل نوشته شود. در صورتی که در هر شرایطی مشخص شود که تمام یا بخشی از مطالب توسط دانشجو آماده نشده و کپیبرداری مستقیم و بدون مرجع بوده است، تقلب تلقی شده و مطابق قوانین انضباطی دانشگاه با آن رفتار میشود.
نمرهها
دانشجویان عزیز، با داشتن شماره دانشجویی می توانید نمرات خود را مشاهده کنید.
سعی شده است امتیازات با نهایت دقت و انصاف محاسبه شود.
برای مشاهده هر بخش، روی عنوان آن کلیک و سپس روی دانلود کلیک کنید.
All
Download
Final
Download
Project
Download
Midterm
Download
Quiz 1
Download
Homework 1
Download