هوش مصنوعی

پردازش زبان طبیعی (NLP) چیست؟

پردازش زبان طبیعی (NLP) چیست؟، راهنمای فارسی از مجموعهٔ «هوش مصنوعی» در وبلاگ آیرا. بازنویسی‌شده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

نوشتهٔ تیم آیرا•۱ اردیبهشت ۱۴۰۵به‌روزرسانی: ۲۳ اردیبهشت ۱۴۰۵•۳ دقیقه مطالعه

تصویر مقالهٔ پردازش زبان طبیعی (NLP) چیست؟

وقتی به ChatGPT می‌گی «یه ایمیل رسمی برام بنویس» و مدل می‌فهمه «رسمی» یعنی چی و ایمیل می‌نویسه، پشت این اتفاق ساده، یه حوزه کامل از علم کامپیوتر نهفته‌ست که بهش پردازش زبان طبیعی یا NLP می‌گن. اگه می‌خوای بفهمی هوش مصنوعی چطور زبان انسان رو «می‌فهمه»، باید از NLP شروع کنی.

تعریف پایه

Natural Language Processing (پردازش زبان طبیعی) یه شاخه از هوش مصنوعیه که با نوشتن و گفتار انسانی کار می‌کنه. هدفش اینه که کامپیوتر بتونه زبان طبیعی (یعنی همون زبانی که انسان‌ها با هم حرف می‌زنن) رو درک کنه، تحلیل کنه، و تولید کنه.

«طبیعی» در اینجا یعنی برخلاف زبان‌های برنامه‌نویسی که قوانین دقیق و بدون ابهام دارن، زبان انسانی مبهم، استعاری، وابسته به context، و پر از استثناست.

چرا NLP سخته؟

بذار با یه مثال شروع کنیم. جمله «سرم رفت» در فارسی:

می‌تونه یعنی «حواسم پرت شد»
می‌تونه یعنی «کلاهم افتاد»
در بعضی گویش‌ها یعنی «خسته شدم»

این ابهام برای یه انسان در چند ثانیه با context حل می‌شه، برای کامپیوتر، این یه مشکل دشواریه که نیاز به فهمیدن موقعیت، تاریخچه مکالمه، و دانش فرهنگی داره.

چالش‌های اصلی NLP:

ابهام معنایی: یه کلمه چند معنا داره (مثل «شیر» در فارسی)

وابستگی به context: معنا به جمله‌های قبل و بعد وابسته‌ست

زبان غیررسمی: اینترنتی نوشتن، اختصارات، طنز، و کنایه

تنوع زبانی: هر زبان قواعد خودش داره، و NLP برای هر زبان باید جداگانه آموزش ببینه

مراحل اصلی پردازش متن

NLP یه pipeline داره که متن خام رو به چیزی تبدیل می‌کنه که مدل بتونه باهاش کار کنه:

۱. Tokenization (توکن‌بندی): متن به واحدهای کوچک‌تر (توکن) تقسیم می‌شه. در فارسی این کار از انگلیسی سخت‌تره چون کلمات چسبیده می‌نویسیم («می‌روم» vs «می روم»).

۲. Normalization: یکسان‌سازی، مثلاً «ي» و «ی» یا «ك» و «ک» در فارسی باید به یه استاندارد تبدیل بشن.

۳. Part-of-speech tagging: تشخیص نقش دستوری هر کلمه (فعل، اسم، صفت، ...)

۴. Named Entity Recognition (NER): تشخیص اسامی خاص، شخص، مکان، سازمان

۵. Parsing: فهمیدن ساختار جمله، کدام کلمه فاعله، کدام مفعول

۶. Semantic analysis: فهمیدن معنای واقعی، نه فقط ساختار

از NLP قدیمی تا LLM

NLP قبل از ۲۰۱۷ روی قوانین دستی و آمار ساده کار می‌کرد. یه سیستم تشخیص احساس (sentiment analysis) یه لیست از کلمات مثبت و منفی داشت و بر اساس تعداد هر کدام نظر می‌داد، ساده و خطاپذیر.

معرفی معماری Transformer در ۲۰۱۷ (توسط Google) همه چیز رو تغییر داد. مکانیزم Attention به مدل اجازه داد وقتی یه کلمه رو پردازش می‌کنه، به همه کلمات دیگه در جمله «توجه» کنه، نه فقط کلمات نزدیک. نتیجه: مدل‌هایی مثل BERT، GPT، و بعدش مدل‌های زبانی بزرگ (LLM).

امروز وقتی از NLP حرف می‌زنیم، اکثر کاربردهای عملی روی LLM‌ها پیاده‌سازی می‌شن، مدل‌هایی که میلیاردها پارامتر دارن و با حجم عظیمی از متن آموزش دیدن.

کاربردهای NLP که هر روز باهاشون کار می‌کنی

موتور جستجو: Google وقتی می‌فهمه «آب‌وهوای تهران فردا» یعنی پیش‌بینی هوا نه تاریخچه آب‌وهوا، از NLP استفاده می‌کنه
ترجمه ماشینی: Google Translate، DeepL
تشخیص spam: Gmail وقتی ایمیل‌های تبلیغاتی رو فیلتر می‌کنه
دستیار صوتی: Siri، Google Assistant
خلاصه‌سازی متن: NotebookLM، Claude
تصحیح نگارش: Grammarly

NLP و زبان فارسی، چالش‌های خاص

فارسی برای NLP چند مشکل منحصربه‌فرد داره:

پیوستگی کلمات: کلمات فارسی می‌چسبن («کتابخانه‌ام» = «کتاب + خانه + ام»). جدا کردن این اجزا بدون دانش دستوری سخته.

کمبود داده: بیشتر مدل‌های NLP روی انگلیسی بهینه شدن. داده‌های فارسی کمه، مخصوصاً داده با کیفیت و برچسب‌گذاری‌شده.

تنوع نوشتاری: فارسی در ایران، دری در افغانستان، و تاجیکی با الفبای سیریلیک، سه نوشتار برای یه زبان.

خط نستعلیق: OCR برای متن فارسی نوشته‌شده به خط نستعلیق هنوز چالش‌برانگیزه.

ابتکارهای ایرانی مثل ParsBERT تلاش کردن این شکاف رو پر کنن، مدل‌هایی که مخصوص فارسی آموزش دیدن و در کارهای NLP فارسی نتایج بهتری می‌دن.

NLP و «فهمیدن» واقعی

یه سؤال فلسفی جالب: آیا مدل‌های NLP واقعاً زبان رو «می‌فهمن»؟ اکثر محققان می‌گن نه، اینا الگوهای آماری هستن که از روی میلیاردها متن یاد گرفتن. ولی از نظر کاربردی، «فهمیدن» در عمل تفاوتی نمی‌کنه، وقتی مدل پاسخ درست می‌ده، برای کاربر مهمه.

چیزی که امروز NLP بهش نزدیک می‌شه اما هنوز ضعیفه: درک پیوسته و انباشته از یه شخص خاص، نه فقط محتوای یه پیام، بلکه ترجیحات، سبک، و تاریخچه مکالماتی که ماه‌ها طول کشیده. این همان چیزیه که شناخت پیوسته دنبالشه.

همچنین بخوان

#هوش مصنوعی#NLP

ادامهٔ مسیر

همهٔ مقاله‌ها ←

هوش مصنوعی

هوش مصنوعی چیست؟ راهنمای کامل فارسی برای شروع در ۱۴۰۵

هوش مصنوعی به زبان ساده: تاریخچه، انواع، مدل‌های زبانی بزرگ، شبکه‌های عصبی و چرا ۱۴۰۵ نقطهٔ عطف کاربر فارسی‌زبان است.

هوش مصنوعی

LLM چیست؟ راهنمای فارسی مدل‌های زبانی بزرگ

LLM چیست؟ راهنمای فارسی مدل‌های زبانی بزرگ، راهنمای فارسی از مجموعهٔ «هوش مصنوعی» در وبلاگ آیرا. بازنویسی‌شده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

هوش مصنوعی

شبکهٔ عصبی چیست؟ از نورون تا ترنسفورمر

شبکهٔ عصبی چیست؟ از نورون تا ترنسفورمر، راهنمای فارسی از مجموعهٔ «هوش مصنوعی» در وبلاگ آیرا. بازنویسی‌شده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

هوش مصنوعی

یادگیری ماشین چیست؟

یادگیری ماشین چیست؟، راهنمای فارسی از مجموعهٔ «هوش مصنوعی» در وبلاگ آیرا. بازنویسی‌شده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

تعریف پایه

چرا NLP سخته؟

مراحل اصلی پردازش متن

از NLP قدیمی تا LLM

کاربردهای NLP که هر روز باهاشون کار می‌کنی

NLP و زبان فارسی، چالش‌های خاص

NLP و «فهمیدن» واقعی

همچنین بخوان

ادامهٔ مسیر

هوش مصنوعی چیست؟ راهنمای کامل فارسی برای شروع در ۱۴۰۵

LLM چیست؟ راهنمای فارسی مدل‌های زبانی بزرگ

شبکهٔ عصبی چیست؟ از نورون تا ترنسفورمر

یادگیری ماشین چیست؟

بیشتر در «هوش مصنوعی»