هوش مصنوعی

یادگیری عمیق چیست؟

یادگیری عمیق چیست؟ — راهنمای فارسی از مجموعهٔ «هوش مصنوعی» در وبلاگ آیرا. بازنویسی‌شده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

نوشتهٔ به‌روزرسانی: ۳ دقیقه مطالعه
تصویر مقالهٔ یادگیری عمیق چیست؟

یادگیری عمیق (Deep Learning) زیرشاخه‌ای از یادگیری ماشین است که از شبکه‌های عصبی چندلایه برای یادگیری از داده استفاده می‌کند. وقتی ChatGPT جوابت را می‌دهد، Midjourney تصویر می‌سازد، یا Google Translate جمله‌ات را ترجمه می‌کند — پشت همه‌شان یادگیری عمیق نشسته.

چرا «عمیق»؟

در شبکه‌های عصبی معمولی، یک یا دو لایه وجود داشت. «عمیق» به این اشاره دارد که مدل‌های مدرن ده‌ها یا صدها لایه دارند. هر لایه الگوهای بالاتری یاد می‌گیرد:

  • لایهٔ اول: لبه‌ها و خطوط ساده را در عکس تشخیص می‌دهد
  • لایهٔ دوم: اشکال ابتدایی (دایره، مثلث) می‌سازد
  • لایهٔ بیستم: می‌داند این شکل «صورت انسان» است
  • لایهٔ پنجاهم: می‌داند این صورت «احساس خوشحالی» دارد

این سلسله‌مراتب یادگیری چیزی است که الگوریتم‌های کلاسیک نمی‌توانستند انجام دهند.

تفاوت با یادگیری ماشین کلاسیک

در یادگیری ماشین سنتی، متخصص باید feature استخراج کند — یعنی بگوید «برای تشخیص هرزنامه، طول ایمیل، تعداد علامت تعجب، و حضور کلمهٔ رایگان را بررسی کن». این feature engineering کار زیادی بود و کیفیت آن به تخصص دستی وابسته بود.

یادگیری عمیق این گام را حذف می‌کند. به مدل داده خام می‌دهی (متن، تصویر، صدا) و خودش یاد می‌گیرد کدام ویژگی‌ها مهم‌اند.

معماری‌های اصلی

CNN (Convolutional Neural Network): برای تصویر طراحی شده. از فیلترهای کوچک استفاده می‌کند تا الگوهای محلی (لبه، بافت) را پیدا کند. پایهٔ اکثر مدل‌های image generation.

RNN و LSTM: برای داده‌های سری زمانی و متن. می‌توانند «حافظه» داشته باشند — یعنی کلمهٔ قبلی روی تفسیر کلمهٔ بعدی تأثیر بگذارد. قبل از Transformerها معیار بودند.

Transformer: معماری کنونی که GPT-4، Claude، Gemini و همه‌شان روی آن بنا شده‌اند. در ۲۰۱۷ توسط Google معرفی شد با مقالهٔ معروف «Attention is All You Need». به جای حافظهٔ سری، از مکانیزم Attention استفاده می‌کند — یعنی مدل می‌تواند مستقیم به هر قسمتی از ورودی توجه کند.

Diffusion Models: پایهٔ Stable Diffusion، DALL-E، و Midjourney. ایده‌شان جالب است: داده را با نویز خراب می‌کنند و به مدل یاد می‌دهند نویز را برگرداند. در inference، از نویز تصادفی شروع می‌کنند و تدریجاً تصویر می‌سازند.

چرا یادگیری عمیق الان قوی است؟

سه عامل همزمان شدند:

۱. داده: اینترنت میلیاردها تصویر، متن و صدا تولید کرده. مدل‌های بزرگ به داده‌های عظیم نیاز دارند.

۲. GPU: پردازنده‌های گرافیکی (که اصلاً برای بازی ساخته شدند) برای matrix multiplication مناسب‌اند — عملیات اصلی شبکه‌های عصبی. NVIDIA با CUDA این را به مسیر اصلی تبدیل کرد.

۳. معماری Transformer: قبلاً آموزش مدل‌های بسیار بزرگ به خاطر مشکل گرادیان سخت بود. Attention این مشکل را تا حد زیادی حل کرد.

محدودیت‌های واقعی

یادگیری عمیق بی‌نقص نیست:

هزینه: آموزش GPT-4 صدها میلیون دلار هزینه داشت. حتی inference (استفاده از مدل آموزش‌دیده) هزینه‌بر است.

تفسیرپذیری (Explainability): نمی‌دانیم دقیقاً چرا مدل یک جواب خاص می‌دهد. این در حوزه‌های حساس مثل پزشکی مشکل است.

داده‌محوری: اگر داده‌ٔ آموزشی بد باشد، مدل بد می‌شود. Garbage in, garbage out — با قدرت بیشتر.

Hallucination: مدل‌های زبانی می‌توانند اطلاعات غلط با اطمینان کامل بیان کنند. این مشکل مستقیم از نحوهٔ آموزش آن‌ها ناشی می‌شود — آن‌ها «صحیح‌ترین ادامهٔ متن» را پیش‌بینی می‌کنند، نه «واقعیت» را.

یادگیری عمیق و فارسی

مدل‌های زبانی در فارسی ضعف‌های خاصی دارند:

  • داده‌ٔ فارسی در corpus آموزشی اکثر مدل‌های بزرگ کمتر از ۱٪ است
  • tokenization فارسی (به خاطر چسبندگی و کشیدگی حروف) سخت‌تر است
  • دستور زبان فارسی از الگوهای SOV پیروی می‌کند که با انگلیسی متفاوت است

همین است که مدل‌هایی مثل ParsBERT و تلاش‌های بومی برای fine-tuning روی فارسی اهمیت دارند.

ارتباط با LLMها

مدل‌های زبانی بزرگ (LLM) که این روزها همه دربارشان حرف می‌زنند، یک نوع خاص از یادگیری عمیق هستند: Transformer بسیار بزرگ که روی متن آموزش دیده. وقتی می‌گوییم «ChatGPT پاسخ می‌دهد»، در واقع یک شبکهٔ عصبی با صدها میلیارد پارامتر در حال پیش‌بینی توکن بعدی است — هر بار.

بیشتر در LLM چیست؟ توضیح داده‌ایم.

همچنین بخوان

#هوش مصنوعی#deep learning

ادامهٔ مسیر

همهٔ مقاله‌ها ←

بیشتر در «هوش مصنوعی»