هوش مصنوعی

شبکهٔ عصبی چیست؟ از نورون تا ترنسفورمر

شبکهٔ عصبی چیست؟ از نورون تا ترنسفورمر — راهنمای فارسی از مجموعهٔ «هوش مصنوعی» در وبلاگ آیرا. بازنویسی‌شده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

نوشتهٔ ۳ دقیقه مطالعه
تصویر مقالهٔ شبکهٔ عصبی چیست؟ از نورون تا ترنسفورمر

اگه می‌خوای بفهمی ChatGPT، Gemini، یا هر مدل زبانی دیگه‌ای اصلاً چطور «فکر» می‌کنه، باید از شبکهٔ عصبی شروع کنی. این مفهوم ستون فقرات تقریباً تمام هوش مصنوعی مدرنه — از تشخیص تصویر گرفته تا مدل‌هایی که متن فارسی می‌نویسن.

مغز انسان الهام‌بخش بود، نه الگو

اسم «شبکهٔ عصبی مصنوعی» (Artificial Neural Network یا ANN) از نورون‌های زیست‌شناختی الهام گرفته، ولی شباهت‌ها از یه نقطه‌ای به بعد قطع می‌شن. نورون مصنوعی در واقع یه تابع ریاضیه که چند ورودی عددی می‌گیره، هر کدوم رو با یه «وزن» (weight) ضرب می‌کنه، جمع می‌زنه، و اگه خروجی از یه آستانه رد شد، فعال می‌شه و به نورون بعدی سیگنال می‌فرسته.

وقتی هزاران یا میلیون‌ها این نورون مصنوعی لایه‌به‌لایه کنار هم بشینن، چیزی می‌سازن که می‌تونه الگوهای پیچیده رو یاد بگیره — مثلاً تشخیص بده که عکس یه گربه‌ست یا نه، یا اینکه جملهٔ بعدی متن چی باشه.

آناتومی یه شبکهٔ عصبی ساده

یه شبکهٔ عصبی معمولی سه نوع لایه داره:

لایهٔ ورودی (Input Layer): داده خام وارد می‌شه — پیکسل‌های یه عکس، توکن‌های یه جمله، یا هر عدد دیگه‌ای.

لایه‌های پنهان (Hidden Layers): اینجاست که کار اصلی انجام می‌شه. هر لایه روی خروجی لایهٔ قبل عمل می‌کنه و ویژگی‌های پیچیده‌تری استخراج می‌کنه. یه شبکه «عمیق» (deep) همین داره — چندین لایهٔ پنهان که به هم وصلن.

لایهٔ خروجی (Output Layer): پاسخ نهایی اینجا می‌آد — مثلاً احتمال اینکه عکس گربه‌ست ۹۲٪ه.

یادگیری یعنی تنظیم وزن‌ها

شبکه چطور یاد می‌گیره؟ با فرآیندی به اسم «پس‌انتشار خطا» (Backpropagation). خلاصه‌اش اینه: شبکه یه پیش‌بینی می‌کنه، جواب درست رو می‌بینه، خطا رو حساب می‌کنه، و وزن‌ها رو کمی عوض می‌کنه که دفعهٔ بعد خطا کمتر بشه. این کار رو میلیون‌ها بار روی مثال‌های مختلف تکرار می‌کنه تا شبکه «تخصص» پیدا کنه.

الگوریتمی که این تنظیم رو هدایت می‌کنه «گرادیان کاهشی» (Gradient Descent) نام داره. مفهومش ساده‌ست: تصور کن روی یه کوه ایستادی و می‌خوای به پایین‌ترین نقطه (کمترین خطا) برسی — همیشه قدم بعدی رو به سمت شیب پایین برمی‌داری.

از CNN تا RNN تا ترنسفورمر

همهٔ شبکه‌های عصبی مثل هم نیستن. معماری‌های مختلفی برای مسائل مختلف ساخته شدن:

CNN (شبکهٔ عصبی کانولوشنی): برای پردازش تصویر طراحی شده. به جای نگاه کردن به کل تصویر یکجا، روی پچ‌های کوچیک تمرکز می‌کنه و ویژگی‌های محلی (مثل لبه‌ها، بافت، رنگ) رو شناسایی می‌کنه.

RNN (شبکهٔ عصبی بازگشتی): برای داده‌های دنباله‌ای مثل متن یا صدا. حافظهٔ کوتاه‌مدت داره و می‌تونه سیاق جمله رو نگه داره، ولی برای جملات خیلی بلند ضعیف می‌شه.

ترنسفورمر (Transformer): معماری که در ۲۰۱۷ توسط تیم گوگل با مقالهٔ «Attention Is All You Need» معرفی شد و عملاً همه چیز رو عوض کرد. ترنسفورمر از مکانیزم «توجه» (Attention) استفاده می‌کنه — می‌تونه همزمان به تمام بخش‌های یه جمله نگاه کنه و بفهمه کدوم کلمه به کدوم کلمهٔ دیگه مرتبط‌تره.

مکانیزم توجه به زبان ساده

وقتی می‌خونی «علی کتابش رو گم کرد و ناراحت شد»، مغزت می‌فهمه «ناراحت شد» به «علی» برمی‌گرده نه به «کتاب». ترنسفورمر با مکانیزم توجه دقیقاً همین کار رو می‌کنه — برای هر کلمه، نگاه می‌کنه به کل جمله و وزن ارتباطش با هر کلمهٔ دیگه رو حساب می‌کنه.

این قدرت ترنسفورمر هست که GPT، Claude، Gemini و تمام مدل‌های زبانی بزرگ امروز رویش ساخته شدن.

پارامتر چیست؟

وقتی می‌شنوی «GPT-4 یه تریلیون پارامتر داره»، منظور همون وزن‌های قابل تنظیم شبکه‌ست. هر پارامتر یه عدده که در طول آموزش یاد گرفته شده. هر چقدر پارامتر بیشتر باشه، شبکه می‌تونه الگوهای پیچیده‌تری ذخیره کنه — ولی آموزشش هم حسابی گرون‌تر می‌شه.

چرا برای کاربر فارسی اهمیت داره؟

شبکه‌های عصبی با داده آموزش می‌بینن. اگه داده‌های آموزشی ۹۵٪ انگلیسی باشن، مدل در فارسی ضعیف‌تر عمل می‌کنه. این چالش اصلی کاربر ایرانیه — مدل‌های بزرگ جهانی اغلب فارسی رو «می‌فهمن» ولی با دقت کمتری نسبت به انگلیسی. راه‌حل یا fine-tuning روی داده‌های فارسیه (مثل پارس‌برت) یا آموزش مدل بومی از ابتدا.

برای آشنایی بیشتر با چالش‌های خاص زبان فارسی در مدل‌های زبانی، مقالهٔ RTL و چالش‌های فارسی در LLM رو بخوان.

همچنین بخوان

#هوش مصنوعی#neural network

ادامهٔ مسیر

همهٔ مقاله‌ها ←

بیشتر در «هوش مصنوعی»