شبکهٔ عصبی چیست؟ از نورون تا ترنسفورمر
شبکهٔ عصبی چیست؟ از نورون تا ترنسفورمر — راهنمای فارسی از مجموعهٔ «هوش مصنوعی» در وبلاگ آیرا. بازنویسیشده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

اگه میخوای بفهمی ChatGPT، Gemini، یا هر مدل زبانی دیگهای اصلاً چطور «فکر» میکنه، باید از شبکهٔ عصبی شروع کنی. این مفهوم ستون فقرات تقریباً تمام هوش مصنوعی مدرنه — از تشخیص تصویر گرفته تا مدلهایی که متن فارسی مینویسن.
مغز انسان الهامبخش بود، نه الگو
اسم «شبکهٔ عصبی مصنوعی» (Artificial Neural Network یا ANN) از نورونهای زیستشناختی الهام گرفته، ولی شباهتها از یه نقطهای به بعد قطع میشن. نورون مصنوعی در واقع یه تابع ریاضیه که چند ورودی عددی میگیره، هر کدوم رو با یه «وزن» (weight) ضرب میکنه، جمع میزنه، و اگه خروجی از یه آستانه رد شد، فعال میشه و به نورون بعدی سیگنال میفرسته.
وقتی هزاران یا میلیونها این نورون مصنوعی لایهبهلایه کنار هم بشینن، چیزی میسازن که میتونه الگوهای پیچیده رو یاد بگیره — مثلاً تشخیص بده که عکس یه گربهست یا نه، یا اینکه جملهٔ بعدی متن چی باشه.
آناتومی یه شبکهٔ عصبی ساده
یه شبکهٔ عصبی معمولی سه نوع لایه داره:
لایهٔ ورودی (Input Layer): داده خام وارد میشه — پیکسلهای یه عکس، توکنهای یه جمله، یا هر عدد دیگهای.
لایههای پنهان (Hidden Layers): اینجاست که کار اصلی انجام میشه. هر لایه روی خروجی لایهٔ قبل عمل میکنه و ویژگیهای پیچیدهتری استخراج میکنه. یه شبکه «عمیق» (deep) همین داره — چندین لایهٔ پنهان که به هم وصلن.
لایهٔ خروجی (Output Layer): پاسخ نهایی اینجا میآد — مثلاً احتمال اینکه عکس گربهست ۹۲٪ه.
یادگیری یعنی تنظیم وزنها
شبکه چطور یاد میگیره؟ با فرآیندی به اسم «پسانتشار خطا» (Backpropagation). خلاصهاش اینه: شبکه یه پیشبینی میکنه، جواب درست رو میبینه، خطا رو حساب میکنه، و وزنها رو کمی عوض میکنه که دفعهٔ بعد خطا کمتر بشه. این کار رو میلیونها بار روی مثالهای مختلف تکرار میکنه تا شبکه «تخصص» پیدا کنه.
الگوریتمی که این تنظیم رو هدایت میکنه «گرادیان کاهشی» (Gradient Descent) نام داره. مفهومش سادهست: تصور کن روی یه کوه ایستادی و میخوای به پایینترین نقطه (کمترین خطا) برسی — همیشه قدم بعدی رو به سمت شیب پایین برمیداری.
از CNN تا RNN تا ترنسفورمر
همهٔ شبکههای عصبی مثل هم نیستن. معماریهای مختلفی برای مسائل مختلف ساخته شدن:
CNN (شبکهٔ عصبی کانولوشنی): برای پردازش تصویر طراحی شده. به جای نگاه کردن به کل تصویر یکجا، روی پچهای کوچیک تمرکز میکنه و ویژگیهای محلی (مثل لبهها، بافت، رنگ) رو شناسایی میکنه.
RNN (شبکهٔ عصبی بازگشتی): برای دادههای دنبالهای مثل متن یا صدا. حافظهٔ کوتاهمدت داره و میتونه سیاق جمله رو نگه داره، ولی برای جملات خیلی بلند ضعیف میشه.
ترنسفورمر (Transformer): معماری که در ۲۰۱۷ توسط تیم گوگل با مقالهٔ «Attention Is All You Need» معرفی شد و عملاً همه چیز رو عوض کرد. ترنسفورمر از مکانیزم «توجه» (Attention) استفاده میکنه — میتونه همزمان به تمام بخشهای یه جمله نگاه کنه و بفهمه کدوم کلمه به کدوم کلمهٔ دیگه مرتبطتره.
مکانیزم توجه به زبان ساده
وقتی میخونی «علی کتابش رو گم کرد و ناراحت شد»، مغزت میفهمه «ناراحت شد» به «علی» برمیگرده نه به «کتاب». ترنسفورمر با مکانیزم توجه دقیقاً همین کار رو میکنه — برای هر کلمه، نگاه میکنه به کل جمله و وزن ارتباطش با هر کلمهٔ دیگه رو حساب میکنه.
این قدرت ترنسفورمر هست که GPT، Claude، Gemini و تمام مدلهای زبانی بزرگ امروز رویش ساخته شدن.
پارامتر چیست؟
وقتی میشنوی «GPT-4 یه تریلیون پارامتر داره»، منظور همون وزنهای قابل تنظیم شبکهست. هر پارامتر یه عدده که در طول آموزش یاد گرفته شده. هر چقدر پارامتر بیشتر باشه، شبکه میتونه الگوهای پیچیدهتری ذخیره کنه — ولی آموزشش هم حسابی گرونتر میشه.
چرا برای کاربر فارسی اهمیت داره؟
شبکههای عصبی با داده آموزش میبینن. اگه دادههای آموزشی ۹۵٪ انگلیسی باشن، مدل در فارسی ضعیفتر عمل میکنه. این چالش اصلی کاربر ایرانیه — مدلهای بزرگ جهانی اغلب فارسی رو «میفهمن» ولی با دقت کمتری نسبت به انگلیسی. راهحل یا fine-tuning روی دادههای فارسیه (مثل پارسبرت) یا آموزش مدل بومی از ابتدا.
برای آشنایی بیشتر با چالشهای خاص زبان فارسی در مدلهای زبانی، مقالهٔ RTL و چالشهای فارسی در LLM رو بخوان.
همچنین بخوان
- هوش مصنوعی چیست؟
- LLM چیست؟
- ترنسفورمر چیست؟
- شناخت پیوسته در هوش مصنوعی — چرا حافظه در AI مهمه
- یادگیری عمیق چیست؟
ادامهٔ مسیر
همهٔ مقالهها ←
هوش مصنوعی چیست؟ راهنمای کامل فارسی برای شروع در ۱۴۰۵
هوش مصنوعی به زبان ساده: تاریخچه، انواع، مدلهای زبانی بزرگ، شبکههای عصبی و چرا ۱۴۰۵ نقطهٔ عطف کاربر فارسیزبان است.

LLM چیست؟ راهنمای فارسی مدلهای زبانی بزرگ
LLM چیست؟ راهنمای فارسی مدلهای زبانی بزرگ — راهنمای فارسی از مجموعهٔ «هوش مصنوعی» در وبلاگ آیرا. بازنویسیشده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

یادگیری ماشین چیست؟
یادگیری ماشین چیست؟ — راهنمای فارسی از مجموعهٔ «هوش مصنوعی» در وبلاگ آیرا. بازنویسیشده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.

یادگیری عمیق چیست؟
یادگیری عمیق چیست؟ — راهنمای فارسی از مجموعهٔ «هوش مصنوعی» در وبلاگ آیرا. بازنویسیشده با تمرکز روی کاربر ایرانی و روایت شناخت پیوسته.
بیشتر در «هوش مصنوعی»
- پردازش زبان طبیعی (NLP) چیست؟
- ترنسفورمر چیست؟ معماری انقلابی LLMها
- تاریخچهٔ هوش مصنوعی — از تورینگ تا GPT-5
- اخلاق در هوش مصنوعی
- AGI، ASI و ANI — انواع هوش مصنوعی به زبان ساده
- انواع هوش مصنوعی
- آیندهٔ هوش مصنوعی
- RAG چیست؟ ترکیب بازیابی و تولید در LLM
- Embedding چیست؟ نمایش معنایی متن در فضای برداری
- Fine-tuning چیست؟
- توهم در هوش مصنوعی — چرا AI دروغ میسازد
- Prompt injection و امنیت LLM
- AI alignment و safety به زبان ساده
- تأثیر هوش مصنوعی بر کار و مشاغل
- تأثیر هوش مصنوعی بر آموزش
- هوش مصنوعی و مغز انسان
- RLHF — آموزش با بازخورد انسانی
- مکانیزم Attention در ترنسفورمر
- هوش مصنوعی open source در مقابل closed source
- Quantization و فشردهسازی مدلها
- هوش مصنوعی چندوجهی (Multimodal AI)