مدلهای زبانی کوچک (SLM): وقتی کوچکتر، هوشمندتر است
آرسام صباغ · ۱۴۰۵/۰۱/۰۵ · 13 دقیقه
تا دو سال پیش، قدرت و اعتبار هوش مصنوعی تنها در مدلهای غولآسایی خلاصه میشد که صدها میلیارد یا حتی تریلیونها پارامتر داشتند و برای اجرا به ابررایانههای عظیم نیاز داشتند. اما در بهار ۱۴۰۵، ورق کاملاً برگشته است: مدل…
۱. چرخش بزرگ بازار: چرا «کوچک» به استراتژی تبدیل شد؟
اقتصاد سادهی استنتاج (Inference)، موتور این چرخش است. آموزش یک مدل، هزینهای یکباره است؛ اما استنتاج، هزینهای است که با هر درخواست کاربر تکرار میشود و در مقیاس میلیونی، صورتحساب آن از هزینهی آمو…
۲. معماری MoE: کارایی فوقالعاده با فعالسازی انتخابی
کلید فنی نسل جدید، معماری ترکیب متخصصان (Mixture-of-Experts — MoE) است. در مدل متراکم (Dense) کلاسیک، تمام وزنها برای پردازش هر توکن فعال میشوند؛ اما در MoE، شبکه به دهها «متخصص» تقسیم شده و یک لا…
۳. Phi-4 و فلسفهی «دادهی درسی»: پادشاه استدلال فنی
مایکروسافت با خانوادهی Phi و بهویژه Phi-4 (با حدود ۱۴ میلیارد پارامتر)، فلسفهی «دادههای با کیفیت کتاب درسی» (Textbook-Quality Data) را به اوج رساند. این مدل بهجای بلعیدن کل اینترنت، بر ترکیبی از…
۴. کوانتیزاسیون: ریاضیاتِ جا دادن مدل در جیب
اگر MoE و دادهی باکیفیت دو ستون اول انقلاب SLM باشند، ستون سوم کوانتیزاسیون (Quantization) است: کاهش دقت عددی وزنهای مدل از ۱۶ بیت به ۸، ۴ و حتی پایینتر. حساب سرانگشتی آن ساده است: یک مدل ۸ میلیار…
تحلیل کامل را در تکناو بخوانید
بررسی Phi-4 و Llama 4 Scout؛ انقلاب هوش مصنوعی محلی
خواندن مقاله →