Nvidia Nemotron 3 با معماری هیبریدی MoE و Mamba معرفی شد
انویدیا، که در حال حاضر یکی از باارزشترین شرکتهای جهان محسوب میشود، نسخه جدید مدلهای مرزی پیشرفته خود به نام نموترون ۳ را عرضه کرد. این شرکت با تکیه بر یک معماری مدل نوین، اعلام کرده است که Nvidia Nemotron 3 دقت و قابلیت اطمینان بیشتری را برای استفاده در عوامل هوش مصنوعی فراهم میکند. هدف انویدیا از طراحی این مدل، نمایش تعهد خود به یادگیری و بهبود مستمر نسبت به نسخههای قبلی مدلهایشان بوده است.
معماری هیبریدی: کلید کارایی و مقیاسپذیری
برای ساخت مدلهای نموترون ۳، انویدیا بر معماری «ترکیب متخصصان هیبریدی» (MoE) تکیه کرده است تا مقیاسپذیری و کارایی مدل را ارتقا بخشد. انویدیا در بیانیهای مطبوعاتی اعلام کرد که استفاده از این معماری نوین، انعطافپذیری و عملکرد بیشتری را هنگام ساخت سیستمهای خودمختار چندعاملی در اختیار شرکتها قرار میدهد. کاری بریسکلی، معاون نرمافزار هوش مصنوعی مولد در انویدیا، اشاره کرد که این شرکت موقعیت منحصربهفردی برای خدمترسانی به توسعهدهندگان متنوع دارد؛ توسعهدهندگانی که به دنبال انعطافپذیری کامل برای شخصیسازی مدلهای خود به منظور ساخت هوش مصنوعی تخصصی هستند. این امر از طریق ترکیب معماری هیبریدی جدید ترکیب متخصصان با طول زمینه یک میلیون توکن امکانپذیر میشود.
برخی از اولین شرکتهایی که نموترون ۳ را به کار گرفتهاند شامل Accenture، CrowdStrike، Cursor، Deloitte، EY، Oracle Cloud Infrastructure، Palantir، Perplexity، ServiceNow، Siemens و Zoom هستند.
مدلهای Nemotron 3 در سه اندازه متمایز
مدلهایNvidia Nemotron 3 در سه اندازه مختلف در دسترس توسعهدهندگان قرار گرفتهاند که هر کدام برای کاربردهای خاصی بهینهسازی شدهاند:
- نموترون ۳ نانو (Nemotron 3 Nano): این مدل با ۳۰ میلیارد پارامتر، عمدتاً برای انجام وظایف بسیار کارآمد و هدفمند طراحی شده است.
- نموترون ۳ سوپر (Nemotron 3 Super): این مدل ۱۰۰ میلیارد پارامتری برای کاربردهای چندعاملی و نیاز به استدلال با دقت بالا به کار میرود.
- نموترون ۳ اولترا (Nemotron 3 Ultra): این مدل بزرگترین موتور استدلال را دارد و با حدود ۵۰۰ میلیارد پارامتر، برای کاربردهای پیچیدهتر مورد استفاده قرار میگیرد.
نوآوریهای پیشگامانه در معماری
انویدیا در بسیاری از مدلهای خود، از جمله Nemotron-Nano-9B-v2، از معماری ترکیب متخصصان هیبریدی ترانسفورمر-مامبا استفاده کرده است. این معماری بر اساس پژوهشهای دانشگاه کارنگی ملون و پرینستون بنا شده و از مدلهای فضای حالت انتخابی بهره میبرد تا بتواند قطعات طولانی اطلاعات را در عین حفظ حالتها مدیریت کند. این ویژگی امکان کاهش هزینههای محاسباتی را حتی در زمینههای طولانی فراهم میآورد.
بریسکلی توضیح داد که این معماری هیبریدی ترانسفورمر-مامبا چندین برابر سریعتر عمل میکند و حافظه کمتری مصرف مینماید، زیرا از نقشههای توجه بزرگ و حافظههای کلیدی-مقدار (key value caches) برای هر توکن اجتناب مینماید. انویدیا تاکید کرده است که طراحی آنها در مقایسه با نموترون ۲ نانو، تا ۴ برابر توان عملیاتی توکن بیشتری را به دست میآورد. علاوه بر این، این معماری میتواند با کاهش تولید توکنهای استدلال، هزینههای استنتاج را تا ۶۰ درصد به شکل قابل توجهی کاهش دهد. بریسکلی خاطر نشان کرد که افزایش کارایی و کاهش هزینه برای هر توکن، از طریق نوآوریهای مدل معماری محقق شده است.
مفهوم “MoE پنهان” در مدلهای بزرگتر
انویدیا نوآوری دیگری را نیز برای مدلهای نموترون ۳ سوپر و اولترا معرفی کرده که آن را “ترکیب متخصصان پنهان” یا «Latent MoE» نامیده است. بریسکلی این معماری را اینگونه تشریح کرد: «در این روش، تمام متخصصانی که در مدل شما حضور دارند، یک هسته مشترک را به اشتراک میگذارند و تنها بخش کوچکی را خصوصی نگه میدارند. این شبیه آشپزهایی است که یک آشپزخانه بزرگ مشترک دارند، اما هر یک نیاز به قفسه ادویه مخصوص خود دارند». اگرچه انویدیا تنها شرکتی نیست که از این نوع معماری استفاده میکند، (به عنوان مثال، AI21 Labs نیز از آن برای مدلهای جامبا استفاده میکند)، این رویکرد به کارایی بالا کمک شایانی میرساند.
مدلهای نموترون ۳ از یادگیری تقویتی توسعهیافته بهره بردهاند. همچنین، مدلهای بزرگتر یعنی سوپر و اولترا، از فرمت آموزش ۴ بیتی NVFP4 انویدیا استفاده کردهاند که به آنها اجازه میدهد بدون به خطر انداختن دقت، با زیرساختهای موجود آموزش ببینند.
ابزارهای جدید برای “ورزش دادن” به مدلها
در راستای عرضه نموترون ۳، انویدیا دسترسی کاربران به تحقیقات خود را از طریق انتشار مقالات، نمونههای دستورات (prompts) و مجموعهدادههای باز که در آنها افراد میتوانند توکنهای پیش از آموزش و نمونههای پس از آموزش را بررسی کنند، فراهم میآورد. مهمترین بخش این عرضه، معرفی NeMo Gym است.
NeMo Gym یک آزمایشگاه یادگیری تقویتی است که در آن مشتریان میتوانند مدلها و عوامل خود را در محیطهای شبیهسازی شده اجرا کنند تا عملکرد آنها را پس از آموزش ارزیابی نمایند. هدف انویدیا از انتشار اطلاعات بیشتر در مورد نحوه آموزش مدلها، کمک به توسعهدهندگانی است که به دنبال مدلهای باز بسیار هوشمند و با عملکرد بالا هستند تا بتوانند در صورت نیاز، آنها را بهتر هدایت کنند. انویدیا همچنین اعلام کرد نمونههای دادههای پس از آموزشی که قصد انتشار آنها را دارد، از نظر اندازه به مراتب بزرگتر از هر مجموعه داده پس از آموزش موجود و در عین حال بسیار باز و قابل دسترس هستند.
بریسکلی توضیح داد که توسعهدهندگان امروزی با یک چالش سهگانه دشوار روبرو هستند: آنها نیاز به مدلهایی دارند که هم فوقالعاده باز، هم بسیار هوشمند و هم به شدت کارآمد باشند. او افزود که بیشتر مدلهای باز، توسعهدهندگان را مجبور میکنند تا بین کاراییهایی مانند هزینههای توکن، تأخیر و توان عملیاتی، مصالحههای دردناکی را بپذیرند. در نهایت، توسعهدهندگان میخواهند بدانند که مدل چگونه آموزش دیده است، دادههای آموزشی از کجا آمدهاند و چگونه میتوانند آن را ارزیابی کنند.
سوالات متداول
1. معماری کلیدی نموترون ۳ انویدیا چیست؟
معماری کلیدی نموترون ۳، معماری هیبریدی «ترکیب متخصصان» (MoE) است که با معماری ترانسفورمر-مامبا (Mamba-Transformer) ترکیب شده و به بهبود مقیاسپذیری و کارایی مدلها کمک میکند.
2. نموترون ۳ در چند اندازه موجود است و کاربرد اصلی هر کدام چیست؟
نموترون ۳ در سه اندازه موجود است: نموترون ۳ نانو (برای وظایف هدفمند و کارآمد با ۳۰ میلیارد پارامتر)، نموترون ۳ سوپر (برای کاربردهای چندعاملی با ۱۰۰ میلیارد پارامتر) و نموترون ۳ اولترا (برای کاربردهای پیچیدهتر با ۵۰۰ میلیارد پارامتر).
3. Nemotron 3 چه مزایای کارایی نسبت به نسخههای قبلی دارد؟
معماری جدید Nemotron 3 میتواند توان عملیاتی توکن را تا ۴ برابر افزایش دهد و با کاهش تولید توکنهای استدلال، هزینههای استنتاج را تا ۶۰ درصد پایین بیاورد.
4. “Latent MoE” یا ترکیب متخصصان پنهان چیست؟
Latent MoE نوآوری است که در مدلهای سوپر و اولترا به کار رفته و به این معنی است که متخصصان درون مدل یک هسته مشترک را به اشتراک میگذارند و تنها بخش کوچکی را خصوصی نگه میدارند، که باعث افزایش کارایی میشود.
5. NeMo Gym چیست و انویدیا چه ابزارهای دیگری را برای توسعهدهندگان منتشر کرده است؟
NeMo Gym یک آزمایشگاه یادگیری تقویتی است که به کاربران اجازه میدهد مدلهای خود را در محیطهای شبیهسازی شده اجرا کرده و عملکرد پس از آموزش آنها را آزمایش کنند. انویدیا همچنین مقالات تحقیقاتی، نمونههای دستورات و مجموعهدادههای باز گستردهای را منتشر میکند.

ثمینه تفقدی هستم علاقه مند به محتوا نویسی، از سال ۲۰۲۴ به تیمی که در زمینه ارز دیجیتال فعالیت داشت پیوستم و از اوایل سال ۲۰۲۵ با علاقه مند شدن به گجت ها و نوآوری هایی که برای اولین بار در جهان اتفاق می افتد، باعث شد تا با تیم جوان و با پشتکار پارس دیجی آشنا بشم از اون تاریخ به بعد درباره بهترین گجت ها تحقیق میکنم تا اطلاعات بهینه ای را در اختیار خوانندگان محترم این سایت قرار دهم
نظرات کاربران