عرضه مدل هوش مصنوعی جدید DeepSeek و تأثیر آن بر بازار ارزهای دیجیتال

معرفی مدل جدید هوش مصنوعی DeepSeek
شرکت توسعه هوش مصنوعی چینی DeepSeek به تازگی یک مدل جدید با نام Prover V2 را معرفی کرده است. این مدل با 671 میلیارد پارامتر، به وضوح بزرگتر از نسخههای قبلی خود، یعنی Prover V1 و Prover V1.5، که در اوت 2024 منتشر شدند، میباشد.
Prover V2 به گونهای طراحی شده است که توانایی فشردهسازی دانش ریاضی را به فرمتهایی فراهم میآورد که امکان تولید و تأیید اثباتها را فراهم میکند. این قابلیت میتواند در تحقیقات علمی و آموزش بسیار مفید باشد.
جزئیات فنی Prover V2
مدل جدید DeepSeek به تازگی در تاریخ 30 آوریل بر روی پلتفرم Hugging Face بارگذاری شده و تحت مجوز MIT به صورت متن باز منتشر شده است. این مدل به ویژه بر تأیید اثباتهای ریاضی تمرکز دارد.
Prover V2 با وزن تقریبی 650 گیگابایت، به گونهای طراحی شده است که میتواند از RAM یا VRAM برای اجرا استفاده کند. برای کاهش حجم این مدل، وزنهای آن به دقت به دقت 8 بیت فشرده شدهاند که باعث میشود هر پارامتر تنها نیمی از فضای معمولی 16 بیت را اشغال کند.
مدلهای قبلی و پیشرفتهای جدید
نسخه قبلی Prover، یعنی Prover V1، بر اساس مدل DeepSeekMath با هفت میلیارد پارامتر ساخته شده بود و از دادههای مصنوعی برای آموزش استفاده میکرد. دادههای مصنوعی به دادههایی اطلاق میشود که برای آموزش مدلهای هوش مصنوعی تولید شدهاند و معمولاً شامل دادههای تولید شده توسط انسان نیستند.
در حالی که Prover V1.5 با بهینهسازیهای مختلفی در آموزش و اجرا، دقت بالاتری را ارائه میدهد، هنوز اطلاعات دقیقی درباره بهبودهای Prover V2 منتشر نشده است. با این حال، تعداد پارامترهای موجود در Prover V2 نشان میدهد که احتمالاً این مدل بر اساس مدل R1 شرکت DeepSeek توسعه یافته است. زمانی که R1 معرفی شد، با عملکرد خود در مقایسه با مدل o1 OpenAI توجهها را جلب کرد.
چشمانداز مدلهای باز و تأثیرات آن
انتشار عمومی وزنهای مدلهای بزرگ زبان (LLM) یک موضوع بحثبرانگیز است. از یک سو، این کار به کاربران این امکان را میدهد که به هوش مصنوعی بدون وابستگی به زیرساختهای شرکتهای خصوصی دسترسی داشته باشند. از سوی دیگر، این موضوع نگرانیهایی را در مورد سوء استفاده از مدلها ایجاد میکند.
انتشار R1 به عنوان یک نقطه عطف برای چین در زمینه هوش مصنوعی تلقی شد و برخی آن را به «لحظه اسپوتنیک» چین تشبیه کردند. حامیان متن باز از این اقدام DeepSeek خوشحال شدند و این شرکت را در ادامه مسیر Meta و سری مدلهای LLaMA دانستند.
دسترسپذیری مدلهای زبان و تکنیکهای نوین
امروزه حتی کاربرانی که به ابرکامپیوترهای گرانقیمت دسترسی ندارند، میتوانند مدلهای LLM را به صورت محلی اجرا کنند. این موضوع عمدتاً به دو تکنیک توسعه هوش مصنوعی مربوط میشود: تقطیر مدل و کمدقتی.
- تقطیر مدل: این فرآیند شامل آموزش یک شبکه «دانشآموز» فشرده برای تقلید رفتار یک مدل بزرگتر «معلم» است.
- کمدقتی: این تکنیک شامل کاهش دقت عددی وزنها و فعالیتهای مدل برای کوچکسازی اندازه و افزایش سرعت است.
به عنوان مثال، Prover V2 با کاهش از 16 به اعداد اعشاری 8 بیتی، حجم خود را کاهش داده است. این تکنیکها میتوانند تأثیراتی بر عملکرد مدل داشته باشند، اما معمولاً مدل را به طور کلی کارآمد نگه میدارند.
مدل R1 DeepSeek به نسخههایی با مدلهای LLaMA و Qwen تقطیر شده است که پارامترهایی از 70 میلیارد تا 1.5 میلیارد دارند. کوچکترین این مدلها حتی میتواند به راحتی بر روی برخی از دستگاههای موبایل اجرا شود.
چالشها و فرصتهای موجود در آینده
با توسعه و انتشار مدلهای جدید، چالشها و فرصتهای جدیدی نیز در زمینه هوش مصنوعی به وجود میآید. از یک سو، دسترسی به فناوریهای پیشرفته میتواند به پیشرفتهای علمی و آموزشی کمک کند. از سوی دیگر، نیاز به نظارت و مدیریت مناسب برای جلوگیری از سوء استفادهها و مشکلات امنیتی نیز احساس میشود.
در نهایت، آینده هوش مصنوعی به نحوه مدیریت و توسعه این فناوری بستگی دارد و DeepSeek با مدلهای جدید خود در این مسیر گام برمیدارد.