هزّت عروش عمالقة الذكاء الاصطناعي في أميركا.. قصة نجاح “DeepSeek”

كانت القيود التي فرضتها الولايات المتحدة على تصدير أشباه الموصلات المتقدمة تهدف إلى إبطاء تقدم الصين في مجال الذكاء الاصطناعي، ولكنها ربما أدت بشكل غير مباشر إلى تحفيز الابتكار.
ومع عدم القدرة على الاعتماد الكامل على أحدث الأجهزة، اضطرت شركات مثل DeepSeek، التي تتخذ من هانغتشو مقرًا لها، إلى إيجاد حلول مبتكرة لتحقيق المزيد باستخدام موارد أقل. تأسست شركة DeepSeek في مايو 2023 على يد ليانغ وينفنج، الذي يُعتبر شخصية بارزة في مجالي صناديق التحوط والذكاء الاصطناعي.
وتعمل الشركة بشكل مستقل لكنها تحصل على تمويل حصري من صندوق التحوط الكمي High-Flyer، الذي أسسه ليانغ أيضًا، وهذا النموذج الفريد للتمويل أتاح تنفيذ مشاريع طموحة في مجال الذكاء الاصطناعي دون ضغوط من المستثمرين الخارجيين، مما سمح لهم بإعطاء الأولوية للبحث والتطوير طويل الأجل.
يتكون فريق DeepSeek بشكل أساسي من خريجين شباب موهوبين من أفضل الجامعات الصينية، ما يخلق بيئة تعزز الابتكار وتوفر فهمًا عميقًا للغة والثقافة الصينية.
وركزت ممارسات التوظيف في الشركة على المهارات التقنية بدلاً من الخبرة التقليدية في العمل، ما أسفر عن فريق يتمتع بمهارات عالية ورؤية جديدة لتطوير الذكاء الاصطناعي.
رحلة DeepSeek وتوسعها
بدأت DeepSeek مسيرتها بإطلاق نموذج DeepSeek Coder في نوفمبر 2023، وهو نموذج مفتوح المصدر مصمم للمهام البرمجية. تلاه إطلاق نموذج DeepSeek LLM، الذي يحتوي على 67 مليار متغير ويهدف للتنافس مع النماذج اللغوية الكبيرة الأخرى. في مايو 2024، أطلقت الشركة DeepSeek-V2، الذي لفت الانتباه بأدائه القوي وتكلفته المنخفضة، ما أدى إلى إشعال حرب أسعار في سوق النماذج الصينية للذكاء الاصطناعي.
هذا النهج التسعيري المزعزع أجبر عمالقة التكنولوجيا الصينيين مثل ByteDance وTencent وBaidu وAlibaba على خفض أسعار نماذجهم للبقاء في المنافسة.
نماذج متقدمة وأسعار تنافسية
تم إطلاق DeepSeek-V2 لاحقًا بنموذج DeepSeek-Coder-V2، الذي يحتوي على 236 مليار متغير ومصمم لتحديات برمجية معقدة، مع طول سياقي يصل إلى 128 ألف رمز.
ويتوفر هذا النموذج عبر واجهة برمجة تطبيقات بأسعار اقتصادية تبلغ 0.14 دولار لكل مليون رمز إدخال و0.28 دولار لكل مليون رمز إخراج.
الشراكات والابتكار
لا تُعزى نجاحات DeepSeek إلى جهودها الداخلية فقط، بل أيضًا إلى شراكات استراتيجية، مثل التعاون مع AMD، حيث تستفيد الشركة من معالجات Instinct GPUs وبرمجيات ROCM لتحسين الأداء وقابلية التوسع، خاصة في تطوير DeepSeek-V3.
وتعتمد DeepSeek على تقنيات مبتكرة مثل التعلم بالتعزيز، والهندسة المعمارية متعددة الخبراء، وآليات الانتباه المتعددة، مما يسهم في خفض التكاليف وتحسين الأداء.
بالإضافة إلى ذلك، تُستخدم تقنيات التقطير لنقل المعرفة من النماذج الكبيرة إلى نماذج أصغر وأكثر كفاءة، مما يجعل الذكاء الاصطناعي متاحًا لشريحة أوسع من المستخدمين.
والهندسة المعمارية متعددة الخبراء، هي تمامًا كأن لديك فريقًا كبيرًا من الخبراء، وكل خبير متخصص في مجال معين، عندما تحتاج إلى حل مشكلة، تستدعي فقط الخبراء الذين تحتاجهم، مما يوفر الوقت والطاقة.
وآليات الانتباه المتعددة تشبه امتلاكك عيونًا متعددة تستطيع أن تركز على عدة أشياء في نفس الوقت، وهذا يجعل النماذج تفهم المعلومات بشكل أعمق وأسرع، تقنيات التقطير تشبه عندما يشرح لك معلم المادة الصعبة بأسلوب بسيط وسهل، ويتم «اختصار» النماذج الكبيرة والمعقدة إلى نماذج أصغر لكنها تحتفظ بنفس الذكاء تقريبًا، فهذا يجعل استخدامها أسهل وأرخص، بحيث يمكن للجميع الاستفادة منها، حتى لو لم تكن لديهم أجهزة قوية.
استراتيجية المصدر المفتوح في الصين
تتبع الصين استراتيجية المصدر المفتوح وتبرز كواحدة من أكبر مقدمي نماذج الذكاء الاصطناعي المفتوحة المصدر بالكامل في العالم.
وفي مقابلة نادرة أُجريت معه في الصين، وجه ليانغ، مؤسس DeepSeek، تحذيرًا إلى شركة OpenAI، قائلًا:
«في مواجهة التقنيات الثورية، فإن الدفاعات التي تعتمد على المصدر المغلق مؤقتة، حتى نهج المصدر المغلق الذي تتبعه OpenAI لن يمنع الآخرين من اللحاق بها.»
هذا الشهر، أطلقت شركة DeepSeek نموذجها R1 باستخدام تقنيات متقدمة مثل التعلم المعزز، ويُعد هذا النموذج من بين الأقوى عالميًا، كما أنه مفتوح المصدر بالكامل، ما يجعله متاحًا لأي شخص في العالم لفحصه وتعديله والبناء عليه.
ويُظهر نموذج DeepSeek-R1 أن الصين لم تخرج من سباق الذكاء الاصطناعي، بل إنها قد تهيمن عليه فمن خلال تدشين نماذج تنافسية للجميع، تستطيع الشركات الصينية زيادة تأثيرها العالمي وربما تشكيل معايير وممارسات الذكاء الاصطناعي الدولية.
كما أن مشاريع المصدر المفتوح تجذب المواهب والموارد العالمية للمساهمة في تطوير الذكاء الاصطناعي في الصين، وتتيح أيضًا توسيع نطاق تقنياتها في الدول النامية، مما يمكّنها من دمج أنظمتها للذكاء الاصطناعي – وبالتالي قيمها ومعاييرها – في البنية التحتية الرقمية العالمية.
وفي شهر سبتمبر، كشفت شركة علي بابا الصينية عن أكثر من 100 نموذج ذكاء اصطناعي مفتوح المصدر ضمن عائلة Qwen 2.5، التي تدعم أكثر من 29 لغة
كما قدمت شركة البحث العملاقة بايدو سلسلة Ernie، وطرحت شركة Zhipu AI سلسلة GLM، بينما كشفت شركة MiniMax عن عائلة MiniMax-01، وجميعها تقدم أداءً تنافسيًا بتكاليف أقل بكثير مقارنة بالنماذج الأميركية الرائدة.
الأداء المتفوق لنموذج DeepSeek-R1
أداء نموذج DeepSeek-R1 يُقارن بأفضل نماذج الاستدلال التي تقدمها OpenAI عبر مجموعة متنوعة من المهام، بما في ذلك الرياضيات، البرمجة، والاستدلال المعقد. على سبيل المثال، حصل DeepSeek-R1 على نسبة 79.8% في اختبار الرياضيات AIME 2024، مقارنة بنسبة 79.2% لنموذج OpenAI-o1.
وفي معيار MATH-500، حقق النموذج 97.3% مقابل 96.4% لـ o1، أما في مهام البرمجة، فقد وصل DeepSeek-R1 إلى المركز 96.3 في المئة على منصة Codeforces، بينما وصل o1 إلى 96.6 في المئة. ومع ذلك، يجب ملاحظة أن نتائج المعايير ليست مثالية ويجب عدم المبالغة في تفسيرها.
الابتكار في مواجهة نقص الموارد
ما يثير الإعجاب بشكل خاص هو أن DeepSeek استطاعت تحقيق هذا الإنجاز بشكل كبير من خلال الابتكار بدلاً من الاعتماد على أحدث رقائق الكمبيوتر.
قدمت الشركة تقنية MLA (الانتباه الكامن متعدد الرؤوس)، التي تقلل من استخدام الذاكرة إلى نسبة تتراوح بين 5-13% مقارنة بالبنية التقليدية MHA التي تُستخدم على نطاق واسع في الذكاء الاصطناعي لمعالجة تدفقات متعددة من المعلومات في الوقت نفسه، لكنها تتطلب قدرًا كبيرًا من الذاكرة.