جوجل تطلق DiffusionGemma للذكاء الاصطناعي: 1000 رمز في الثانية ومجاني بالكامل

صقر العملات11 يونيو، 2026آخر تحديث: 11 يونيو، 2026

4 دقائق

جوجل تطلق DiffusionGemma للذكاء الاصطناعي: 1000 رمز في الثانية ومجاني بالكامل

أعلنت جوجل اليوم عن إطلاق “ديفيوجن جيما” (DiffusionGemma)، وهو نموذج ذكاء اصطناعي مفتوح المصدر يولد النصوص بنفس طريقة عمل مولدات الصور: يبدأ من ضوضاء عشوائية، ثم يحسنها تدريجياً حتى تصبح ذات معنى. هذا النموذج قادر على إنتاج 1000 رمز (token) في الثانية على شريحة NVIDIA H100. (الرموز هي الوحدات الأساسية للمعلومات التي يعالجها نموذج الذكاء الاصطناعي). هذا يعني أنه أسرع بأربع مرات من نموذج Gemma العادي. وهو أيضاً مجاني تماماً، بترخيص Apache 2.0، مع أوزان النموذج متاحة على موقع Hugging Face.

محتويات المقالة

ولكن، كالعادة، هناك تفاصيل صغيرة يجب الانتباه إليها. وفقاً لإعلان جوجل، يصل النموذج إلى “أكثر من 700 رمز في الثانية على بطاقة NVIDIA GeForce RTX 5090.” كما أنه أقل جودة في المخرجات مقارنة بنموذج Gemma 4 العادي. جوجل نفسها تقول ذلك. هذا نموذج للسرعة، وليس لتحسين الجودة.

ماذا يعني هذا فعلياً؟

كل نموذج لغوي كبير (LLM) استخدمته من قبل يعمل مثل الآلة الكاتبة. ينتج رمزاً واحداً في كل مرة، وكل كلمة تعتمد على الكلمة التي قبلها. هذه هي طريقة عمل البنى التراجعية (autoregressive).

نموذج “ديفيوجن جيما” لا يفعل ذلك. بدلاً من إنتاج الرموز تباعاً، يبدأ بأجزاء مشوشة من النص ويعمل عليها بالتوازي. وفقاً لدليل المطور من جوجل، فإنه “يبدأ بلوحة من رموز العناصر النائبة العشوائية” ثم يقوم بتثبيت الرموز الموثوقة بشكل متكرر حتى يصبح النص الكامل واضحاً. ينتج 256 رمزاً في كل تمريرة للأمام. هذا يبقي وحدة معالجة الرسومات (GPU) مشغولة باستمرار.

النتيجة هي “انتباه ثنائي الاتجاه” (bidirectional attention) – حيث يمكن لكل رمز أن يرى جميع الرموز الأخرى أثناء توليدها، وهو أمر مستحيل في النماذج التراجعية (لأنها لا تستطيع رؤية المستقبل). هذا يجعله ممتازاً في المهام التي تعتمد فيها نهاية الإجابة على بدايتها: مثل ملء الأكواد البرمجية، والإخراج المنظم، والمشكلات المعقدة ذات القيود. قامت جوجل بضبط نسخة منه لحل ألعاب السودوكو كعرض توضيحي. النموذج الأساسي فشل في حل أي لغز تقريباً (0%). أما النسخة المعدلة فحلت 80% من الألغاز.

ما هو الجديد حقاً؟

تقنية نشر النص (text diffusion) كانت مشروعاً بحثياً لسنوات. نماذج مثل MDLM وSEDD وLLaDA وDream أثبتت جدوى الفكرة على نطاق صغير، لكنها بقيت كإثباتات للمفهوم فقط. شركة Inception Labs أطلقت نموذج Mercury 2 في فبراير 2026 كأول نموذج استدلال انتشار تجاري، مدعية سرعة تفوق المنافسين بخمس مرات.

لكن لم يكن أي من هذه النماذج مفتوح الوزن، ولم يحصل على دعم فوري في أدوات مثل vLLM وHugging Face Transformers وUnsloth. “ديفيوجن جيما” هو أول إصدار مفتوح كبير من مختبر من المستوى الأول.

هناك أيضاً مفارقة تاريخية تستحق الذكر. مولدات الصور بدأت كنماذج انتشار (ومن هنا جاء اسم Stable Diffusion) وهي الآن تتحول نحو البنى التراجعية للحصول على جودة أفضل. أما نماذج اللغة فبدأت تراجعية وتجرب الآن الانتشار من أجل السرعة.

لماذا تشغيله صعب… في الوقت الحالي

لتشغيل “ديفيوجن جيما” بكفاءة، تحتاج إلى “مخطط” (drafter) – وهو وحدة خفيفة تقترح كتل من الرموز بالتوازي، ثم يتحقق النموذج الرئيسي منها في تمريرة واحدة. هذا يسمى “فك التشفير التخميني” (speculative decoding). إطار DFlash، الذي نُشر في بداية 2026، يستخدم نموذج انتشار صغير كمخطط، مما يحقق تسريعاً يصل إلى 6 أضعاف في بعض المهام. هذا المحرك هو ما يجعل هذا النوع من النماذج عملياً.

المشكلة: “ديفيوجن جيما” يحتاج إلى مخطط معين للتشغيل المحلي عبر إطار MLX الخاص بأبل لأجهزة Apple Silicon. هذه الوحدة غير موجودة في أي إصدار عام من mlx-lm أو في أي طلب سحب مفتوح، أو في بيئة LM Studio المضمنة.

حاولنا تشغيل “ديفيوجن جيما” مع Hermes عبر NVIDIA NIM. النموذج تم تحميله، ولكن ظهر خطأ: “فشل تهيئة الوكيل: نموذج google/diffusiongemma-26b-a4b-it لديه نافذة سياق من 8,192 رمزاً، وهو أقل من الحد الأدنى 64,000 المطلوب من قبل وكيل Hermes.”

للتوضيح: نافذة السياق الفعلية لـ”ديفيوجن جيما” هي 256 ألف رمز. الرقم 8,192 كان خطأ من Nvidia في الإعدادات الافتراضية، وليس حداً للنموذج نفسه. من الناحية العملية، يتطلب تهيئته بشكل صحيح للاستخدام كوكيل عملاً يدوياً لم يتقنه معظم المستخدمين العاديين بعد. السرعة المتوازية لا تعني شيئاً إذا لم يتمكن الوكيل من الإقلاع. نأمل أن ينتج المجتمع أدوات أفضل في الأيام القليلة القادمة لتشغيل هذه النماذج.

لمن هذا النموذج حقاً؟

للمطورين الذين يمتلكون بطاقات NVIDIA RTX 4090 أو 5090 والذين يبنون أدوات فورية – مثل المحررات المضمنة، والإكمال التلقائي، وملء الأكواد، والتوليد المنظم. هذا هو الجمهور المستهدف. كما غطته Decrypt في مايو، تدفع جوجل بقوة نحو جعل الاستدلال المحلي أسرع بدون أجهزة جديدة.

للباحثين، الانتباه ثنائي الاتجاه يفتح مجالاً لا تستطيع النماذج التراجعية الوصول إليه – مثل تسلسلات البروتينات، والرسوم البيانية الرياضية، وأي شيء يعتمد فيه الموضع N على الموضع N+50. هذا ليس شيئاً صغيراً.

أطلقت جوجل نموذج Gemma 4 تحت ترخيص Apache 2.0 في أبريل، و”ديفيوجن جيما” يواصل هذه الاستراتيجية. هناك بالفعل طلب سحب (PR) أولي لمشروع llama.cpp اعتباراً من اليوم. عندما تكتمل الأدوات، سيصل هذا النموذج إلى جمهور أوسع بكثير. على جهاز ببطاقة رسوميات منفصلة قوية، سرعة 1000 رمز في الثانية حقيقية وملموسة.

الأسئلة الشائعة (FAQ)

س: ما هو الفرق الرئيسي بين “ديفيوجن جيما” والنماذج العادية مثل GPT أو Gemini؟
ج: النماذج العادية تعمل مثل الآلة الكاتبة، وتنتج كلمة بكلمة. أما “ديفيوجن جيما” فيبدأ بفوضى عشوائية من الرموز ثم يحسنها بالكامل دفعة واحدة. هذا يجعله أسرع بكثير (أربع أضعاف على الأقل) ومناسباً للمهام التي تحتاج لإنتاج كميات كبيرة من النص بسرعة.
س: هل “ديفيوجن جيما” مجاني ويمكنني تنزيله واستخدامه؟
ج: نعم، النموذج مجاني تماماً بترخيص Apache 2.0، وأوزانه متاحة على Hugging Face. لكن يجب أن تعلم أنه يتطلب بطاقة رسوميات قوية مثل NVIDIA RTX 4090 أو 5090 لتشغيله بكفاءة، وقد تحتاج لبعض الخبرة التقنية لتهيئته بشكل صحيح حالياً.
س: هل جودة النص الذي ينتجه “ديفيوجن جيما” جيدة مثل النماذج الأخرى؟
ج: جوجل نفسها تقول أن هذا النموذج مخصص للسرعة وليس لجودة النص. جودة إخراجه أقل قليلاً من نموذج Gemma 4 العادي. لكنه ممتاز في مهام محددة مثل ملء الأكواد الناقصة أو حل المشكلات المنطقية (مثل السودوكو) بعد تدريبه على ذلك.