ميتافيرس

هل يمكن لذكاء “مينيماكس-إم1” الصيني أن يتفوق على منافسيه الأمريكيين؟ اختبرنا ذلك بنفسك!

يولد نموذج الذكاء الاصطناعي الجديد من الصين ضجة كبيرة – لما يفعله بشكل جيد، وما لا يفعله، وما قد يعنيه لتوازن القوى العالمية في مجال الذكاء الاصطناعي.

ما هو نموذج MiniMax-M1؟

أطلقته شركة ناشئة صينية تحمل نفس الاسم، يقدم MiniMax-M1 نفسه كأقوى نموذج مفتوح المصدر للاستدلال حتى الآن. بقدرة على معالجة مليون وحدة سياقية، يتفاخر بأرقام تضاهي نموذج Gemini 2.5 Pro المغلق من جوجل – ومع ذلك فهو متاح مجانًا. نظريًا، هذا يجعله منافسًا محتملًا لـ ChatGPT من OpenAI وClaude من Anthropic وغيرها من نماذج الذكاء الاصطناعي الأمريكية الرائدة.

نعم – كما أنه يتفوق على نموذج DeepSeek R1 الصيني في بعض الجوانب.

هل يمكن لذكاء "مينيماكس-إم1" الصيني أن يتفوق على منافسيه الأمريكيين؟ اختبرنا ذلك بنفسك!

لماذا يهم هذا النموذج؟

يمثل MiniMax-M1 شيئًا جديدًا حقًا: نموذج استدلال عالي الأداء ومفتوح المصدر غير مرتبط بوادي السيليكون. هذا تحول يستحق المتابعة.

إنه لا يهزم عمالقة الذكاء الاصطناعي الأمريكيين بعد، ولن يتسبب في ذعر وول ستريت – لكنه لا يحتاج إلى ذلك. وجوده يتحدى فكرة أن الذكاء الاصطناعي عالي المستوى يجب أن يكون باهظ الثمن أو غربيًا أو مغلق المصدر. بالنسبة للمطورين والمنظمات خارج النظام البيئي الأمريكي، يقدم MiniMax بديلًا عمليًا (وقابلاً للتعديل) قد يصبح أكثر قوة من خلال ضبط المجتمع.

تدعي MiniMax أن نموذجها يتفوق على DeepSeek R1 (أفضل نموذج استدلال مفتوح المصدر حتى الآن) عبر معايير متعددة بينما يحتاج فقط إلى 534,700 دولار من الموارد الحاسوبية لمرحلة التعلم المعزز بالكامل – خذ ذلك، OpenAI.

ومع ذلك، تظهر لوحة المتصدرين في LLM Arena صورة مختلفة قليلاً. تحتل MiniMax-M1 وDeepSeek حاليًا المركز الثاني عشر جنبًا إلى جنب مع Claude 4 Sonnet وQwen3-235b. حيث يظهر كل نموذج أداءً أفضل أو أسوأ من الآخر حسب المهمة.

استغرق التدريب 512 وحدة معالجة رسومية من نوع H800 لمدة ثلاثة أسابيع، وهو ما وصفته الشركة بأنه “أقل بعشر مرات مما كان متوقعًا في البداية”.

لم تتوقف MiniMax عند نماذج اللغة خلال أسبوع الإعلان. أطلقت الشركة أيضًا Hailuo 2، الذي يحتل الآن المرتبة الثانية كأفضل مولد فيديو لمهام تحويل الصور إلى فيديو، وفقًا لتقييمات Artificial Analysis Arena الذاتية. يتخلف النموذج فقط عن Seedance بينما يتفوق على لاعبين معروفين مثل Veo وKling.

اختبار MiniMax-M1

اختبرنا MiniMax-M1 عبر سيناريوهات متعددة لمعرفة كيف تصمد هذه الادعاءات عمليًا. إليك ما وجدناه.

الكتابة الإبداعية

ينتج النموذج نصوصًا قصصية مقبولة لكنه لن يفوز بأي جوائز أدبية. عند الطلب بكتابة قصة عن المسافر عبر الزمن خوسيه لانز الذي انتقل من عام 2150 إلى عام 1000، أنتج نثرًا متوسطًا مع سمات واضحة للذكاء الاصطناعي – إيقاع سريع، انتقالات ميكانيكية، ومشكلات هيكلية تكشف على الفور عن أصوله الاصطناعية.

افتقر السرد إلى العمق والهيكل القصصي المناسب. أدى حشر الكثير من عناصر الحبكة في مساحة صغيرة إلى جودة متهورة تشبه الملخص أكثر من القصة الفعلية. من الواضح أن هذه ليست قوة النموذج، ويجب على الكتاب الإبداعيين الذين يبحثون عن مساعد ذكاء اصطناعي تخفيف توقعاتهم.

تطور الشخصيات بالكاد موجود خارج الواصفات السطحية. التزم النموذج بمتطلبات المطالبة، لكنه لم يبذل جهدًا في التفاصيل التي تبني الانغماس في القصة. على سبيل المثال، تخطى أي خصوصية ثقافية لمواجهات “شيخ القرية الحكيم” العامة التي يمكن أن تنتمي إلى أي إعداد خيالي.

تتفاقم المشكلات الهيكلية طوال القصة. بعد تحديد الكوارث المناخية كالصراع المركزي، تتعجل القصة في محاولات خوسيه الفعلية لتغيير التاريخ في فقرة واحدة، مع ذكر غامض لـ “استخدام التكنولوجيا المتقدمة للتأثير على الأحداث الرئيسية” دون عرض أي منها. يدفن الإدراك المهم – أن تغيير الماضي يخلق المستقبل الذي يحاول منعه – تحت أوصاف مبالغ فيها للحالة العاطفية لخوسيه وتأملات مجردة عن طبيعة الزمن.

بالنسبة لهواة قصص الذكاء الاصطناعي، فإن إيقاع النص واضح أنه من الذكاء الاصطناعي. يحافظ كل فقرة على نفس الطول والإيقاع تقريبًا، مما يخلق تجربة قراءة رتيبة لا يمكن لأي كاتب بشري إنتاجها بشكل طبيعي. جمل مثل “كان الانتقال لحظيًا، لكنه شعر كأنه أبدية” و”كان العالم كما كان، لكنه كان مختلفًا” تكرر نفس البنية المتناقضة دون إضافة معنى.

يفهم النموذج المهمة بوضوح لكنه ينفذها بكل إبداع طالب يحاول ملء عدد الكلمات، وينتج نصًا يحقق المطالبة تقنيًا بينما يفتقد كل فرصة لرواية قصة حقيقية.

Claude من Anthropic لا يزال الأفضل في هذه المهمة.

استرجاع المعلومات

واجه MiniMax-M1 عقبة غير متوقعة أثناء اختبار السياق الطويل. على الرغم من الإعلان عن نافذة سياق بمليون وحدة، يرفض النموذج المطالبات التي تتجاوز 500,000 حرف، ويعرض تحذيرًا حول حدود المطالبة بدلاً من محاولة معالجة المدخلات.

قد لا تكون هذه مشكلة في النموذج، ولكنها قيود منصة. لكنها لا تزال شيء يجب مراعاته. قد يكون ذلك لتجنب انهيار النموذج في منتصف المحادثة.

ضمن حدوده التشغيلية، كان أداء MiniMax-M1 قويًا. استرجع النموذج معلومات محددة من وثيقة بحجم 85,000 حرف دون أي مشكلات عبر عدة اختبارات في كل من الوضع العادي ووضع التفكير. قمنا بتحميل النص الكامل لـ “قاموس الشيطان” لأمبروز بيرس، وأدرجنا العبارة “TheDecryptdudes يقرأون Emerge News” في السطر 1985، و”اسم أمي هو كارمن دياز جوليندانو” في السطر 4333 (تم اختيارهما عشوائيًا)، وكان النموذج قادرًا على استرداد المعلومات بدقة.

ومع ذلك، لم يتمكن من قبول مطالبنا الاختبارية البالغة 300,000 وحدة – وهي قدرة تقتصر حاليًا على Gemini وClaude 4.

لذا سيثبت نجاحه في استرجاع المعلومات حتى في التكرارات الطويلة. ومع ذلك، لن يدعم المطالبات الطويلة جدًا – وهو أمر محبط، ولكنه أيضًا حد يصعب الوصول إليه في ظروف الاستخدام العادية.

البرمجة

كشفت مهام البرمجة عن نقاط القوة الحقيقية لـ MiniMax-M1. طبق النموذج مهارات الاستدلال بفعالية على توليد التعليمات البرمجية، مطابقًا جودة مخرجات Claude بينما تفوق بوضوح على DeepSeek – على الأقل في اختبارنا.

بالنسبة لنموذج مجاني، يقترب الأداء من المستويات المتطورة المخصصة عادةً للخدمات المدفوعة مثل ChatGPT أو Claude 4.

كلفناه بإنشاء لعبة تسلل أساسية حيث يحاول روبوت العثور على صديقته الحاسوبية لتحقيق الذكاء العام الاصطناعي، بينما تجوب مجموعة من الصحفيين المنطقة لمنع ذلك – وحماية وظائفهم.

كانت النتائج جيدة جدًا، حتى أنها تفوقت على النماذج الأخرى باستخدام إبداعها لتحسين التجربة. نفذ النموذج نظام رادار لتحسين الانغماس، وأضاف مؤشرات بصرية لخطوات القدم (وصوتها)، وعرض مجالات رؤية الصحفيين، وأنشأ تأثيرات مسار – تفاصيل عززت اللعب إلى ما هو أبعد من المتطلبات الأساسية.

اعتمدت واجهة المستخدم جماليات مستقبلية، على الرغم من بقاء العناصر الفردية أساسية دون مطالبات إضافية.

تميزت نسخة Claude من نفس اللعبة ببصريات أكثر أناقة ونظام صعوبة متفوق. ومع ذلك، افتقرت إلى وظيفة الرادار واعتمدت على صحفيين ثابتين بأنماط دورية بدلاً من حركات الصحفيين العشوائية لـ MiniMax.

أظهر كل نموذج نقاط قوة مميزة، مع أولوية MiniMax لميكانيكا اللعب على البصريات.

من المهم ملاحظة أن التجربة مع MiniMax تدهورت بشكل ملحوظ من خلال التكرارات المتعددة – وهي مشكلة شائعة في نماذج الاستدلال تصبح واضحة هنا بشكل خاص. كلما كررت، زاد الوقت اللازم لإنتاج نتيجة. اعتقدنا أحيانًا أن الكمبيوتر قد تجمد، لكنه كان مجرد الذكاء الاصطناعي يفكر.

الأخلاقيات والرقابة والموضوعات الحساسة

يستخدم النموذج رقابة شديدة، ويرفض تمامًا عند مواجهة طلبات مشكوك فيها.

عندما لا يرفض على الفور، يحاول تقديم ردود “آمنة” تنتج أحيانًا نتائج سخيفة.

أظهر اختبار واحد هذه العيوب بوضوح: عند طلب نصيحة حول إغواء زوجة أفضل صديق، اقترح النموذج إخبار صديقنا بنوايانا مع زوجته – والتي ربما تكون، بلا شك، أسوأ نصيحة يمكن أن ينتجها، ويمكن القول إنها ضارة. لا تخبر صديقك أنك تريد إغواء زوجته إلا إذا كنت تريد أن تفقد صداقتك، فرصك الرومانسية غير الأخلاقية، وربما بعض أسنانك أيضًا.

كشفت اختبارات التحيز السياسي أنماطًا مثيرة للاهتمام. يناقش النموذج ميدان تيانانمن بانفتاح ويعترف بالوضع المتنازع عليه لتايوان مع الإشارة إلى المطالبات الإقليمية للصين. كما يتحدث عن الصين وقادتها، ومزايا وعيوب الأنظمة السياسية المختلفة، وانتقادات الحزب الشيوعي الصيني، إلخ. – ومع ذلك، فإن الردود محايدة جدًا.

عند الطلب بكتابة أغانٍ ساخرة عن شي جين بينج ودونالد ترامب، استجاب لكلا الطلبين لكنه أظهر اختلافات دقيقة – متجهًا نحو موضوعات الوحدة السياسية الصينية عند السخرية من شي جين بينج، بينما ركز على سمات شخصية ترامب عند السخرية منه.

كل ردوده متاحة في مستودع GitHub الخاص بنا.

بشكل عام، يوجد تحيز لكنه أقل وضوحًا من الميل المؤيد لأمريكا في Claude/ChatGPT، أو التوجه المؤيد للصين في DeepSeek/Qwen، على سبيل المثال. بالطبع، سيتمكن المطورون من ضبط هذا النموذج لإضافة أكبر قدر من الرقابة أو الحرية أو التحيز كما يريدون – كما حدث مع DeepSeek-R1، الذي تم ضبطه بواسطة Perplexity AI لتقديم تحيز أكثر تأييدًا لأمريكا في ردوده.

العمل الوكيل وتصفح الويب

قدرات تصفح الويب في MiniMax-M1 ميزة جيدة لأولئك الذين يستخدمونه عبر واجهة الدردشة الرسمية. ومع ذلك، لا يمكن دمجها مع قدرات التفكير، مما يعيق إمكاناته بشدة.

عند تكليفه بإنشاء خطة سفر لفنزويلا لمدة أسبوعين بميزانية 3000 دولار، قيم النموذج الخيارات بشكل منهجي، وحسن تكاليف النقل، واختار أماكن الإقامة المناسبة، وقدم جدولًا زمنيًا شاملًا. ومع ذلك، لم تكن التكاليف، التي يجب تحديثها في الوقت الفعلي، مبنية على معلومات حقيقية.

ينتج Claude نتائج أعلى جودة، لكنه يتقاضى أيضًا مقابل هذه الميزة.

لمهام أكثر تخصصًا، تقدم MiniMax علامة تبويب وكلاء مخصصة بقدرات مماثلة لـ Manus – وهي وظائف لم يضاهها ChatGPT وClaude. توفر المنصة 1000 رصيد ذكاء اصطناعي مجاني لاختبار هؤلاء الوكلاء، على الرغم من أن هذا يكفي فقط لمهام الاختبار الخفيفة.

حاولنا إنشاء وكيل مخصص لتحسين تخطيط السفر – والذي كان سيحل مشكلة عدم وجود قدرات بحث الويب في المطالبة الأخيرة – لكننا استنفدنا أرصدتنا قبل الانتهاء. يظهر نظام الوكلاء إمكانات هائلة، لكنه يتطلب أرصدة مدفوعة للاستخدام الجاد.

الاستدلال غير الرياضي

يظهر النموذج ميلًا غريبًا إلى المبالغة في التفكير، أحيانًا لضرره الخاص. أظهر اختبار واحد وصوله إلى الإجابة الصحيحة، ثم تراجع عنها من خلال التحقق المفرط وسيناريوهات افتراضية.

أدخلنا القصة الغامضة المعتادة من مجموعة بيانات BIG-bench التي نستخدمها عادةً، وكانت النتيجة النهائية غير صحيحة بسبب تفكير النموذج المفرط في المشكلة، وتقييم احتمالات لم تذكر حتى في القصة. استغرق سلسلة التفكير بأكملها أكثر من 700 ثانية – رقم قياسي لهذا النوع من الردود “البسيطة”.

هذا النهج الشامل ليس معيبًا بطبيعته، لكنه يخلق أوقات انتظار طويلة بينما يشاهد المستخدمون النموذج يعمل من خلال سلسلة تفكيره. كميزة إيجابية، على عكس ChatGPT وClaude، يعرض MiniMax عملية تفكيره بشفافية – متبعًا نهج DeepSeek. تساعد الشفافية في تصحيح الأخطاء ومراقبة الجودة، مما يسمح للمستخدمين بتحديد المكان الذي انحرف فيه المنطق.

الخلاصة

MiniMax-M1 ليس مثاليًا، لكنه يقدم قدرات جيدة جدًا لنموذج مجاني، ويقدم منافسة حقيقية للخدمات المدفوعة مثل Claude في مجالات محددة. سيجد المبرمجون مساعدًا كفؤًا ينافس الخيارات المميزة، بينما يحصل أولئك الذين يحتاجون إلى معالجة سياق طويل أو وكلاء مدعومين بالويب على ميزات مقفولة عادةً خلف جدران الدفع.

يجب أن يبحث الكتاب الإبداعيون في مكان آخر – ينتج النموذج نثرًا وظيفيًا لكنه غير ملهم. يعد الطبيعة مفتوحة المصدر بفوائد كبيرة للمطورين لإنشاء إصدارات مخصصة وتعديلات ونشر فعال من حيث التكلفة مستحيل مع منصات مغلقة مثل ChatGPT أو Claude.

هذا نموذج سيكون أكثر فائدة للمستخدمين الذين يحتاجون إلى مهام استدلال – لكنه لا يزال بديلًا مجانيًا رائعًا لأولئك الذين

رائد التداول

متداول محترف ذو رؤية استراتيجية، يقدم استراتيجيات مبتكرة لتحقيق النجاح في الأسواق المالية.
زر الذهاب إلى الأعلى