كشفت شركة ديب سيك الصينية عن نموذج ذكاء اصطناعي متعدد الوسائط قادر على ضغط النصوص الطويلة والمعقدة باستخدام الرؤية البصرية كوسيلة ضغط للمعلومات، ما يتيح للنماذج اللغوية معالجة كمٍّ ضخم من البيانات دون ارتفاع كبير في التكلفة الحوسبية.
يحمل النموذج الجديد اسم DeepSeek-OCR – ومتاح عبر منصات المطورين مثل Hugging Face وGitHub.
يعتمد نموذج "ديب سيك" الجديد على تقنية مبتكرة تستخدم "المشفّر البصري" لضغط النصوص قبل تمريرها إلى نموذج اللغة الكبير (LLM)، بحسب تقرير نشره موقع "scmp" واطلعت عليه "العربية Business".
وقالت الشركة، ومقرها هانغتشو، في بيان على مدونتها، إن هذا النهج يسمح بتقليص عدد وحدات النص (Tokens) بمعدل يتراوح بين 7 إلى 20 مرة، مع الحفاظ على مستوى عالٍ من الدقة في الفهم والمعالجة.
وأضافت "ديب سيك" أن هذه التقنية تمثل اتجاهًا واعدًا لمعالجة واحدة من أبرز التحديات في الذكاء الاصطناعي، وهي تعامل النماذج مع السياقات الطويلة بكفاءة عالية وبتكلفة منخفضة.
ويتألف النموذج من مكونين رئيسيين:
DeepEncoder: المحرك الأساسي الذي يحقق معدلات ضغط مرتفعة مع الحفاظ على جودة البيانات.
DeepSeek3B-MoE-A570M: وحدة فك الترميز التي تعتمد على بنية Mixture-of-Experts، وهي شبكة تضم خبراء فرعيين متخصصين في معالجة أجزاء مختلفة من البيانات.
ووفقاً لنتائج الاختبارات، حقق النموذج دقة وصلت إلى 97% عند نسبة ضغط تقل عن عشرة أضعاف، وحتى عند زيادة الضغط إلى 20 ضعفاً حافظ على 60% من الدقة، ما يُظهر قدرته على الاحتفاظ بالمعلومات رغم مستويات الضغط العالية.
ولا يقتصر دور النموذج على التعرف على الصور والنصوص فحسب، بل يمكنه أيضاً تحليل الجداول والمعادلات والرسومات الهندسية، ما يجعله مناسباً للاستخدام في مجالات المالية والعلوم.
وفي اختبار الأداء OmniDocBench، تفوق DeepSeek-OCR على نماذج كبرى مثل GOT-OCR 2.0 وMinerU 2.0 باستخدام عدد أقل بكثير من الرموز.
وقالت الشركة إن النظام قادر على توليد أكثر من 200 ألف صفحة من بيانات التدريب يومياً باستخدام بطاقة رسوميات واحدة فقط من نوع "إنفيديا" A100-40G.
ويُتوقع أن يمهد النموذج الجديد الطريق نحو هندسة ذكاء اصطناعي ذات سياق غير محدود، توازن بين الحفاظ على المعلومات الحديثة وتقليل استهلاك الموارد للبيانات الأقدم، في خطوة قد تعيد تعريف كفاءة النماذج اللغوية العملاقة في المستقبل.