تضيف شركة كوالكوم المزيد إلى مجموعتها من حيل الذكاء الاصطناعي على الهاتف التي يتم تسهيلها بواسطة سلسلة سنابدراجون للهواتف التي تعمل بنظام أندرويد، حيث عرضت شركة تصنيع الرقائق ، خلال فعاليات المعرض العالمي للهواتف المحمولة، بعض قدرات الذكاء الاصطناعي الرائعة لجهاز Snapdragon 8 Gen 3، مثل تحرير الوسائط بالصوت، وإنشاء الصور على الجهاز باستخدام Stable Diffusion، ومساعد افتراضي أكثر ذكاءً مبني على نماذج لغات كبيرة من أمثال ميتا.
وتضيف الشركة المزيد من القوة إلى قوى الذكاء الاصطناعي الخارقة، الأول هو القدرة على تشغيل مساعد اللغة والرؤية الكبير (LLaVa) على الهاتف الذكي، فكر في الأمر باعتباره برنامج دردشة آلي مثل ChatGPT تم منحه قدرات Google Lens، على هذا النحو لا يمكن لحل كوالكوم قبول إدخال النص فحسب، بل يمكنه أيضًا معالجة الصور.
على سبيل المثال، يمكنك دفع صورة تصور لوحة تشاركوتيري وطرح الأسئلة بناءً عليها، سيخبرك مساعد الذكاء الاصطناعي، الذي يعتمد على نموذج كبير متعدد الوسائط (LMM) يمكنه معالجة أكثر من 7 مليارات معلمة، بجميع أنواع الفواكه والجبن واللحوم والمكسرات.
ويمكنه أيضًا التعامل مع استفسارات المتابعة، حتى تتمكن من إجراء محادثة متدفقة ذهابًا وإيابًا، كما اكتسبت أمثال ChatGPT أيضًا إمكانات متعددة الوسائط، مما يعني أن أداة OpenAI يمكنها أيضًا معالجة مدخلات الصور، ومع ذلك هناك فرق حاسم.
لا تزال منتجات مثل ChatGPT وCopilot مرتبطة بشكل كبير بالبنية السحابية، مما يعني أنه يتم التعامل مع بياناتك على خوادم بعيدة، لكنتتجه شركة كوالكوم نحو المعالجة على الجهاز، ليرتبط كل شيء يحدث على الهاتف، مما يعني أن العملية برمتها أسرع، وهناك خطر ضئيل لانتهاك الخصوصية.
تقول كوالكوم: "يعمل LMM هذا بمعدل رمزي سريع الاستجابة على الجهاز، مما يؤدي إلى تحسين الخصوصية والموثوقية والتخصيص والتكاليف"، حيث لم يتم تأكيد رسميًا بعد ما إذا كان المساعد الافتراضي المستند إلى LLaVa الذي وعدت به شركة كوالكوم سيصل كتطبيق مستقل أو ما إذا كان سيحمل رسومًا.
الإعلان التالي من كوالكوم يغوص في المجال الإبداعي لتوليد الصور ومعالجتها، حيث قامت الشركة في وقت سابق، بتجربة أسرع جيل لتحويل النص إلى صورة في العالم على الهاتف باستخدام تقنية Stable Diffusion، واليوم تقدم الشركة لمحة أولى عن توليد الصور المستندة إلى LoRA.
تتخذ LoRA أسلوبًا مختلفًا في توليد الصور عن أدوات الذكاء الاصطناعي التوليدية العادية مثل Dall E LoRA، اختصار لـ Low-Rank Adaptation، هي تقنية طورتها شركة مايكروسوفت، حيث يمكن أن يكون التدريب على نموذج الذكاء الاصطناعي باهظ التكلفة للغاية، ويتطلب زمن انتقال عاليًا، ويتطلب جهدًا خاصًا من منظور الأجهزة.
ما يفعله LoRA هو أنه يقلل بشكل كبير من وزن النموذج، وهو هدف يتم تحقيقه من خلال التركيز فقط على أجزاء محددة من النموذج وتقليل عدد المعلمات لأغراض التدريب.
ومن خلال القيام بذلك، تنخفض متطلبات الذاكرة، وتصبح العملية أسرع، وينخفض أيضًا مقدار الوقت والجهد اللازمين لتكييف نموذج تحويل النص إلى صورة بشكل كبير.
بمرور الوقت، تم تطبيق تقنية التقطير LoRA على نموذج Stable Diffusion لإنشاء صور من المطالبات النصية، ونظرًا للمكاسب التي تحققت في الكفاءة وسهولة التكيف مع النماذج المستندة إلى LoRA، يُنظر إليه على أنه طريق مصمم خصيصًا للهواتف الذكية.
من المؤكد أن شركة كوالكوم تعتقد ذلك، وحتى منافستها MediaTek تبنت نفس الحل لحيل الذكاء الاصطناعي التوليدية على شريحة Dimensity 9300 الرائدة.
تعرض شركة كوالكوم أيضًا بعض حيل الذكاء الاصطناعي الأخرى في MWC 2024، والتي ظهر بعضها بالفعل على Samsung Galaxy S24 Urtla.
من بينها القدرة على توسيع لوحة الصورة باستخدام تعبئة الذكاء الاصطناعي التوليدية وإنشاء الفيديو المدعوم بالذكاء الاصطناعي والأخير طموح للغاية، خاصة بعد رؤية ما أنجزته OpenAI مع Sora، حيث سيكون من المثير للاهتمام أن نرى كيف تمكنت شركة كوالكوم من نقلها إلى الهواتف الذكية.