قدمت شركة ميتا نموذجها الجديد "3D Gen" وهو "خط أنابيب سريع ومتطور" لتحويل النص المدخل إلى صور ثلاثية الأبعاد عالية الدقة يمكنها إخراجها في أقل من دقيقة، وكانت أحدث محاولات شركة ميتا في مجال توليد الصور بالذكاء الاصطناعي سريعة.
علاوة على ذلك، يقال إن النظام قادر على تطبيق أنسجة وجلود جديدة على الصور المولدة أو التي ينتجها الفنانون باستخدام المطالبات النصية.
وفقا لدراسة حديثة أجراها فريق البحث في Meta Gen AI، فإن 3D Gen لن يقدم فقط كلًا من القوام عالي الدقة وخرائط المواد، ولكنه سيدعم أيضًا قدرات العرض القائم على المادية (PBR) وإعادة التشكيل التوليدي.
ويقدر الفريق متوسط وقت الاستدلال بنحو 30 ثانية فقط في إنشاء النموذج ثلاثي الأبعاد الأولي باستخدام نموذج Meta 3D Asset Gen ، ويمكن للمستخدمين بعد ذلك الرجوع وتحسين نسيج النموذج الحالي أو استبداله بشيء جديد، وكلاهما عبر مطالبات نصية، باستخدام Meta 3D TextureGen، وهي العملية التي تتوقع الشركة ألا تستغرق أكثر من 20 ثانية إضافية من وقت الاستدلال.
وكتب الفريق في ملخص دراسته: "من خلال الجمع بين نقاط القوة، يمثل 3DGen الأشياء ثلاثية الأبعاد في وقت واحد بثلاث طرق: في مساحة العرض، وفي المساحة الحجمية، وفي مساحة الأشعة فوق البنفسجية (أو الملمس) ، ووضع فريق Meta نموذج 3D Gen الخاص به مقابل عدد من خطوط الأساس الصناعية وقارنه على طول مجموعة متنوعة من العوامل بما في ذلك دقة النص الموجه والجودة المرئية وتفاصيل الملمس والتحف.
ومن خلال الجمع بين وظائف كلا النموذجين، تم اختيار الصور التي تم إنشاؤها بواسطة العملية المتكاملة المكونة من مرحلتين من قبل المعلقين على نظيراتها ذات المرحلة الواحدة بنسبة 68٪ من الوقت.
من المؤكد أن النظام الذي تمت مناقشته في هذه الورقة لا يزال قيد التطوير وغير جاهز للاستخدام العام بعد، ولكن التقدم التقني الذي توضحه هذه الدراسة قد يثبت أنه تحويلي عبر عدد من التخصصات الإبداعية، من تأثيرات الألعاب والأفلام إلى تطبيقات الواقع الافتراضي.
إن منح المستخدمين القدرة ليس فقط على إنشاء محتوى ثلاثي الأبعاد بل وتحريره، بسرعة وبشكل حدسي، من شأنه أن يخفض بشكل كبير من الحواجز التي تحول دون دخول مثل هذه الأنشطة، وليس من الصعب أن نتخيل التأثير الذي قد يخلفه هذا على تطوير الألعاب على سبيل المثال.