المصوّر الروبوت يمكنه التقاط الصورة التي تدور في ذهنك
الشكل التالي يوفّر PhotoBot اقتراحًا لصورة مرجعية بناءً على ملاحظة المشهد واستفسار نصي بلغة المستخدم (الزاوية العلوية اليسرى). يقوم المستخدم باتخاذ وضعية تتطابق مع وضعية الشخص في الصورة المرجعية (الزاوية العلوية اليمنى)، ويقوم PhotoBot بضبط الكاميرا وفقًا لذلك لالتقاط الترتيب والتكوين الخاص بالصورة المرجعية بدقة (الزاوية السفلية اليسرى). تُظهر اللوحة السفلية اليمنى صورة غير معدلة تم إنتاجها بواسطة PhotoBot.
المصورون الذين يعانون من صعوبة إيجاد الزاوية المثالية لالتقاط صورة جماعية غالبًا ما يعتمدون على حوامل ثلاثية الأرجل غير عملية، أو مؤقتات ذاتية مزعجة، أو، في أسوأ الحالات، يفوتون الظهور في الصورة لأنهم يلتقطونها بأنفسهم. هنا يأتي دور PhotoBot، المصور الآلي الذي يعد بالتقاط صورة جيدة، ويمكنه تلقي التعليمات واستخدام صورة مرجعية لتحديد التكوين المثالي.
“نقدّم PhotoBot، إطار عمل للتصوير الفوتوغرافي المؤتمت بالكامل يعتمد على التفاعل بين توجيهات اللغة البشرية عالية المستوى والمصور الآلي”، يوضح الباحثون. “نقترح نقل اقتراحات التصوير إلى المستخدم من خلال صور مرجعية يتم اختيارها من معرض مُنسّق بعناية.”
“لقد كان مشروعًا ممتعًا للغاية”، يقول أوليفر ليمويو، المشارك في إنشاء PhotoBot والباحث، لمجلة Spectrum IEEE. عمل ليمويو على المشروع أثناء عمله في شركة سامسونج جنبًا إلى جنب مع المدير والمؤلف المشارك جيمي لي.
كان ليمويو ولي يعملان بالفعل على روبوت قادر على التقاط الصور عندما شاهدا تحدي Getty Image خلال إغلاقات COVID. كان هذا التحدي يطلب من الأشخاص إعادة إنشاء أعمالهم الفنية المفضلة باستخدام ثلاثة أشياء فقط عثروا عليها في منازلهم. كانت طريقة ممتعة ومثيرة لإبقاء الناس منشغلين ومتصلين خلال الأيام الأولى من الجائحة.
إلى جانب تحقيق هذا الهدف المهم، ألهمت مسابقة Getty ليمويو ولي لجعل PhotoBot يستخدم صورة مرجعية لإرشاد لقطات الصور الجديدة التي يلتقطها. كما تشرح Spectrum IEEE، كان عليهم بعد ذلك ابتكار طريقة لتمكين PhotoBot من مطابقة الصورة المرجعية بدقة وضبط كاميراته لتتناسب مع تلك الصورة.
في الصورة أعلاه مخطط نظام PhotoBot. يتم عرض الوحدتين الرئيسيتين: اقتراح الصورة المرجعية وضبط عرض الكاميرا. بناءً على المشهد الملاحظ واستفسار المستخدم، يقوم PhotoBot باقتراح صورة مرجعية للمستخدم وضبط الكاميرا لالتقاط صورة بتنسيق وتركيب مشابه للصورة المرجعية.
إنه أكثر تطورًا في الممارسة مما يبدو في البداية. يتطلب PhotoBot وصفًا مكتوبًا لنوع الصورة التي يريد الشخص الحصول عليها. ثم يقوم الروبوت بتحليل بيئته، محددًا الأشخاص والأشياء ضمن نطاق رؤيته. يقوم PhotoBot بالبحث عن صور مشابهة مع تسميات مطابقة داخل قاعدة بياناته. بعد ذلك، يقوم نموذج اللغة الكبير (LLM) بمقارنة النص المدخل من المستخدم مع الأشياء المحيطة بـ PhotoBot وقاعدة بياناته لاختيار الصور المرجعية المناسبة.
المصوّر الروبوت يمكنه التقاط الصورة التي تدور في ذهنك
افترض أن شخصًا يريد صورة له وهو يبدو سعيدًا ومحاطًا ببعض الأصدقاء، وبعض الزهور في مزهرية، وربما بيتزا. سيقوم PhotoBot برؤية كل هذا، ووضع تسميات للأشخاص والأشياء، ثم البحث عن صور داخل قاعدة بياناته تتطابق بأفضل شكل مع الصورة المطلوبة وتحتوي على مكونات مشابهة.
بمجرد أن يختار المستخدم الصورة المرجعية التي تعجبه، سيقوم PhotoBot بضبط كاميراته لتتناسب مع التكوين والزوايا الخاصة بالصورة المرجعية. ومع ذلك، فإن هذه الوضعية أكثر تعقيدًا مما تبدو عليه في البداية، حيث يعمل PhotoBot ضمن فضاء ثلاثي الأبعاد لكنه يحاول مطابقة مظهر صورة مرجعية ثنائية الأبعاد.
أما بالنسبة لمدى كفاءة PhotoBot في عمله، فلا ينبغي للمصورين القلق بشأن واقع المصور الآلي القادم. ومع ذلك، قام PhotoBot بعمل جيد، حيث تفوق على ثمانية أشخاص في حوالي ثلثي الحالات من حيث تفضيل المستجيبين.
الشكل السابق صور عينة للمستخدمين الذين يظهرون مشاعر متنوعة. النصوص المدخلة من المستخدم، من الأعلى إلى الأسفل، هي: مفاجأ، واثق، مذنب، واثق، سعيد، واثق. الأعمدة، من اليسار إلى اليمين، هي: الوضع الإبداعي الخاص بالمستخدم؛ المستخدم يقلد الصورة المرجعية باستخدام كاميرا ثابتة؛ الصورة الملتقطة بواسطة نظام PhotoBot؛ والصورة المرجعية المقترحة بواسطة PhotoBot. الخلفية المربعة تشير إلى القص. الخلفية السوداء تشير إلى إضافة حشو للصورة المرجعية لتسهيل حل PnP. يقوم PhotoBot تلقائيًا بقص الصور التي يلتقطها لتتناسب مع قالب الصورة.
المصوّر الروبوت يمكنه التقاط الصورة التي تدور في ذهنك
لي وبقية الفريق لم يعدوا يعملون على PhotoBot، لكن المبدع يعتقد أن عملهم قد يكون له تأثيرات محتملة على تطبيقات مساعد التصوير في الهواتف الذكية.
“تخيل أنه على هاتفك مباشرة، ترى صورة مرجعية. لكنك أيضًا ترى ما يراه الهاتف الآن، مما يتيح لك التحرك والتنسيق”، كما يعلق لي.