تقنية الكشف عن الأشياء
اكتشاف الأشياء هي تقنية كمبيوتر تتعلق برؤية الكمبيوتر ومعالجة الصور التي تتعامل مع اكتشاف حالات الأشياء الدلالية لفئة معينة في الصور ومقاطع الفيديو الرقمية. الهدف من اكتشاف الأشياء هو اكتشاف وتحديد موقع الأشياء المهمة في صورة أو مقطع فيديو، وتصنيفها إلى فئات مختلفة. عادة ما يتم تدريب نماذج الكشف عن الأشياء باستخدام التعلم العميق والشبكات العصبية. هناك العديد من الأساليب والأدوات المتاحة لاكتشاف الأشياء، بما في ذلك Azure Cognitive Services. يستخدم اكتشاف الأشياء على نطاق واسع في العديد من التطبيقات، مثل السيارات ذاتية القيادة وأنظمة المراقبة والروبوتات.
س1: ما الفرق بين الكشف عن الأشياء وتصنيف الصور؟
ج1: يتمثل الاختلاف الرئيسي بين اكتشاف الأشياء وتصنيف الصور في أن اكتشاف الأشياء لا يحدد الكائنات الموجودة في الصورة فحسب، بل يحدد موقعها أيضًا عن طريق رسم المربعات المحيطة حولها. من ناحية أخرى، يهدف تصنيف الصور إلى الإجابة عن الأشياء الموجود في الصورة دون تحديد موقعه. يتضمن اكتشاف الأشياء تحديد موضع وحدود الأشياء في الصورة وتصنيفها إلى فئات مختلفة. يتم إجراء اكتشاف الأشياء بمقياس أكثر دقة من تصنيف الصور. عادة ما يتم تدريب نماذج الكشف عن الأشياء باستخدام التعلم العميق والشبكات العصبية. يحتوي اكتشاف الأشياء على العديد من التطبيقات في مهام رؤية الكمبيوتر مثل التعليق التوضيحي للصور، وعد المركبات، والتعرف على النشاط ، واكتشاف الوجه ، والتجزئة المشتركة لكائن الفيديو.
س2: ما هي بعض التطبيقات الشائعة لاكتشاف الأشياء؟
ج2: الكشف عن الأشياء له العديد من التطبيقات في مختلف الصناعات. في الرعاية الصحية، يمكن استخدام اكتشاف الأشياء لتحديد وتحديد الأورام والأعضاء والتركيبات الأخرى في الصور الطبية. في البيع بالتجزئة، يمكن استخدام اكتشاف الأشياء لتحسين إدارة المخزون وأمن المتجر وتجربة العميل من خلال تتبع سلوك العميل وتفضيلاته. يستخدم اكتشاف الأشياء أيضًا في المركبات ذاتية القيادة لاكتشاف المشاة والعقبات، والتعرف على إشارات المرور، واكتشاف الممرات. في مجال الروبوتات، يتم استخدام اكتشاف الأشياء للتعرف على الأشياء ، والإمساك بها، والتلاعب بها. تشمل التطبيقات الأخرى لاكتشاف الأشياء أنظمة المراقبة، واكتشاف الوجه، والتعرف على النشاط، والتعليق التوضيحي للصور.
س3: كيف يختلف اكتشاف الأشياء عن تصنيف الصور؟
ج3: كشف الأشياء وتصنيف الصور هما مهمتان مختلفتان للرؤية الحاسوبية. يهدف تصنيف الصورة إلى تحديد الأشياء في صورة ما وتعيينه إلى فئة معينة، بينما يهدف اكتشاف الأشياء إلى تحديد موقع الأشياء ذات الأهمية وتصنيفها في صورة أو مقطع فيديو. يقوم اكتشاف الأشياء بإجراء تصنيف للصور بمقياس أكثر دقة ويحدد موقع الكيانات ويصنفها داخل الصور. يعد تصنيف الصور مهمة أبسط، بينما يعد اكتشاف الأشياء أكثر تعقيدًا ويتطلب تقنيات أكثر تقدمًا مثل التعلم العميق والشبكات العصبية. في تصنيف الصورة، يكون الإخراج عبارة عن تسمية واحدة تمثل الشيء في الصورة، بينما في اكتشاف الأشياء، يكون الإخراج عبارة عن مجموعة من المربعات المحيطة التي تحدد موقع الأشياء والتسميات المقابلة لها.
س4: ما هي بعض خوارزميات اكتشاف الأشياء الشائعة؟
ج4: تتوفر العديد من خوارزميات اكتشاف الأشياء الشائعة، بما في ذلك YOLOv4 و SSD والتعلم العميق المتبقي للتعرف على الصور. تعتمد هذه الخوارزميات على التعلم العميق والشبكات العصبية، والتي تستخدم عادة لاكتشاف الأشياء. يُعرف YOLOv4 بالسرعة والدقة المثلى في اكتشاف الأشياء، في حين أن SSD عبارة عن كاشف متعدد الطلقة واحد أسرع بكثير من الطرق الأخرى. التعلم المتبقي العميق للتعرف على الصور هو أساس لتقديم الطلبات إلى مسابقات ILSVRC & COCO 2015 ، حيث فازت بالمركز الأول في مهام اكتشاف ImageNet ، وتوطين ImageNet ، واكتشاف COCO ، وتجزئة COCO. تم استخدام هذه الخوارزميات في العديد من مهام الرؤية الحاسوبية مثل التعليق التوضيحي للصورة، وعد المركبات، والتعرف على النشاط، واكتشاف الوجه، والتجزئة المشتركة لأشياء الفيديو.
س5: ما هي أكثر نماذج اكتشاف الأشياء شيوعًا؟
ج5: هناك العديد من نماذج اكتشاف الأشياء الشائعة الاستخدام، بما في ذلك YOLO (أنت تنظر مرة واحدة فقط) و SSD (كاشف اللقطة الواحدة) و R-CNN (شبكة عصبية تلافيفيه قائمة على المنطقة). YOLO هي خوارزمية شائعة لاكتشاف الأشياء في الوقت الفعلي يمكنها اكتشاف الأشياء متعددة في صورة أو مقطع فيديو. SSD هو كاشف من مرحلة واحدة يمكنه التنبؤ بفئات متعددة وهو أسرع بكثير من الطرق الأخرى. تستخدم R-CNN طريقة بحث انتقائية لتحديد مناطق الاهتمام (RoIs) في صور الإدخال وتستخدم شبكة تلافيفيه عميقة (DCN) لتصنيف الأشياء. تتضمن نماذج الكشف عن الأشياء الأخرى الشائعة الاستخدام CenterNet و Deep Residual Learning للتعرف على الصور. يتم تدريب هذه النماذج باستخدام التعلم العميق والشبكات العصبية وتستخدم على نطاق واسع في مهام رؤية الكمبيوتر مثل التعليق التوضيحي للصور وعد المركبات والتعرف على النشاط واكتشاف الوجه والتجزئة المشتركة لأشياء الفيديو.
س6: ما هي مزايا نماذج اكتشاف الأشياء ذات المرحلة الواحدة؟
ج6: تتميز نماذج اكتشاف الأشياء ذات المرحلة الواحدة بالعديد من المزايا مقارنة بالنماذج ذات المرحلتين. تعد أجهزة الكشف أحادية المرحلة أسرع وأبسط من أجهزة الكشف ذات المرحلتين لأنها تصنف وتراجع مربعات التثبيت المرشحة بشكل مباشر دون عملية استخراج ROI. كما أنها قابلة للتدريب من طرف إلى طرف، مما يعني أنه يمكن تدريب النموذج بأكمله في خطوة واحدة، مما يجعل عملية التدريب أسرع وأكثر كفاءة. تعد أجهزة الكشف أحادية المرحلة أكثر ملاءمة لتطبيقات الوقت الفعلي لأنها تستطيع معالجة الصور ومقاطع الفيديو في الوقت الفعلي، مما يجعلها مثالية لتطبيقات مثل القيادة الذاتية والروبوتات وأنظمة المراقبة. تعد أجهزة الكشف أحادية المرحلة أيضًا أكثر دقة من أجهزة الكشف ذات المرحلتين في اكتشاف الأجسام الصغيرة والأشياء ذات التباين المنخفض. تتضمن أمثلة أجهزة الكشف ذات المرحلة الواحدة YOLO و SSD ، والتي تستخدم على نطاق واسع في العديد من مهام رؤية الكمبيوتر مثل التعليق التوضيحي للصور، وعد المركبات، والتعرف على النشاط، واكتشاف الوجه، والتجزئة المشتركة لأشياء الفيديو.
س7: ما هي أكثر خوارزميات اكتشاف الأشياء على مرحلة واحدة شيوعًا؟
ج7: تتضمن أكثر خوارزميات اكتشاف الأشياء ذات المرحلة الواحدة شيوعًا YOLO (أنت تنظر مرة واحدة فقط) و SSD (كاشف اللقطة الواحدة) و CornerNet. YOLO هي خوارزمية لاكتشاف الأشياء في الوقت الفعلي يمكنها اكتشاف أشياء متعددة في صورة أو مقطع فيديو ، بينما SSD عبارة عن كاشف من مرحلة واحدة يمكنه التنبؤ بفئات متعددة وهو أسرع بكثير من الطرق الأخرى. CornerNet هو كاشف حديث من مرحلة واحدة يستخدم نهجًا قائمًا على نقطة المفاتيح لاكتشاف الأشياء. تتضمن الأمثلة الأخرى لأجهزة الكشف أحادية المرحلة CenterNet و RetinaNet. تعتمد هذه الخوارزميات على التعلم العميق والشبكات العصبية وتستخدم على نطاق واسع في العديد من مهام رؤية الكمبيوتر مثل التعليق التوضيحي للصور وعد المركبات والتعرف على النشاط واكتشاف الوجه وتجزئة كائن الفيديو.
س8: ما هو الفرق بين نماذج اكتشاف الأشياء على مرحلتين ومرحلتين؟
ج8: يكمن الاختلاف الرئيسي بين نماذج اكتشاف الأشياء ذات المرحلة الواحدة والمرحلة الثانية في الطريقة التي تولد بها مقترحات المنطقة. تقوم أجهزة الكشف ذات المرحلة الواحدة بتصنيف الأشياء وانحدار الصندوق المحيط مباشرةً دون استخدام مقترحات المنطقة المُنشأة مسبقًا ، بينما تقوم أجهزة الكشف ذات المرحلتين بإنشاء مقترحات المنطقة قبل تصنيف الأشياء وتراجعها. تستخدم أجهزة الكشف ذات المرحلتين طريقة بحث انتقائية لتحديد مناطق الاهتمام (RoIs) في صور الإدخال واستخدام شبكة تلافيفية عميقة (DCN) لتصنيف الأشياء. من ناحية أخرى ، تقوم أجهزة الكشف ذات المرحلة الواحدة بتصنيف وتراجع مربعات التثبيت المرشحة دون عملية استخراج ROI. لا يمكن تدريب الكاشفات ذات المرحلتين عادةً من طرف إلى طرف لأن الاقتصاص عملية غير قابلة للتفاضل، في حين أن أجهزة الكشف ذات المرحلة الواحدة قابلة للتدريب من طرف إلى طرف [3]. الكاشفات ذات المرحلتين أكثر دقة بشكل عام ولكنها أبطأ من أجهزة الكشف أحادية المرحلة. تتضمن أمثلة الكواشف أحادية المرحلة YOLO و SSD ، بينما تتضمن أمثلة الكاشفات ذات المرحلتين R-CNN و Faster R-CNN و Mask R-CNN.
س9: كيف تختلف خوارزميات المرحلة الواحدة عن الخوارزميات ذات المرحلتين؟
ج9: تختلف خوارزميات اكتشاف الأشياء ذات المرحلة الواحدة والمرحلة الثانية في الطريقة التي تكتشف بها الأشياء في الصورة. تقوم أجهزة الكشف ذات المرحلة الواحدة بتصنيف الأشياء وانحدار الصندوق المحيط مباشرةً دون استخدام مقترحات المنطقة المُنشأة مسبقًا، بينما تقوم أجهزة الكشف ذات المرحلتين بإنشاء مقترحات المنطقة قبل تصنيف الأشياء وتراجعها. تستخدم أجهزة الكشف ذات المرحلتين طريقة بحث انتقائية لتحديد مناطق الاهتمام (RoIs) في صور الإدخال واستخدام شبكة تلافيفية عميقة (DCN) لتصنيف الأشياء. من ناحية أخرى، تقوم أجهزة الكشف ذات المرحلة الواحدة بتصنيف وتراجع مربعات التثبيت المرشحة دون عملية استخراج ROI. عادةً ما لا تكون أجهزة الكشف ذات المرحلتين قابلة للتدريب من طرف إلى طرف لأن الاقتصاص عملية غير قابلة للتفاضل، في حين أن أجهزة الكشف ذات المرحلة الواحدة قابلة للتدريب من طرف إلى طرف. الكاشفات ذات المرحلتين أكثر دقة بشكل عام ولكنها أبطأ من أجهزة الكشف أحادية المرحلة.
س10: ما هي أكثر خوارزميات اكتشاف الأشياء شيوعًا على مرحلتين؟
ج10: أكثر خوارزميات اكتشاف الأشياء شيوعًا على مرحلتين تتضمن Faster R-CNN و R-FCN و FPN و Cascade R-CNN. أسرع R-CNN هو كاشف ذو مرحلتين يستخدم على نطاق واسع ويستخدم شبكة اقتراح المنطقة (RPN) لإنشاء مقترحات المنطقة قبل تصنيف الأشياء وتراجعها. R-FCN هي شبكة تلافيفية بالكامل تعتمد على المنطقة وتستخدم خرائط درجات حساسة للموقع لتحسين دقة اكتشاف الأشياء. FPN (شبكة هرم الميزات) هي شبكة لاستخراج الميزات تستخدم هرمًا من خرائط الميزات متعددة المقاييس لاكتشاف الأشياء بمقاييس ودقة مختلفة. Cascade R-CNN عبارة عن كاشف متعدد المراحل يستخدم سلسلة من R-CNNs لتحسين دقة اكتشاف الأشياء. تعتمد هذه الخوارزميات على التعلم العميق والشبكات العصبية وتستخدم على نطاق واسع في العديد من مهام رؤية الكمبيوتر مثل التعليق التوضيحي للصور وعد المركبات والتعرف على النشاط واكتشاف الوجه وتجزئة كائن الفيديو.