• امروز : پنج شنبه - ۳۰ اسفند - ۱۴۰۳
  • برابر با : Thursday - 20 March - 2025
5

چشم‌های مصنوعی که می‌بینند و می‌فهمند؛ کاربرد شبکه‌های عصبی در تحلیل تصاویر خبری

  • کد خبر : 13717
  • 26 آبان 1403 - 15:40
چشم‌های مصنوعی که می‌بینند و می‌فهمند؛ کاربرد شبکه‌های عصبی در تحلیل تصاویر خبری

تحلیل تصاویر خبری

تحلیل تصاویر خبری / من علی شاکر هستم؛ روزنامه‌نگار و پژوهشگر هوش مصنوعی که می‌خواهم در این سلسله‌ یادداشت‌ها در درجۀ نخست دربارۀ اصول کاربرد هوش مصنوعی در رسانه بیشتر بدانم و بخوانم و بعد آن را در اختیار شما بگذارم.

در یادداشت شمارۀ ۷ از «قلم تا الگوریتم» با مثال‌هایی از دنیای روزنامه‌نگاری، منطق علمی ریاضی و فیزیک پشت رویکرد یادگیری عمیق را تشریح کردیم و نشان دادیم که چه‌طور این سیستم از طریق دریافت کلان‌داده روی لایه‌های پنهان عصبی در بستر نورون‌های سیلیکونی محاسبات ریاضی انجام می‌دهد.

در بخش هشتم «از قلم تا الگوریتم» به بینایی ماشین و کاربرد آن در صنعت خبر می‌پردازیم. تصور کنید این عامل‌های هوشمند بتوانند تصاویر خبری را مانند ما خبرنگارها با دقت بررسی کنند و الگوها و اطلاعات پنهان در آن را کشف کند. این رؤیا با کمک هوش مصنوعی و شبکه‌های عصبی به واقعیت پیوسته است.

هشدار: بدون خواندن بخش‌های پیشین، خواندن این بخش فقط وقت تلف کردن‌ است.

  1. مقدمه؛ رسانه در عصر هوش مصنوعی
  2. چه شد به ماشین‌ها اجازه دادیم تصمیم بگیرند؟
  3. ظهور هوش مصنوعی نمادین: راه‌حل‌های نوین برای مسائل پیچیده
  4. سیستم‌های خبره چه‌طور محتوای خبری را ارتقا می‌دهند؟
  5. از بحران تا بهبود: نقش هوش مصنوعی در مدیریت روابط‌عمومی
  6. ماشین‌های چگونه مانند ما یاد می‌گیرند؟ نگاهی به رویکرد ارتباط‌گرا
  7. انتقال تجربۀ روزنامه‌نگارانه به شبکه‌های عصبی؛ چگونه ماشین‌ها احساسات را محاسبه می‌کنند؟

در بخش ششم و هفتم کم و بیش از شبکه‌های عصبی و یادگیری عمیق گفتیم. برخی از موفق‌ترین شبکه‌های عمیق، ساختاری دارند که از بخش‌هایی از مغز تقلید می‌کنند و بر اساس کشفیات علوم اعصاب مدل‌سازی شده‌اند. از سال ۱۹۵۸ تا اواخر دهۀ ۷۰، عصب‌شناسان دیوید اچ. هوبل و تورستن ویسل با یکدیگر روی بررسی ویژگی‌های میدان‌های گیرنده نورون‌ها در قشر بینایی کار کردند. آنان دو نوع اصلی از سلول‌ها را در قشر بینایی اولیه کشف کردند.

نوع اول، سلول‌های ساده؛ این نوع‌ سلول‌ها به نوارهای نور یا تاریکی که در مکان‌های فضایی خاص قرار می‌گیرند، واکنش نشان می‌دهند (ایجاد منحنی تنظیم جهت‌گیری). یعنی اگر خطی در جای خاصی از تصویر باشد، این سلول‌ها فعال می‌شوند.
نوع دوم، سلول‌های پیچیده‌اند که پروفایل‌های واکنشی کمتر سختگیرانه‌ای‌ دارند. یعنی این سلول‌ها حساسیت کمتری دارند و به‌جای خطوط ساده، به الگوهای پیچیده‌تری از نور و تاریکی پاسخ می‌دهند. جالب اینجاست که این سلول‌ها از اطلاعاتی که سلول‌های ساده به آن‌ها می‌دهند، استفاده می‌کنند تا بتوانند الگوهای پیچیده‌تر را تشخیص دهند. آنان نتیجه گرفتند که سلول‌های پیچیده با تجمیع ورودی‌ها از چندین سلول ساده، این عدم‌تغییرپذیری را به دست می‌آورند[۱].

دانشمندان از این کشف برای ساخت شبکه‌های عصبی استفاده کردند. آنان لایه‌هایی در شبکه‌های عصبی طراحی کردند که شبیه به عملکرد سلول‌های ساده و پیچیدۀ مغز عمل می‌کنند. شبکه‌های عصبی با این لایه‌ها می‌تواند ویژگی‌های پیچیده‌تری را در داده‌ها تشخیص دهند و به نتایج بهتری برسند.

این دو ویژگی (انتخاب‌پذیری به ویژگی‌های خاص[۲] و افزایش تغییرناپذیری فضایی[۳] از طریق اتصالات پیشرو) اساس سیستم‌های بینایی مصنوعی را تشکیل می‌دهند.

انتخاب‌پذیری به ویژگی‌های خاص یعنی هر نورون یا گروهی از نورون‌ها به یک ویژگی خاص در ورودی، پاسخ می‌دهند. مثلاً یک نورون ممکن است به خطوط عمودی، یک نورون دیگر به خطوط افقی و نورونی دیگر به گوشه‌ها حساس باشد. در شبکه‌های عصبی، لایه‌های اولیه معمولاً نورون‌هایی دارند که به ویژگی‌های ساده مانند لبه‌ها، گوشه‌ها و رنگ‌ها حساس هستند. با پیشرفت در شبکه، نورون‌ها به ویژگی‌های پیچیده‌تر مانند چهره‌ها، اشیاء و حتی مفاهیم انتزاعی پاسخ می‌دهند. شبکه با توانایی انتخاب‌پذیری، الگوهای پیچیده را در داده‌ها تشخیص می‌دهد.

همچنین «افزایش تغییرناپذیری فضایی از طریق اتصالات پیشرو» به این معناست که با افزایش سطح پردازش، نورون‌ها به تغییرات کوچک در موقعیت فضایی ویژگی‌ها، کمتر حساس می‌شوند. به عبارت دیگر، اگر یک ویژگی در تصویر کمی جابه‌جا شود، نورون همچنان به آن پاسخ می‌دهد.

 

 

در شبکه‌های عصبی، این ویژگی با استفاده از لایه‌های هم‌گرایی[۴] پیاده‌سازی می‌شود. این لایه‌ها در شبکه‌های عصبی، مشابه عملکرد سلول‌های ساده و پیچیده در قشر بینایی هستند. لایه‌های اولیه به ویژگی‌های ساده حساس‌اند و لایه‌های بعدی با ترکیب اطلاعات از لایه‌های پیشین، ویژگی‌های پیچیده‌تری را تشخیص می‌دهند.

این لایه‌ها به شبکه اجازه می‌دهند تا ویژگی‌ها را در مکان‌های مختلف تصویر تشخیص دهد، حتی اگر کمی جابه‌جا شده باشند. این ویژگی بسیار مهم است، زیرا در دنیای واقعی، اشیاء ممکن است در مکان‌های مختلفی از تصویر قرار بگیرند.

با استفاده از یادگیری عمیق، شبکه‌های عصبی می‌توانند این ویژگی‌ها را خودکار یاد بگیرند. یعنی شبکه با دیدن تعداد زیادی تصویر، به تدریج یاد می‌گیرد که کدام نورون‌ها به کدام ویژگی‌ها حساس باشند.

پژوهش‌های آنان پایه‌های علوم اعصاب بینایی را بنا نهاد و دیدگاه‌های اساسی در مورد پردازش اطلاعات در سیستم بینایی ارائه داد. کار آنان در سال ۱۹۸۱ جایزۀ نوبل فیزیولوژی یا پزشکی را برایشان به ارمغان آورد.

تشخیص خودکار چهره‌ها و اشیاء در تصاویر خبری

این دستاورد پزشکی اکنون در تمامی عرصه‌ها کاربرد دارد. از آنجایی که مباحث کمی پیچیده شد، بیایید مفاهیمی را که تا اینجا خواندیم، در دنیای روزنامه‌نگاری و رسانه مرور کنیم.

یکی از کاربردهای بسیار مهم این ویژگی‌ها در روزنامه‌نگاری، تشخیص خودکار چهره‌ها و اشیاء در تصاویر خبری است. فرض کنید یک خبرگزاری روزانه هزاران تصویر دریافت می‌کند. برای یک روزنامه‌نگار، جست‌وجوی دستی یک چهرۀ خاص یا یک شیء مشخص در این حجم از تصاویر بسیار زمان‌بر و خسته‌کننده است.

پس اگر بخواهیم این وظیفه‌ را برعهدۀ یک عامل هوشمند بگذاریم باید این مراحل را طی کنیم:

  • آموزش مدل:  ابتدا یک مدل یادگیری عمیق با استفاده از داده‌های بسیار زیادی از تصاویر حاوی چهره‌های افراد مشهور، لوگوهای شرکت‌ها، یا اشیاء خاص (مانند خودروهای خاص یا ساختمان‌های معروف) آموزش می‌دهیم. نیاز به توضیح نیست که این بخش پیچیدگی‌های زیادی دارد که در بخش ششم کم‌وبیش منطق آن را توضیح دادم. این مدل به تدریج یاد می‌گیرد که چگونه چهره‌ها و اشیاء مختلف را در تصاویر تشخیص دهد.
  • تشخیص خودکار: پس از آموزش، این مدل می‌تواند روی تصاویر جدید کارش را شروع کند و چهره‌ها و اشیاء مورد نظر را تصاویر را خودکار می‌شناسد.

کاربردهای تشخیص خودکار چهره در رسانه

به طبع، وقتی چنین عامل هوشمندی به یک خبرگزاری بزرگ فارسی زبان مثل ایرنا اضافه شود، می‌تواند از این قابلیت برای افزایش سرعت و دقت در کار روزانۀ خبرگزاری استفاده کند.

  • جست‌وجوی سریع تصاویر: حالا روزنامه‌نگاران می‌توانند به سادگی نام یک فرد یا شیء را وارد کند تا مدل تمام تصاویری را که حاوی آن فرد یا شیء هستند نشان دهد.
  • ایجاد پایگاه دادۀ تصویری سازمان‌یافته: این سیستم می‌تواند به طور خودکار تصاویر را بر اساس چهره‌ها، اشیاء و مکان‌های موجود در آن‌ طبقه‌بندی کند و یک پایگاه دادۀ تصویری سازمان‌یافته ایجاد کند.
  • تشخیص اخبار جعلی: داشتن چنین دستیار هوشمندی به ما کمک می‌کند چهره‌ها و چیزهای موجود در تصاویر با آرشیو پایگاه‌های شناخته شده و معتبر تصاویر مقایسه کنیم و دریابیم که آیا این عکس دستکاری شده و جعلی است یا نه.
  • تحلیل احساسات: با استفاده از مدل‌های پیشرفته‌تر، می‌توان احساسات افراد موجود در تصاویر را نیز تشخیص داد و به‌این‌ترتیب، به درک بهتر رویدادهای خبری کمک کرد.
  • تشخیص خودکار متن از تصاویر: ماشین می‌تواند اسناد را اسکن و طبقه‌بندی کند و بخواند. حالا رسانه‌ها می‌توانند بخش مهمی از آرشیو خود را به ماشین بخورانند و این امر در شکل‌گیری الگوهای تازۀ روایی بسیار اهمیت دارد. مهمتر اینکه سرعت کار را بالا می‌برد و دسترسی روزنامه‌نگاران به شواهد یا فکت‌ها را آسان‌تر می‌کند.
  • تشخیص خودکار الگوهای خبری: این ویژگی می‌تواند برای شناسایی الگوهای خبری خاص، مانند افزایش ناگهانی تعداد تصاویر حاوی یک موضوع خاص، استفاده شود. یعنی ماشین به ما یادآوری می‌کند که الگوهای خبری دارد به چه سمتی می‌رود و تحلیل همین موضوع نیز وظیفۀ روزنامه‌نگار است.

 

بحث پیشینۀ رویداد در این میان بسیار اهمیت پیدا می‌کند و خبرنگاران در می‌یابند که هیچ اتفاقی بدون پیشینه نیست و باید روند تمامی قصه‌های واقعی را بررسی کرد، نه اتفاقی که هم‌اکنون افتاده است. از طرف دیگر، مراقبت همیشگی از نیفتادن در دام اخبار جعلی اعتبار رسانۀ ما را بیشتر می‌کند و می‌توانیم نشانه‌های آن را در تحلیل احساسات مرتبط با اخبار خویش ببینیم.

حالا روزنامه‌نگاران می‌توانند با سرعت و دقت بیشتری به اطلاعات موردنیاز خود دسترسی یابند. همچنین بسیاری از کارهای تکراری و زمان‌بر (کارِ گِل) روزنامه‌نگارانه خودکار می‌شود و وقت بیشتری برای خلاقیت باقی می‌ماند. کاهش کارهای تکراری باعث می‌شود روزنامه‌‌نگاران بتوانند کتاب بیشتری بخوانند، فیلم ببینند و در جامعه گشت بزنند و احوال واقعی آدم‌ها را جویا شوند و آن را وارد کار خویش کنند.

درحالی‌که دستیار هوشمند ما کارهای روزانۀ تحریریه را انجام می‌دهد، ما می‌توانیم روی پرونده‌های پیگیرانه (Investigative) تمرکز کنیم. همزمان از هوش مصنوعی برای تحلیل کلان‌داده‌های شبکه‌های اجتماعی بهره می‌بریم و درحالی‌که نبض جامعه را زیر نگاه واقع‌بینانۀ خود داریم، نبض دنیای شبکه‌ها را هم می‌گیریم و می‌توانیم تحلیل‌ها و تفسیرهای جامع‌تری در اختیار مخاطبان خود قرار دهیم. به‌این‌ترتیب، به کشف خبرهای جدید می‌رویم ولی از دو سیستم تحلیلی (مغز خود روزنامه‌نگار و تحلیل‌های ماشینی) کمک می‌گیریم و می‌توانیم الگوهای تازه‌ای برای روایت‌ها پیدا کنیم.

به طور خلاصه، انتخاب‌پذیری به ویژگی‌های خاص و افزایش تغییرناپذیری فضایی، دو ویژگی کلیدی در هوش مصنوعی هستند که می‌توانند به طور گسترده‌ای در روزنامه‌نگاری مورد استفاده قرار بگیرند و به روزنامه‌نگاران کمک کنند تا کار خود را سریع‌تر، دقیق‌تر و مؤثرتر انجام دهند.

با الهام از کشفیات هوبل و ویسل، مهندس ژاپنی «کونی‌هیکو فوکوشیما[۵]» در دهۀ ۱۹۷۰ یکی از اولین شبکه‌های عصبی عمیق به نام «نئوکوگنیشن[۶]» را توسعه داد که پس از مقداری آموزش توانست اعداد دست‌نویس را به‌خوبی تشخیص دهد. اگرچه این دستگاه در تشخیص محتوای بصری پیچیده مشکل داشت، اما الهام‌بخش مهمی برای یکی از پرکاربردترین و تأثیرگذارترین شبکه‌های عصبی عمیق، یعنی شبکه‌های عصبی پیچشی[۷] شد.

در رابطه با شبکه‌های عصبی پیچشی، در یادداشت بعدی به طور مفصل صحبت می‌کنیم.

شبکه‌های عصبی مصنوعی به‌عنوان چشم‌های تازۀ خبرنگاران، نه‌تنها در تشخیص تصاویر بلکه در تحلیل محتوا، پیش‌بینی رویدادها و حتی خلق داستان‌های جدید نقش خواهند داشت. این فناوری نه‌تنها سرعت و دقت خبرنگاری را افزایش می‌دهد، بلکه با آن می‌توانیم به لایه‌های پنهان اخبار دست یابیم و بینش‌های عمیق‌تری از جهان اطراف خود به دست بیاوریم. بااین‌حال، در این مسیر اخلاق و مسئولیت‌پذیری را نباید فراموش کنیم تا از سوءاستفاده از این فناوری جلوگیری کنیم.


منبع خبر:
مصور
/ چشم‌های مصنوعی که می‌بینند و می‌فهمند؛ کاربرد شبکه‌های عصبی در تحلیل تصاویر خبری

تمامی حقوق گردآوری و تالیف خبر متعلق به ناشر اصلی آن که در لینک فوق به آن اشاره شده است می باشد. در صورت نیاز به ارسال جوابیه یا توضیح تکمیلی برای مطلب منتشر شده صرفا از طریق مرجع اصلی خبر اقدام نمایید.

لینک کوتاه : https://ertebatatoresaneha.ir/?p=13717

ثبت دیدگاه

مجموع دیدگاهها : 0در انتظار بررسی : 0انتشار یافته : ۰
قوانین ارسال دیدگاه
  • دیدگاه های ارسال شده توسط شما، پس از تایید توسط تیم مدیریت منتشر خواهد شد.
  • پیام هایی که حاوی تهمت یا افترا باشد منتشر نخواهد شد.
  • پیام هایی که به غیر از زبان فارسی یا غیر مرتبط باشد منتشر نخواهد شد.