تحلیل تصاویر خبری / من علی شاکر هستم؛ روزنامهنگار و پژوهشگر هوش مصنوعی که میخواهم در این سلسله یادداشتها در درجۀ نخست دربارۀ اصول کاربرد هوش مصنوعی در رسانه بیشتر بدانم و بخوانم و بعد آن را در اختیار شما بگذارم.
در یادداشت شمارۀ ۷ از «قلم تا الگوریتم» با مثالهایی از دنیای روزنامهنگاری، منطق علمی ریاضی و فیزیک پشت رویکرد یادگیری عمیق را تشریح کردیم و نشان دادیم که چهطور این سیستم از طریق دریافت کلانداده روی لایههای پنهان عصبی در بستر نورونهای سیلیکونی محاسبات ریاضی انجام میدهد.
در بخش هشتم «از قلم تا الگوریتم» به بینایی ماشین و کاربرد آن در صنعت خبر میپردازیم. تصور کنید این عاملهای هوشمند بتوانند تصاویر خبری را مانند ما خبرنگارها با دقت بررسی کنند و الگوها و اطلاعات پنهان در آن را کشف کند. این رؤیا با کمک هوش مصنوعی و شبکههای عصبی به واقعیت پیوسته است.
هشدار: بدون خواندن بخشهای پیشین، خواندن این بخش فقط وقت تلف کردن است.
- مقدمه؛ رسانه در عصر هوش مصنوعی
- چه شد به ماشینها اجازه دادیم تصمیم بگیرند؟
- ظهور هوش مصنوعی نمادین: راهحلهای نوین برای مسائل پیچیده
- سیستمهای خبره چهطور محتوای خبری را ارتقا میدهند؟
- از بحران تا بهبود: نقش هوش مصنوعی در مدیریت روابطعمومی
- ماشینهای چگونه مانند ما یاد میگیرند؟ نگاهی به رویکرد ارتباطگرا
- انتقال تجربۀ روزنامهنگارانه به شبکههای عصبی؛ چگونه ماشینها احساسات را محاسبه میکنند؟
در بخش ششم و هفتم کم و بیش از شبکههای عصبی و یادگیری عمیق گفتیم. برخی از موفقترین شبکههای عمیق، ساختاری دارند که از بخشهایی از مغز تقلید میکنند و بر اساس کشفیات علوم اعصاب مدلسازی شدهاند. از سال ۱۹۵۸ تا اواخر دهۀ ۷۰، عصبشناسان دیوید اچ. هوبل و تورستن ویسل با یکدیگر روی بررسی ویژگیهای میدانهای گیرنده نورونها در قشر بینایی کار کردند. آنان دو نوع اصلی از سلولها را در قشر بینایی اولیه کشف کردند.
نوع اول، سلولهای ساده؛ این نوع سلولها به نوارهای نور یا تاریکی که در مکانهای فضایی خاص قرار میگیرند، واکنش نشان میدهند (ایجاد منحنی تنظیم جهتگیری). یعنی اگر خطی در جای خاصی از تصویر باشد، این سلولها فعال میشوند.
نوع دوم، سلولهای پیچیدهاند که پروفایلهای واکنشی کمتر سختگیرانهای دارند. یعنی این سلولها حساسیت کمتری دارند و بهجای خطوط ساده، به الگوهای پیچیدهتری از نور و تاریکی پاسخ میدهند. جالب اینجاست که این سلولها از اطلاعاتی که سلولهای ساده به آنها میدهند، استفاده میکنند تا بتوانند الگوهای پیچیدهتر را تشخیص دهند. آنان نتیجه گرفتند که سلولهای پیچیده با تجمیع ورودیها از چندین سلول ساده، این عدمتغییرپذیری را به دست میآورند[۱].
دانشمندان از این کشف برای ساخت شبکههای عصبی استفاده کردند. آنان لایههایی در شبکههای عصبی طراحی کردند که شبیه به عملکرد سلولهای ساده و پیچیدۀ مغز عمل میکنند. شبکههای عصبی با این لایهها میتواند ویژگیهای پیچیدهتری را در دادهها تشخیص دهند و به نتایج بهتری برسند.
این دو ویژگی (انتخابپذیری به ویژگیهای خاص[۲] و افزایش تغییرناپذیری فضایی[۳] از طریق اتصالات پیشرو) اساس سیستمهای بینایی مصنوعی را تشکیل میدهند.
انتخابپذیری به ویژگیهای خاص یعنی هر نورون یا گروهی از نورونها به یک ویژگی خاص در ورودی، پاسخ میدهند. مثلاً یک نورون ممکن است به خطوط عمودی، یک نورون دیگر به خطوط افقی و نورونی دیگر به گوشهها حساس باشد. در شبکههای عصبی، لایههای اولیه معمولاً نورونهایی دارند که به ویژگیهای ساده مانند لبهها، گوشهها و رنگها حساس هستند. با پیشرفت در شبکه، نورونها به ویژگیهای پیچیدهتر مانند چهرهها، اشیاء و حتی مفاهیم انتزاعی پاسخ میدهند. شبکه با توانایی انتخابپذیری، الگوهای پیچیده را در دادهها تشخیص میدهد.
همچنین «افزایش تغییرناپذیری فضایی از طریق اتصالات پیشرو» به این معناست که با افزایش سطح پردازش، نورونها به تغییرات کوچک در موقعیت فضایی ویژگیها، کمتر حساس میشوند. به عبارت دیگر، اگر یک ویژگی در تصویر کمی جابهجا شود، نورون همچنان به آن پاسخ میدهد.
در شبکههای عصبی، این ویژگی با استفاده از لایههای همگرایی[۴] پیادهسازی میشود. این لایهها در شبکههای عصبی، مشابه عملکرد سلولهای ساده و پیچیده در قشر بینایی هستند. لایههای اولیه به ویژگیهای ساده حساساند و لایههای بعدی با ترکیب اطلاعات از لایههای پیشین، ویژگیهای پیچیدهتری را تشخیص میدهند.
این لایهها به شبکه اجازه میدهند تا ویژگیها را در مکانهای مختلف تصویر تشخیص دهد، حتی اگر کمی جابهجا شده باشند. این ویژگی بسیار مهم است، زیرا در دنیای واقعی، اشیاء ممکن است در مکانهای مختلفی از تصویر قرار بگیرند.
با استفاده از یادگیری عمیق، شبکههای عصبی میتوانند این ویژگیها را خودکار یاد بگیرند. یعنی شبکه با دیدن تعداد زیادی تصویر، به تدریج یاد میگیرد که کدام نورونها به کدام ویژگیها حساس باشند.
پژوهشهای آنان پایههای علوم اعصاب بینایی را بنا نهاد و دیدگاههای اساسی در مورد پردازش اطلاعات در سیستم بینایی ارائه داد. کار آنان در سال ۱۹۸۱ جایزۀ نوبل فیزیولوژی یا پزشکی را برایشان به ارمغان آورد.
تشخیص خودکار چهرهها و اشیاء در تصاویر خبری
این دستاورد پزشکی اکنون در تمامی عرصهها کاربرد دارد. از آنجایی که مباحث کمی پیچیده شد، بیایید مفاهیمی را که تا اینجا خواندیم، در دنیای روزنامهنگاری و رسانه مرور کنیم.
یکی از کاربردهای بسیار مهم این ویژگیها در روزنامهنگاری، تشخیص خودکار چهرهها و اشیاء در تصاویر خبری است. فرض کنید یک خبرگزاری روزانه هزاران تصویر دریافت میکند. برای یک روزنامهنگار، جستوجوی دستی یک چهرۀ خاص یا یک شیء مشخص در این حجم از تصاویر بسیار زمانبر و خستهکننده است.
پس اگر بخواهیم این وظیفه را برعهدۀ یک عامل هوشمند بگذاریم باید این مراحل را طی کنیم:
- آموزش مدل: ابتدا یک مدل یادگیری عمیق با استفاده از دادههای بسیار زیادی از تصاویر حاوی چهرههای افراد مشهور، لوگوهای شرکتها، یا اشیاء خاص (مانند خودروهای خاص یا ساختمانهای معروف) آموزش میدهیم. نیاز به توضیح نیست که این بخش پیچیدگیهای زیادی دارد که در بخش ششم کموبیش منطق آن را توضیح دادم. این مدل به تدریج یاد میگیرد که چگونه چهرهها و اشیاء مختلف را در تصاویر تشخیص دهد.
- تشخیص خودکار: پس از آموزش، این مدل میتواند روی تصاویر جدید کارش را شروع کند و چهرهها و اشیاء مورد نظر را تصاویر را خودکار میشناسد.
کاربردهای تشخیص خودکار چهره در رسانه
به طبع، وقتی چنین عامل هوشمندی به یک خبرگزاری بزرگ فارسی زبان مثل ایرنا اضافه شود، میتواند از این قابلیت برای افزایش سرعت و دقت در کار روزانۀ خبرگزاری استفاده کند.
- جستوجوی سریع تصاویر: حالا روزنامهنگاران میتوانند به سادگی نام یک فرد یا شیء را وارد کند تا مدل تمام تصاویری را که حاوی آن فرد یا شیء هستند نشان دهد.
- ایجاد پایگاه دادۀ تصویری سازمانیافته: این سیستم میتواند به طور خودکار تصاویر را بر اساس چهرهها، اشیاء و مکانهای موجود در آن طبقهبندی کند و یک پایگاه دادۀ تصویری سازمانیافته ایجاد کند.
- تشخیص اخبار جعلی: داشتن چنین دستیار هوشمندی به ما کمک میکند چهرهها و چیزهای موجود در تصاویر با آرشیو پایگاههای شناخته شده و معتبر تصاویر مقایسه کنیم و دریابیم که آیا این عکس دستکاری شده و جعلی است یا نه.
- تحلیل احساسات: با استفاده از مدلهای پیشرفتهتر، میتوان احساسات افراد موجود در تصاویر را نیز تشخیص داد و بهاینترتیب، به درک بهتر رویدادهای خبری کمک کرد.
- تشخیص خودکار متن از تصاویر: ماشین میتواند اسناد را اسکن و طبقهبندی کند و بخواند. حالا رسانهها میتوانند بخش مهمی از آرشیو خود را به ماشین بخورانند و این امر در شکلگیری الگوهای تازۀ روایی بسیار اهمیت دارد. مهمتر اینکه سرعت کار را بالا میبرد و دسترسی روزنامهنگاران به شواهد یا فکتها را آسانتر میکند.
- تشخیص خودکار الگوهای خبری: این ویژگی میتواند برای شناسایی الگوهای خبری خاص، مانند افزایش ناگهانی تعداد تصاویر حاوی یک موضوع خاص، استفاده شود. یعنی ماشین به ما یادآوری میکند که الگوهای خبری دارد به چه سمتی میرود و تحلیل همین موضوع نیز وظیفۀ روزنامهنگار است.
بحث پیشینۀ رویداد در این میان بسیار اهمیت پیدا میکند و خبرنگاران در مییابند که هیچ اتفاقی بدون پیشینه نیست و باید روند تمامی قصههای واقعی را بررسی کرد، نه اتفاقی که هماکنون افتاده است. از طرف دیگر، مراقبت همیشگی از نیفتادن در دام اخبار جعلی اعتبار رسانۀ ما را بیشتر میکند و میتوانیم نشانههای آن را در تحلیل احساسات مرتبط با اخبار خویش ببینیم.
حالا روزنامهنگاران میتوانند با سرعت و دقت بیشتری به اطلاعات موردنیاز خود دسترسی یابند. همچنین بسیاری از کارهای تکراری و زمانبر (کارِ گِل) روزنامهنگارانه خودکار میشود و وقت بیشتری برای خلاقیت باقی میماند. کاهش کارهای تکراری باعث میشود روزنامهنگاران بتوانند کتاب بیشتری بخوانند، فیلم ببینند و در جامعه گشت بزنند و احوال واقعی آدمها را جویا شوند و آن را وارد کار خویش کنند.
درحالیکه دستیار هوشمند ما کارهای روزانۀ تحریریه را انجام میدهد، ما میتوانیم روی پروندههای پیگیرانه (Investigative) تمرکز کنیم. همزمان از هوش مصنوعی برای تحلیل کلاندادههای شبکههای اجتماعی بهره میبریم و درحالیکه نبض جامعه را زیر نگاه واقعبینانۀ خود داریم، نبض دنیای شبکهها را هم میگیریم و میتوانیم تحلیلها و تفسیرهای جامعتری در اختیار مخاطبان خود قرار دهیم. بهاینترتیب، به کشف خبرهای جدید میرویم ولی از دو سیستم تحلیلی (مغز خود روزنامهنگار و تحلیلهای ماشینی) کمک میگیریم و میتوانیم الگوهای تازهای برای روایتها پیدا کنیم.
به طور خلاصه، انتخابپذیری به ویژگیهای خاص و افزایش تغییرناپذیری فضایی، دو ویژگی کلیدی در هوش مصنوعی هستند که میتوانند به طور گستردهای در روزنامهنگاری مورد استفاده قرار بگیرند و به روزنامهنگاران کمک کنند تا کار خود را سریعتر، دقیقتر و مؤثرتر انجام دهند.
با الهام از کشفیات هوبل و ویسل، مهندس ژاپنی «کونیهیکو فوکوشیما[۵]» در دهۀ ۱۹۷۰ یکی از اولین شبکههای عصبی عمیق به نام «نئوکوگنیشن[۶]» را توسعه داد که پس از مقداری آموزش توانست اعداد دستنویس را بهخوبی تشخیص دهد. اگرچه این دستگاه در تشخیص محتوای بصری پیچیده مشکل داشت، اما الهامبخش مهمی برای یکی از پرکاربردترین و تأثیرگذارترین شبکههای عصبی عمیق، یعنی شبکههای عصبی پیچشی[۷] شد.
در رابطه با شبکههای عصبی پیچشی، در یادداشت بعدی به طور مفصل صحبت میکنیم.
شبکههای عصبی مصنوعی بهعنوان چشمهای تازۀ خبرنگاران، نهتنها در تشخیص تصاویر بلکه در تحلیل محتوا، پیشبینی رویدادها و حتی خلق داستانهای جدید نقش خواهند داشت. این فناوری نهتنها سرعت و دقت خبرنگاری را افزایش میدهد، بلکه با آن میتوانیم به لایههای پنهان اخبار دست یابیم و بینشهای عمیقتری از جهان اطراف خود به دست بیاوریم. بااینحال، در این مسیر اخلاق و مسئولیتپذیری را نباید فراموش کنیم تا از سوءاستفاده از این فناوری جلوگیری کنیم.
منبع خبر:
مصور
/ چشمهای مصنوعی که میبینند و میفهمند؛ کاربرد شبکههای عصبی در تحلیل تصاویر خبری
تمامی حقوق گردآوری و تالیف خبر متعلق به ناشر اصلی آن که در لینک فوق به آن اشاره شده است می باشد. در صورت نیاز به ارسال جوابیه یا توضیح تکمیلی برای مطلب منتشر شده صرفا از طریق مرجع اصلی خبر اقدام نمایید.