• امروز : شنبه - ۲۴ آذر - ۱۴۰۳
  • برابر با : Saturday - 14 December - 2024
4

از تشخیص چهره تا تحلیل اخبار؛ سفر به دنیای شبکه‌های عصبی پیچشی در روزنامه‌نگاری

  • کد خبر : 14743
  • 06 آذر 1403 - 14:45
از تشخیص چهره تا تحلیل اخبار؛ سفر به دنیای شبکه‌های عصبی پیچشی در روزنامه‌نگاری

اخبار / من علی شاکر هستم؛ روزنامه‌نگار و پژوهشگر هوش مصنوعی که می‌خواهم در این سلسله‌ یادداشت‌ها در درجۀ نخست دربارۀ اصول کاربرد هوش مصنوعی در رسانه بیشتر بدانم و بخوانم و بعد آن را در اختیار شما بگذارم.

اخبار / من علی شاکر هستم؛ روزنامه‌نگار و پژوهشگر هوش مصنوعی که می‌خواهم در این سلسله‌ یادداشت‌ها در درجۀ نخست دربارۀ اصول کاربرد هوش مصنوعی در رسانه بیشتر بدانم و بخوانم و بعد آن را در اختیار شما بگذارم.

در یادداشت شمارۀ ۸ «از قلم تا الگوریتم» ضمن اینکه تشریح کردیم چشم‌های مصنوعی چه‌طور می‌بینند در رابطه با کاربرد شبکه‌های عصبی در تحلیل تصاویر خبری گفتیم. همچنین طی شماره‌های پیشین منطق علمی ریاضی و فیزیک پشت رویکرد یادگیری عمیق را تشریح کردیم و نشان دادیم که چه‌طور این سیستم از طریق دریافت کلان‌داده روی لایه‌های پنهان عصبی در بستر نورون‌های سیلیکونی محاسبات ریاضی انجام می‌دهد.

در بخش نُهم «از قلم تا الگوریتم» به شبکه‌های عصبی پیچشی[۱] (CNN) و کاربردهای گستردۀ آن‌ها در حوزۀ روزنامه‌نگاری می‌پردازیم. سعی‌ام این است که با تشبیه ساختار CNN به سیستم بینایی انسان، مفهوم پیچش (Convolution) را به‌صورت ساده و قابل فهم توضیح دهم و با مثال‌هایی از دنیای روزنامه‌نگاری آن را روشن‌تر کنم. این یادداشت آموزشی نشان می‌دهد که چگونه شبکه‌های عصبی پیچشی می‌توانند به روزنامه‌نگاران کمک کنند تا اطلاعات را سریع‌تر و دقیق‌تر پردازش کنند و داستان‌های بهتری را روایت کنند.

منبع اصلی ما در این یادداشت‌ها همچنان فصل هفتم کتاب «تاریخچۀ مختصر هوش» است. مباحث آن برای علاقمندان به روزنامه‌نگاری و روابط‌عمومی مناسب‌سازی شده.

هشدار: بدون خواندن بخش‌های پیشین، خواندن این بخش فقط وقت تلف کردن‌ است.

  1. مقدمه؛ رسانه در عصر هوش مصنوعی
  2. چه شد به ماشین‌ها اجازه دادیم تصمیم بگیرند؟
  3. ظهور هوش مصنوعی نمادین: راه‌حل‌های نوین برای مسائل پیچیده
  4. سیستم‌های خبره چه‌طور محتوای خبری را ارتقا می‌دهند؟
  5. از بحران تا بهبود: نقش هوش مصنوعی در مدیریت روابط‌عمومی
  6. ماشین‌ها چگونه مانند ما یاد می‌گیرند؟ نگاهی به رویکرد ارتباط‌گرا
  7. انتقال تجربۀ روزنامه‌نگارانه به شبکه‌های عصبی؛ چگونه ماشین‌ها احساسات را محاسبه می‌کنند؟
  8. چشم‌های مصنوعی که می‌بینند و می‌فهمند؛ کاربرد شبکه‌های عصبی در تحلیل تصاویر خبری

شبکه‌های عصبی پیچشی

شبکه‌های عصبی پیچشی (CNN) برای اولین بار توسط ین لیکان[۲] در دهۀ ۱۹۸۰ مطرح شد (لیکان و همکاران، ۱۹۸۹) او یک شبکۀ عصبی پیچشی کوچک را برای تشخیص ارقام دست‌نویس آموزش داد. شبکه‌های عصبی پیچشی با معرفی مجموعۀ دادۀ ام‌نیست[۳] در سال ۱۹۹۹ پیشرفت بیشتری کردند.

شبکه‌های عصبی پیچشی
شکل ۱

شکل ۱٫ مسیر ورودی بصری از چشم‌ها به قشر مغز و سلسله‌مراتب بینایی را نشان می‌دهد. این مسیر شامل بخش‌های مختلف سیستم بینایی است:  LGN (هستۀ زانویی جانبی)، V1 (ناحیۀ بینایی ۱)، V2 ( ناحیۀ بینایی ۲)، V4 (ناحیۀ بینایی ۴) و ناحیۀ IT (قشر تحتانی گیجگاهی) در این مسیر، ورودی‌های بصری از چشم‌ها ابتدا به LGN می‌رسند و سپس به مناطق بینایی V1، V2، V4 و در نهایت به ناحیۀ IT ارسال می‌شوند، که به‌طور تدریجی ویژگی‌های بصری پیچیده‌تر مانند اشکال و چهره‌ها را پردازش می‌کنند.

«پیچش» ترجمۀ عبارت Convolution است که ریشۀ این عبارت نیز در لاتین به عبارت Convolvere  می‌رسد. پیشوند Con  در لاتین به معنی «با» یا «همراه» است و فعل  Volvereبه معنی «چرخیدن» یا «پیچیدن».

نام «پیچشی» از عملیات ریاضی «پیچش» گرفته شده است. پیچش یا کانولوشن یک عمل ریاضی است که در بسیاری از حوزه‌ها، از جمله پردازش سیگنال، پردازش تصویر و یادگیری ماشین، به‌ویژه در شبکه‌های عصبی پیچشی (CNN) کاربرد دارد.

پیچش در ریاضیات

در ریاضیات، پیچشِ دو تابع، یک تابع جدید تولید می‌کند که میزان هم‌پوشانی و شباهت دو تابع اولیه را نشان می‌دهد. به عبارت دیگر، پیچش به ما می‌گوید که چه‌قدر می‌توانیم یک تابع را با تأخیرهای مختلف روی تابع دیگر بلغزانیم تا بیشترین شباهت را پیدا کنیم. در شبکه‌های عصبی پیچشی، یک فیلتر کوچک روی تصویر حرکت می‌کند و با هر پیکسل تصویر ضرب می‌شود. این عملیات شبیه به پیچش دو تابع در ریاضیات است.

 

فرض کنید می‌خواهیم لبه‌های عمودی یک تصویر را تشخیص دهیم. می‌توانیم یک فیلتر تعریف کنیم که در قسمت چپ اعداد منفی و در قسمت راست اعداد مثبت داشته باشد. وقتی این فیلتر روی یک لبۀ عمودی حرکت می‌کند، حاصل ضرب عناصر فیلتر در پیکسل‌های تصویر یک عدد بزرگ مثبت یا منفی تولید می‌کند که نشان‌دهندۀ وجود یک لبۀ عمودی است.

فرض کنید شما یک روزنامه‌نگار ورزشی هستید و می‌خواهید تعداد تماشاچیانی که در یک مسابقۀ فوتبال حضور داشتند را تخمین بزنید. به‌جای اینکه به‌صورت دستی تعداد افراد را بشمارید، می‌توانید از یک شبکۀ پیچشی استفاده کنید.

برای این کار می‌بایست سه مرحله را طی کنید:

  1. جمع‌آوری داده: ابتدا می‌بایست مجموعۀ بزرگی از تصاویر استادیوم‌های فوتبال را با جمعیت‌های مختلف جمع کنید. به هر تصویر یک برچسب عددی می‌دهید که نشان‌دهندۀ تعداد تقریبی تماشاچیان آن است. این مجموعۀ داده، دادۀ آموزشی شبکۀ پیچشی شما خواهد بود.
  2. آموزش شبکه: شبکۀ پیچشی شما این تصاویر را به‌عنوان ورودی دریافت و سعی می‌کند الگوهایی را در آن بیابد. مثلاً یاد می‌گیرد که قسمت‌های پرجمعیت استادیوم چگونه به نظر می‌رسند یا چه‌طور می‌توان تعداد صندلی‌های خالی را تشخیص داد.
  3. تست شبکه: پس از آموزش، تصویری جدید از یک استادیوم را به شبکه می‌دهیم که پیشتر ندیده است. شبکه با استفاده از الگوهایی که یاد گرفته، تعداد تقریبی تماشاچیان را تخمین می‌زند.

شبکۀ عصبی پیچشی چگونه می‌بینید؟

  • فیلترها: تصور کنید شبکۀ پیچشی شما یک سری فیلتر دارد. هر فیلتر به دنبال یک ویژگی خاص در تصویر می‌گردد. مثلاً یک فیلتر ممکن است به دنبال لکه‌های بزرگ رنگ روشن باشد که نشان‌دهندۀ جمعیت است، یا فیلتر دیگری ممکن است به دنبال صندلی‌های خالی باشد.
  • لایه‌های پیچشی: این فیلترها روی تصویر حرکت و در هر نقطه، یک عدد تولید می‌کنند که نشان‌دهندۀ میزان تطابق آن نقطه با ویژگی مورد نظر است. این عمل را کانولوشن یا پیچش می‌نامیم.
  • لایه‌های استخراجی: بعد از لایه‌های پیچش، لایه‌هایی به نام استخراجی وجود دارند که ویژگی‌های مهم را از خروجی لایه‌های پیشین استخراج می‌کنند.
  • لایه‌های متصل: در نهایت، می‌رسیم به لایه‌های متصل که همۀ این ویژگی‌ها را ترکیب و یک عدد به‌عنوان خروجی نهایی تولید می‌کنند که نشان‌دهندۀ تعداد تخمینی تماشاچیان است.

با وجود این موفقیت‌ها، این روش‌ها به تدریج از جامعۀ پژوهشی کنار گذاشته شد، چون آموزش آن راحت نیست. علاوه بر این، چون فکر می‌کردند این ویژگی‌ها بیشترین اطلاعات را ارائه می‌دهند، بیشتر کارها متمرکز بود روی طراحی دستی ویژگی‌هایی که باید در تصاویر تشخیص داده شوند.

پس از فیلتر کردن تصاویر بر اساس این ویژگی‌های دستی، یادگیری تنها در مرحلۀ نهایی اتفاق می‌افتد، که آن هم تطبیق ویژگی‌ها با دسته‌‌های مختلف اشیاء است.

شکل ۱، شبکۀ عصبی پیچشی با چهار لایه را برای تشخیص تصاویر حیوانات نشان می‌دهد. در این شکل، هر لایه از شبکۀ عصبی پیچشی سه مستطیل هم‌پوشان دارند. در یک شبکۀ عصبیِ پیچشیِ واقعی، از این مستطیل‌ها تعداد زیادی وجود دارد. این مستطیل‌ها نقشه‌های فعال‌سازی را نشان می‌دهند که مشابه سیستم بینایی مغز است که هابل و ویسل آن را کشف کردند. شبکه‌های عصبی پیچشی از طریق یادگیری نظارت‌شده به‌صورت «انتها به انتها[۴]» آموزش داده می‌شوند. به این ترتیب ویژگی‌هایی را به‌طور خودکار ایجاد می‌کنند که به بهترین نحو برای انجام وظیفه مناسب است.

مزایای استفاده از شبکه‌های عصبی پیچشی در روزنامه‌نگاری

عملیات پیچش به شبکه‌های عصبی پیچشی این امکان را می‌دهد تا ویژگی‌های مهم تصاویر را به طور مؤثر استخراج کرده و درعین‌حال پیچیدگی محاسباتی را کاهش دهند. این عمل در عرصۀ حرفۀ روزنامه‌نگاری فواید و مزایایی دارد که در ادامه به برخی از آن‌ها می‌پردازیم:

  • سرعت و دقت بالا: به طبع، یکی از چالش‌های اساسی روزنامه‌نگاران مواجهه با حجم زیاد داده‌هاست. اکنون روزنامه‌نگاران می‌توانند از شبکه‌های عصبی پیچشی در زمانی کوتاه کلان‌داده‌های تصویری پردازش کنند و با دقت بالایی الگوها و ویژگی‌های مورد نظر را بشناسند. به‌ویژه در پوشش اخبار بحران‌ها، دقت ما در انعکاس شواهد صحنه اهمیت زیادی دارد.
  • خودکارسازی فرایندها: ما روزنامه‌نگارها علاوه بر اینکه می‌توانیم داده‌های مورد نظر خود را با سرعت زیاد از دل کلان‌داده‌ها بیرون بکشیم، به کمک این الگوریتم‌ می‌توانیم بسیاری از کارهای تکراری و زمان‌بر در روزنامه‌نگاری را خودکار کنیم. کارهایی مانند طبقه‌بندی تصاویر یا ویدیوها.
  • کشف بینش‌های جدید: در پوشش اتفاق‌ها، آن خبرنگاری موفق‌تر است که از زاویۀ دیگری به ماجرا نگاه می‌کند؛ چون مصرف محتواهای تکراری و تقلیدی جذابیتی ندارد؛ بنابراین نویسندگان رسانه‌ها همیشه سعی می‌کنند به کمک قصه‌های فرعی و پیدا کردن الگوهای جدید داده‌ای، گزارش نهایی خود را جذاب کنند. اکنون با کمک CNN می‌توانیم الگوهایی را در داده‌ها پیدا کنیم که ممکن است تا پیش از آن به آن دقت نکردیم یا اینکه نمی‌توانستیم این الگوهای کلان را ببینیم. به این ترتیب، زمینه‌ای باز می‌شود برای کشف قصه‌های واقعی و پنهان و به دست آوردن بینش‌های نوین.
  • تشخیص تقلب در تصاویر و ویدیوها: یکی از چالش‌های اساسی روزنامه‌نگارها «اخبار و تصاویر جعلی» است. می‌توانیم از این شبکه‌های عصبی پیچشی کمک بگیریم برای تشخیص تصاویر و ویدیوهای دستکاری شده یا جعلی. این قابلیت در دنیای اخبار جعلی بسیار مهم است.
  • تجزیه‌وتحلیل ویدیو برای استخراج اطلاعات کلیدی: با شبکه‌های عصبی پیچشی می‌توانیم سرعت تدوین کلیپ‌ها و گزارش‌های تصویری و صوتی را بیشتر کنیم. این شبکه‌ها می‌توانند ویدیوهای طولانی را تجزیه‌وتحلیل کنند و رویدادهای مهم، چهره‌های کلیدی یا اشیای خاص را شناسایی کند. این کار برای تولید خلاصه‌های خبری و یا ایجاد آرشیوهای ویدیویی بسیار مفید است.
  • ترجمۀ خودکار زیرنویس‌ها: روزنامه‌نگاران دنیا امروز به‌خوبی می‌دانند که مانع زبان در ارتباطات رسانه‌ای برداشته شده است و فناوری‌هایی مثل شبکه‌های عصبی پیچشی در بستر هوش مصنوعی می‌توانند دست‌کم کلمات و مفاهیم را ترجمه کنند؛ این یعنی دسترسی گسترده‌تر به مخاطبان بیشتر.

 

چالش‌ها و آینده

با وجود تمام مزایای خود، شبکه‌های عصبی پیچشی نیز با چالش‌هایی همراه هستند. یکی از مهم‌ترین چالش‌ها، نیاز به داده‌های آموزشی با کیفیت بالا است. برای آموزش یک شبکۀ عصبی پیچشی، به هزاران تصویر برچسب‌گذاری شده نیاز است که این کار می‌تواند زمان‌بر و هزینه‌بر باشد. علاوه بر این، CNN ها ممکن است در تشخیص اشیاء در شرایط پیچیده، مانند تصاویر با نور کم یا اشیاء مبهم، با مشکل مواجه شوند.

بااین‌حال، با پیشرفت فناوری و افزایش حجم داده‌ها، شبکه‌های عصبی پیچشی به طور فزاینده‌ای در حال پیشرفت هستند و نقش مهمی در آیندۀ روزنامه‌نگاری ایفا خواهند کرد. روزنامه‌نگارانی که بتوانند از این ابزار قدرتمند به درستی استفاده کنند، می‌توانند در تولید اخبار دقیق‌تر، سریع‌تر و جذاب‌تر موفق‌تر باشند.

در بخش دهم این سلسله یادداشت‌ها به کاربرد شبکه‌های عصبی پیچشی در حرفۀ روابط‌عمومی می‌پردازیم.

LeCun, Y., Boser, B., Denker, J. S., Henderson, R. E., Howard, R. E., Hubbard, W., Jackel, L. D. (۱۹۸۹). Backpropagation applied to handwritten zip code recognition. Neural Computation, 1(۴), ۵۴۱-۵۵۱

[۱] Convolutional Neural Network

[۲] Yann LeCun

[۳] MNIST مخفف Modified National Institute of Standards and Technology database است و یکی از مشهورترین و پرکاربردترین مجموعۀ داده‌ها در حوزۀ یادگیری ماشین، به‌ویژه در زیرشاخۀ بینایی رایانه، محسوب می‌شود.

[۴] End-to-End


منبع خبر:
مصور
/ از تشخیص چهره تا تحلیل اخبار؛ سفر به دنیای شبکه‌های عصبی پیچشی در روزنامه‌نگاری

تمامی حقوق گردآوری و تالیف خبر متعلق به ناشر اصلی آن که در لینک فوق به آن اشاره شده است می باشد. در صورت نیاز به ارسال جوابیه یا توضیح تکمیلی برای مطلب منتشر شده صرفا از طریق مرجع اصلی خبر اقدام نمایید.

لینک کوتاه : https://ertebatatoresaneha.ir/?p=14743

برچسب ها

ثبت دیدگاه

مجموع دیدگاهها : 0در انتظار بررسی : 0انتشار یافته : ۰
قوانین ارسال دیدگاه
  • دیدگاه های ارسال شده توسط شما، پس از تایید توسط تیم مدیریت منتشر خواهد شد.
  • پیام هایی که حاوی تهمت یا افترا باشد منتشر نخواهد شد.
  • پیام هایی که به غیر از زبان فارسی یا غیر مرتبط باشد منتشر نخواهد شد.