اخبار / من علی شاکر هستم؛ روزنامهنگار و پژوهشگر هوش مصنوعی که میخواهم در این سلسله یادداشتها در درجۀ نخست دربارۀ اصول کاربرد هوش مصنوعی در رسانه بیشتر بدانم و بخوانم و بعد آن را در اختیار شما بگذارم.
در یادداشت شمارۀ ۸ «از قلم تا الگوریتم» ضمن اینکه تشریح کردیم چشمهای مصنوعی چهطور میبینند در رابطه با کاربرد شبکههای عصبی در تحلیل تصاویر خبری گفتیم. همچنین طی شمارههای پیشین منطق علمی ریاضی و فیزیک پشت رویکرد یادگیری عمیق را تشریح کردیم و نشان دادیم که چهطور این سیستم از طریق دریافت کلانداده روی لایههای پنهان عصبی در بستر نورونهای سیلیکونی محاسبات ریاضی انجام میدهد.
در بخش نُهم «از قلم تا الگوریتم» به شبکههای عصبی پیچشی[۱] (CNN) و کاربردهای گستردۀ آنها در حوزۀ روزنامهنگاری میپردازیم. سعیام این است که با تشبیه ساختار CNN به سیستم بینایی انسان، مفهوم پیچش (Convolution) را بهصورت ساده و قابل فهم توضیح دهم و با مثالهایی از دنیای روزنامهنگاری آن را روشنتر کنم. این یادداشت آموزشی نشان میدهد که چگونه شبکههای عصبی پیچشی میتوانند به روزنامهنگاران کمک کنند تا اطلاعات را سریعتر و دقیقتر پردازش کنند و داستانهای بهتری را روایت کنند.
منبع اصلی ما در این یادداشتها همچنان فصل هفتم کتاب «تاریخچۀ مختصر هوش» است. مباحث آن برای علاقمندان به روزنامهنگاری و روابطعمومی مناسبسازی شده.
هشدار: بدون خواندن بخشهای پیشین، خواندن این بخش فقط وقت تلف کردن است.
- مقدمه؛ رسانه در عصر هوش مصنوعی
- چه شد به ماشینها اجازه دادیم تصمیم بگیرند؟
- ظهور هوش مصنوعی نمادین: راهحلهای نوین برای مسائل پیچیده
- سیستمهای خبره چهطور محتوای خبری را ارتقا میدهند؟
- از بحران تا بهبود: نقش هوش مصنوعی در مدیریت روابطعمومی
- ماشینها چگونه مانند ما یاد میگیرند؟ نگاهی به رویکرد ارتباطگرا
- انتقال تجربۀ روزنامهنگارانه به شبکههای عصبی؛ چگونه ماشینها احساسات را محاسبه میکنند؟
- چشمهای مصنوعی که میبینند و میفهمند؛ کاربرد شبکههای عصبی در تحلیل تصاویر خبری
شبکههای عصبی پیچشی
شبکههای عصبی پیچشی (CNN) برای اولین بار توسط ین لیکان[۲] در دهۀ ۱۹۸۰ مطرح شد (لیکان و همکاران، ۱۹۸۹) او یک شبکۀ عصبی پیچشی کوچک را برای تشخیص ارقام دستنویس آموزش داد. شبکههای عصبی پیچشی با معرفی مجموعۀ دادۀ امنیست[۳] در سال ۱۹۹۹ پیشرفت بیشتری کردند.
شکل ۱٫ مسیر ورودی بصری از چشمها به قشر مغز و سلسلهمراتب بینایی را نشان میدهد. این مسیر شامل بخشهای مختلف سیستم بینایی است: LGN (هستۀ زانویی جانبی)، V1 (ناحیۀ بینایی ۱)، V2 ( ناحیۀ بینایی ۲)، V4 (ناحیۀ بینایی ۴) و ناحیۀ IT (قشر تحتانی گیجگاهی) در این مسیر، ورودیهای بصری از چشمها ابتدا به LGN میرسند و سپس به مناطق بینایی V1، V2، V4 و در نهایت به ناحیۀ IT ارسال میشوند، که بهطور تدریجی ویژگیهای بصری پیچیدهتر مانند اشکال و چهرهها را پردازش میکنند.
«پیچش» ترجمۀ عبارت Convolution است که ریشۀ این عبارت نیز در لاتین به عبارت Convolvere میرسد. پیشوند Con در لاتین به معنی «با» یا «همراه» است و فعل Volvereبه معنی «چرخیدن» یا «پیچیدن».
نام «پیچشی» از عملیات ریاضی «پیچش» گرفته شده است. پیچش یا کانولوشن یک عمل ریاضی است که در بسیاری از حوزهها، از جمله پردازش سیگنال، پردازش تصویر و یادگیری ماشین، بهویژه در شبکههای عصبی پیچشی (CNN) کاربرد دارد.
پیچش در ریاضیات
در ریاضیات، پیچشِ دو تابع، یک تابع جدید تولید میکند که میزان همپوشانی و شباهت دو تابع اولیه را نشان میدهد. به عبارت دیگر، پیچش به ما میگوید که چهقدر میتوانیم یک تابع را با تأخیرهای مختلف روی تابع دیگر بلغزانیم تا بیشترین شباهت را پیدا کنیم. در شبکههای عصبی پیچشی، یک فیلتر کوچک روی تصویر حرکت میکند و با هر پیکسل تصویر ضرب میشود. این عملیات شبیه به پیچش دو تابع در ریاضیات است.
فرض کنید میخواهیم لبههای عمودی یک تصویر را تشخیص دهیم. میتوانیم یک فیلتر تعریف کنیم که در قسمت چپ اعداد منفی و در قسمت راست اعداد مثبت داشته باشد. وقتی این فیلتر روی یک لبۀ عمودی حرکت میکند، حاصل ضرب عناصر فیلتر در پیکسلهای تصویر یک عدد بزرگ مثبت یا منفی تولید میکند که نشاندهندۀ وجود یک لبۀ عمودی است.
فرض کنید شما یک روزنامهنگار ورزشی هستید و میخواهید تعداد تماشاچیانی که در یک مسابقۀ فوتبال حضور داشتند را تخمین بزنید. بهجای اینکه بهصورت دستی تعداد افراد را بشمارید، میتوانید از یک شبکۀ پیچشی استفاده کنید.
برای این کار میبایست سه مرحله را طی کنید:
- جمعآوری داده: ابتدا میبایست مجموعۀ بزرگی از تصاویر استادیومهای فوتبال را با جمعیتهای مختلف جمع کنید. به هر تصویر یک برچسب عددی میدهید که نشاندهندۀ تعداد تقریبی تماشاچیان آن است. این مجموعۀ داده، دادۀ آموزشی شبکۀ پیچشی شما خواهد بود.
- آموزش شبکه: شبکۀ پیچشی شما این تصاویر را بهعنوان ورودی دریافت و سعی میکند الگوهایی را در آن بیابد. مثلاً یاد میگیرد که قسمتهای پرجمعیت استادیوم چگونه به نظر میرسند یا چهطور میتوان تعداد صندلیهای خالی را تشخیص داد.
- تست شبکه: پس از آموزش، تصویری جدید از یک استادیوم را به شبکه میدهیم که پیشتر ندیده است. شبکه با استفاده از الگوهایی که یاد گرفته، تعداد تقریبی تماشاچیان را تخمین میزند.
شبکۀ عصبی پیچشی چگونه میبینید؟
- فیلترها: تصور کنید شبکۀ پیچشی شما یک سری فیلتر دارد. هر فیلتر به دنبال یک ویژگی خاص در تصویر میگردد. مثلاً یک فیلتر ممکن است به دنبال لکههای بزرگ رنگ روشن باشد که نشاندهندۀ جمعیت است، یا فیلتر دیگری ممکن است به دنبال صندلیهای خالی باشد.
- لایههای پیچشی: این فیلترها روی تصویر حرکت و در هر نقطه، یک عدد تولید میکنند که نشاندهندۀ میزان تطابق آن نقطه با ویژگی مورد نظر است. این عمل را کانولوشن یا پیچش مینامیم.
- لایههای استخراجی: بعد از لایههای پیچش، لایههایی به نام استخراجی وجود دارند که ویژگیهای مهم را از خروجی لایههای پیشین استخراج میکنند.
- لایههای متصل: در نهایت، میرسیم به لایههای متصل که همۀ این ویژگیها را ترکیب و یک عدد بهعنوان خروجی نهایی تولید میکنند که نشاندهندۀ تعداد تخمینی تماشاچیان است.
با وجود این موفقیتها، این روشها به تدریج از جامعۀ پژوهشی کنار گذاشته شد، چون آموزش آن راحت نیست. علاوه بر این، چون فکر میکردند این ویژگیها بیشترین اطلاعات را ارائه میدهند، بیشتر کارها متمرکز بود روی طراحی دستی ویژگیهایی که باید در تصاویر تشخیص داده شوند.
پس از فیلتر کردن تصاویر بر اساس این ویژگیهای دستی، یادگیری تنها در مرحلۀ نهایی اتفاق میافتد، که آن هم تطبیق ویژگیها با دستههای مختلف اشیاء است.
شکل ۱، شبکۀ عصبی پیچشی با چهار لایه را برای تشخیص تصاویر حیوانات نشان میدهد. در این شکل، هر لایه از شبکۀ عصبی پیچشی سه مستطیل همپوشان دارند. در یک شبکۀ عصبیِ پیچشیِ واقعی، از این مستطیلها تعداد زیادی وجود دارد. این مستطیلها نقشههای فعالسازی را نشان میدهند که مشابه سیستم بینایی مغز است که هابل و ویسل آن را کشف کردند. شبکههای عصبی پیچشی از طریق یادگیری نظارتشده بهصورت «انتها به انتها[۴]» آموزش داده میشوند. به این ترتیب ویژگیهایی را بهطور خودکار ایجاد میکنند که به بهترین نحو برای انجام وظیفه مناسب است.
مزایای استفاده از شبکههای عصبی پیچشی در روزنامهنگاری
عملیات پیچش به شبکههای عصبی پیچشی این امکان را میدهد تا ویژگیهای مهم تصاویر را به طور مؤثر استخراج کرده و درعینحال پیچیدگی محاسباتی را کاهش دهند. این عمل در عرصۀ حرفۀ روزنامهنگاری فواید و مزایایی دارد که در ادامه به برخی از آنها میپردازیم:
- سرعت و دقت بالا: به طبع، یکی از چالشهای اساسی روزنامهنگاران مواجهه با حجم زیاد دادههاست. اکنون روزنامهنگاران میتوانند از شبکههای عصبی پیچشی در زمانی کوتاه کلاندادههای تصویری پردازش کنند و با دقت بالایی الگوها و ویژگیهای مورد نظر را بشناسند. بهویژه در پوشش اخبار بحرانها، دقت ما در انعکاس شواهد صحنه اهمیت زیادی دارد.
- خودکارسازی فرایندها: ما روزنامهنگارها علاوه بر اینکه میتوانیم دادههای مورد نظر خود را با سرعت زیاد از دل کلاندادهها بیرون بکشیم، به کمک این الگوریتم میتوانیم بسیاری از کارهای تکراری و زمانبر در روزنامهنگاری را خودکار کنیم. کارهایی مانند طبقهبندی تصاویر یا ویدیوها.
- کشف بینشهای جدید: در پوشش اتفاقها، آن خبرنگاری موفقتر است که از زاویۀ دیگری به ماجرا نگاه میکند؛ چون مصرف محتواهای تکراری و تقلیدی جذابیتی ندارد؛ بنابراین نویسندگان رسانهها همیشه سعی میکنند به کمک قصههای فرعی و پیدا کردن الگوهای جدید دادهای، گزارش نهایی خود را جذاب کنند. اکنون با کمک CNN میتوانیم الگوهایی را در دادهها پیدا کنیم که ممکن است تا پیش از آن به آن دقت نکردیم یا اینکه نمیتوانستیم این الگوهای کلان را ببینیم. به این ترتیب، زمینهای باز میشود برای کشف قصههای واقعی و پنهان و به دست آوردن بینشهای نوین.
- تشخیص تقلب در تصاویر و ویدیوها: یکی از چالشهای اساسی روزنامهنگارها «اخبار و تصاویر جعلی» است. میتوانیم از این شبکههای عصبی پیچشی کمک بگیریم برای تشخیص تصاویر و ویدیوهای دستکاری شده یا جعلی. این قابلیت در دنیای اخبار جعلی بسیار مهم است.
- تجزیهوتحلیل ویدیو برای استخراج اطلاعات کلیدی: با شبکههای عصبی پیچشی میتوانیم سرعت تدوین کلیپها و گزارشهای تصویری و صوتی را بیشتر کنیم. این شبکهها میتوانند ویدیوهای طولانی را تجزیهوتحلیل کنند و رویدادهای مهم، چهرههای کلیدی یا اشیای خاص را شناسایی کند. این کار برای تولید خلاصههای خبری و یا ایجاد آرشیوهای ویدیویی بسیار مفید است.
- ترجمۀ خودکار زیرنویسها: روزنامهنگاران دنیا امروز بهخوبی میدانند که مانع زبان در ارتباطات رسانهای برداشته شده است و فناوریهایی مثل شبکههای عصبی پیچشی در بستر هوش مصنوعی میتوانند دستکم کلمات و مفاهیم را ترجمه کنند؛ این یعنی دسترسی گستردهتر به مخاطبان بیشتر.
چالشها و آینده
با وجود تمام مزایای خود، شبکههای عصبی پیچشی نیز با چالشهایی همراه هستند. یکی از مهمترین چالشها، نیاز به دادههای آموزشی با کیفیت بالا است. برای آموزش یک شبکۀ عصبی پیچشی، به هزاران تصویر برچسبگذاری شده نیاز است که این کار میتواند زمانبر و هزینهبر باشد. علاوه بر این، CNN ها ممکن است در تشخیص اشیاء در شرایط پیچیده، مانند تصاویر با نور کم یا اشیاء مبهم، با مشکل مواجه شوند.
بااینحال، با پیشرفت فناوری و افزایش حجم دادهها، شبکههای عصبی پیچشی به طور فزایندهای در حال پیشرفت هستند و نقش مهمی در آیندۀ روزنامهنگاری ایفا خواهند کرد. روزنامهنگارانی که بتوانند از این ابزار قدرتمند به درستی استفاده کنند، میتوانند در تولید اخبار دقیقتر، سریعتر و جذابتر موفقتر باشند.
در بخش دهم این سلسله یادداشتها به کاربرد شبکههای عصبی پیچشی در حرفۀ روابطعمومی میپردازیم.
LeCun, Y., Boser, B., Denker, J. S., Henderson, R. E., Howard, R. E., Hubbard, W., Jackel, L. D. (۱۹۸۹). Backpropagation applied to handwritten zip code recognition. Neural Computation, 1(۴), ۵۴۱-۵۵۱
[۱] Convolutional Neural Network
[۲] Yann LeCun
[۳] MNIST مخفف Modified National Institute of Standards and Technology database است و یکی از مشهورترین و پرکاربردترین مجموعۀ دادهها در حوزۀ یادگیری ماشین، بهویژه در زیرشاخۀ بینایی رایانه، محسوب میشود.
[۴] End-to-End
منبع خبر:
مصور
/ از تشخیص چهره تا تحلیل اخبار؛ سفر به دنیای شبکههای عصبی پیچشی در روزنامهنگاری
تمامی حقوق گردآوری و تالیف خبر متعلق به ناشر اصلی آن که در لینک فوق به آن اشاره شده است می باشد. در صورت نیاز به ارسال جوابیه یا توضیح تکمیلی برای مطلب منتشر شده صرفا از طریق مرجع اصلی خبر اقدام نمایید.