درک تشخیص اشیا

جستجو

مقاله ها

صفحه اصلی
مقاله ها
درک تشخیص اشیا

1399/12/06

نویسنده : علی حسینی

Reverse - Engineering the Brain

مگی میمون بسیار باهوشی است>، این را Tim Buschman، دانشجوی سال آخری می‌گوید که در آزمایشگاه عصب‌شناسی پروفسور Earl Miller مشغول پژوهش است. البته دیدن مگی به این آسانی‌ها مقدور نیست؛ برای دور نگهداشتن مگی از محیطی که انسان‌ها در آن حضور دارند، از او در محیطی مجزا نگهداری می‌شود تا از رفتار انسان‌ها تأثیر نپذیرد. ولی علایم هوشمندی او روی دو نمایشگر که روبه‌روی بوشمن قرار دارد، قابل مشاهده است. مگی در طول هفت سال گذشته برای مرکز علوم مغز و ادراک (Brain and Cognitive Sciences: BCS) دانشگاه ام‌آی‌تی کار کرده است. این میمون، سه ساعت در روز به بازی‌های کامپیوتری مشغول است که بیشتر با هدف ساخت و پرورش الگوهای کلی توسط مغز مگی و سپس استفاده از آن الگوها به عنوان ابزار، طراحی شده اند. بوشمن (شاید به طنز) می‌گوید: <من حتی با این کار نیز مشکل دارم>. منظور او حرکت به سمت بالا و پایین در یک بازی کامپیوتری است که شامل عملگرهای منطقی است که در گروه‌های خاصی قرار می‌گیرند.

ولی مگی بسیار خوب عمل می‌کند: واکنش خوب در برابر پرسش‌های سخت، صرف تنها نیم ثانیه برای پاسخگویی به هر مسئله و چهار پاسخ درست از پنج پاسخ، نمونه‌ای از عملکرد خوب اوست.

توانایی مگی در بازی‌کردن را می‌توان نقطه تلاقی هوش‌مصنوعی و دانش عصب‌شناسی دانست. دانشجوی سال آخر دیگری تحت آموزش‌های بوشمن و Michelle Machon، مشغول پژوهش در این‌باره است که مغز چگونه می‌تواند یاد بگیرد و به ساخت قوانین منطقی بپردازد، و این‌که چگونه باید کارایی مغز را در انجام این وظایف با عملکرد شبکه‌های عصبی مصنوعی که در هوش مصنوعی مورد استفاده قرار می‌گیرد، مقایسه کرد.

چهل سال پیش، این ایده وجود داشت که دانش عصب‌شناسی و هوش مصنوعی باید همزمان و تواماً در آزمایشگاه‌هایی مانند آنچه که Miller در آن به پژوهش پرداخته است، مورد مطالعه قرار بگیرد، ولی تصور نمی‌رفت که این دو، بتوانند چندان به توسعه هم کمک کنند. پیشتر، حیطه مطالعاتی این دو متد بسیار متفاوت از هم بود. عصب شناسی بر کشف و توضیح جزئیات ساختار عصب و فعالیت‌های عصبی متمرکز بود و هوش مصنوعی می‌کوشید با توسعه یک مسیر مستقل و فارغ از فرآیندهای بیولوژیکی، به شبیه‌سازی هوش برسد (از دیدگاه تاریخی، فناوری در واقع نیازی به الهام گرفتن از طبیعت نداشته است؛ نه هواپیماها مانند پرندگان پرواز می‌کنند و نه خودروها مانند اسب‌ها حرکت می‌کنند.) و به نظر می‌رسید هوش مصنوعی با شتاب بیشتری پیشرفت می‌کند.

با استفاده از دانش عصب‌شناسی به سختی می‌شد به ماهیت مغز پی برد؛ چه رسد به این‌که بتوان بر نحوه عملکرد آن واقف شد. از سوی دیگر، هر کسی که کمی اطلاعات علمی داشت، روزی را که کامپیوترها بتوانند هر آنچه را که انسان انجام می‌دهد انجام دهند (شاید هم بهتر از انسان) دور از دسترس نمی‌دانست. در سال 1962، توجه مقامات به پشتیبانی از پروژه‌ای مبنی بر طراحی یک سیستم فراگیر خودکار جلب شد که پروژه‌ای جنجالی در ایالات‌متحده محسوب می‌شد (این سیستم به Cybernation مشهور بود)؛ چرا که گمان می‌رفت با آمدن این سیستم، تعداد زیادی از مردم کار خود را از دست بدهند.

ولی یک چیز از هیجانی که هوش مصنوعی برپا کرده بود، کاست. هر چند کامپیوترها می‌توانستند از پس تشخیص اشیای ساده در یک موقعیت ویژه و تحت شرایط کنترل شده برآیند، در تشخیص و شناسایی اشیای پیچیده در دنیای حقیقی باز می‌ماندند. یک میکروفون می‌تواند سطوح صدا را تشخیص دهد، ولی مثلا‌ً نمی‌تواند آن را کوتاه و خلاصه کند. یک سیستم خبره می‌تواند یک شیء جدید و تمیز را در میان مجموعه‌ای از اشیای قدیمی و کثیف تشخیص دهد، ولی نمی‌تواند یک شیء قدیمی و کثیف را در یک توده درهم و برهم تشخیص دهد. (نمونه دیگر این موضوع سیستم مورد آزمایش ماروین مینسکی است که حتی قابلیت قرار دادن یک بالش در روکش بالش را هم ندارد.) هنوز نگرانی ما از رویارویی انسان‌ها بیش از نگرانی ما درباره رویارویی ماشین‌ها با هم است.

بر خلاف هوش مصنوعی که پیشرفت آن کندتر از آن چیزی بود که انتظار می‌رفت، عصب‌شناسی در فهم چگونگی کارکرد مغز به خوبی پیش می‌رفت. این حقیقت در هیچ جایی به اندازه پژوهش‌های سی و هفت آزمایشگاه از مجموعه مراکز BCS دانشگاه MIT مشهود نیست.

گروه پژوهشی این دانشگاه مشغول ترسیم مسیرهای عصبی‌ای هستند که در عملکردهای سطح بالای مربوط به ادراک (و پیچیدگی آن‌ها)، شامل یادگیری، حافظه، ساختار رفتارهای ترتیبی پیچیده، فرم و ذخیره عادت ها، روِیاپردازی، مدیریت و کنترل عددها، تعیین یک هدف و برنامه‌ریزی، پردازش ایده‌ها و عقاید، و توانایی فهم چیزهایی هستند که دیگران درباره آن فکر می کنند.

ارمغان این پژوهش‌ها می‌تواند بسیار ارزشمند باشد. کشف این‌که مغز چگونه کار می‌کند (منظور فهم دقیق آن است مانند این‌که ما می‌دانیم یک موتور چگونه کار می‌کند)، می‌تواند همه کتاب‌هایی را که تا کنون در این باره نوشته شده‌اند، نیازمند بازنویسی کند. تنها گوشه‌ای از دستاوردهای این کار می‌تواند انقلابی در قضاوت و جرم‌شناسی، آموزش، تجارت، مراقبت از خانواده و نیز درمان هرگونه اختلال روانی بر پا کند.) Earl Miller) امیدوار است پژوهش های انجام شده در آزمایشگاه او در درک پیچیدگی‌های مغز کمک زیادی به روانپزشکان بکند).

چنین پیشرفتی دلیلی برای آغاز همکاری هوش مصنوعی و عصب‌شناسی نه تنها در آزمایشگاه Miller، بلکه حتی در MIT است. همچنین پژوهش‌ها درباره پردازش تصویر نشان می‌دهد که چگونه این دو دانش بر یکدیگر تأثیر می‌گذارند. James DiCarlo، استادیار عصب شناسی، می‌گوید: <این دو رشته مجزا از هم رشد می‌کنند>، این روزها، پژوهشگران هوش مصنوعی مشتاقانه به دنبال پیشرفت عصب‌شناسی و ایده مهندسی معکوس مغز هستند که پیشتر، دور از ذهن به نظر می‌رسید.

درک تشخیص اشیا

بیشتر کارهای انجام شده در آزمایشگاه DiCarlo، بر تشخیص اشیا متمرکز بود که ما را به تعریف یک شیء (مانند تعریف حیوانی چون گاو در مغز) از چند بعد و منظر قادر می‌کند (گاوی که در دوردست است، گاوی که از بالا به آن نگاه می‌کنیم، گاوی که در داخل یک کانتینر است) بدون این‌که با اشیای دیگر (مانند اسب) تداخل پیدا کند. DiCarlo و دانشجوی سال آخر او، David Cox، دستاورد پژوهش‌های خود را در اواخر آگوست با نام عصب‌شناسی طبیعی

(Nature Neuroscience) منتشر کردند که بر یکی از اساسی‌ترین پرسش‌ها درباره تشخیص اشیا متمرکز بود: چه اندازه از موفقیت ما در تشخیص اشیا، وابسته به ساختار سخت‌افزاری بدن ما، ویژگی‌های ذاتی ما هنگام تولد و چیزهایی است که آموخته‌ایم؟

DiCarlo و Cox پژوهش‌های خود را همزمان روی تعدادی از افراد آزمایش کردند. افراد مورد مطالعه، در برابر تجهیزاتی قرار گرفته بودند که هم قابلیت نمایش تصویر اشیا و هم دنبال کردنِ جهتِ نگاه اشخاص را داشتند. اشیا تصاویری بودند که توسط کامپیوتر ایجاد شده بودند و تقریباً دسته‌ای از حیوانات را نشان می‌دادند، ولی این تصاویر به گونه‌ای طراحی شده بودند که در نگاه نخست برای اشخاص، آشنا و قابل تشخیص نباشند. یک شیء می‌توانست در یک وضعیت از سه وضعیت ممکن روی نمایشگر نشان داده شود و شخص می‌توانست نگاه خود را به سمت آن شیء برگرداند.

سپس پژوهشگران اشیای جدیدی را جایگزین می‌کردند تا افراد نگاه خود را روی شیء جدید متمرکز کنند. برای نمونه، زمانی که شخص به مرکز نمایشگر خیره شده بود، موجودی با بدنی قلمبه و با گوش‌های تیز شده در سمت راست نمایشگر به نمایش درمیآمد. زمانی که شخص نگاه خود را به سمت آن معطوف می‌کرد، پژوهشگران آن تصویر را با تصویر موجودی لاغرتر با گوش‌های آویزان جایگزین می‌کردند. از آنجایی که انسان هنگام تعویض مکان تمرکز چشم در واقع بینایی ندارد، این اشخاص متوجه جایگزینی اشیا نمی‌شدند، ولی مغز آن‌ها متوجه این جایگزینی می‌شد.

پس از یک یا دو ساعت ادامه این آزمایش‌ها با اشیای مختلف، و نمایش این تصاویر در یک موقعیت خاص روی صفحه نمایشگر، دو شیء در دو مکان متفاوت روی صفحه نمایشگر به افراد نشان داده می‌شد و از آنان خواسته می‌شد آن‌ها را با هم مقایسه کنند. شاید به نظر برسد که افراد با مشکل خاصی در تشخیص تفاوت میان آن دو تصویر مواجه نشده‌اند که البته تقریباً همین طور بود؛ جز در مقایسه تصاویری که جابه‌جا شده بودند و اکنون دوباره در همان موقعیتی که قبلاً جابه‌جایی انجام شده بود، به نمایش در می‌آمدند.

افراد آن دو شیء را با هم قاطی می‌کردند: آن‌ها بیشتر تصور می‌کردند که موجود قلمبه با گوش‌های تیز که در یک موقعیت و موجود لاغر با گوش‌های آویزان در موقعیت دیگری بودند، در واقع یک شیء هستند. DiCarlo بر این باور است که چنین اشتباه‌هایی نشان‌دهنده این است که مکانیسم مغز در تشخیص اشیای یکسان، ولی در موقعیت‌های مکانی مختلف، به تجربه بصری عادی شخص در زمان و مکان خاص بستگی دارد. او می گوید: <یافته‌ها نشان می‌دهد که حتی شاخص‌های اصلی در شناسایی اشیا می‌تواند به وسیله تجربه‌های بصری و در تعامل با دنیای اطرافمان توسعه یابد.>

DiCarlo و تیم او سرگرم طراحی و انجام آزمایش‌های مشابهی روی جانوران هستند تا بتوانند الگوهای فعالیت عصبی را که در تشخیص اشیا بسیار حائز اهمیت است، مورد بررسی قرار دهند. (یک نمونه خوب از این پژوهش ها در چهارم نوامبر 2005 در نشریه Science منتشر شد. در این آزمایش، DiCarlo و سه تن از همکاران او فعالیت صدها نورون عصبی را در مغز میمون Macaque ضبط و سپس تحلیل کردند. آن‌ها نشان دادند که پردازش اطلاعات بدیهی درباره موجودیت شیء و نوع آن‌ها تنها به فعالیت تعداد کمی از نرون‌ها نیاز دارد.)

شناسایی یا تشخیص اشیا از آغاز، یکی از بزرگ‌ترین و سخت‌ترین اهداف هوش مصنوعی بوده است. هرچند که بینایی ماشین (machine viosion) به یک صنعت تمام عیار تبدیل شده است، اما موفقیت‌ها و دستاوردهای آن در حیطه محدودی از برنامه‌های کاربردی و در شرایطِ به شدت کنترل‌شده مانند روِیت شماره پلاک، تشخیص اثر انگشت، تشخیص کاراکترهای چاپی، و بررسی محصولات مورد استفاده قرار می‌گیرد (برای نمونه، بررسی میزان سرخ‌شدگی یک چیپس و توقف سرخ کردن آن در صورت تشخیص این‌که اگر بیشتر سرخ شود، می‌سوزد.) هر سیستم بینایی ماشین تنها یک نوع شیء خاص را <می‌بیند>؛ برای نمونه، سیستمی که شماره پلاک یک خودرو را روِیت می‌کند، دیگر قادر به تشخیص اثر انگشت نخواهد بود، و بر عکس.

هر چند به نظر می‌رسد فناوری کنونی برای ساخت ماشین‌هایی که بتوانند هر شیء خاصی را تشخیص دهند، به اندازه کافی توانمند است، ولی بیشتر مشاغل در بیشتر صنایع مانند مونتاژ، ساخت، بهداشت، حمل و نقل، و امنیت، نیازمند پیشرفت‌هایی بهتر از این است. کارکنان یک کارخانه صنعتی می‌توانند یک چکش، یک پیچ‌‌گوشتی و یک آچار را بدون توجه به تفاوت‌های آن‌ها از نظر میزان شفافیت سطح آن، ویژگی‌های شیء، و آلودگی‌ها و جرمی که شاید سطح آن‌ها را پوشانده است، از هم تشخیص دهند.

اشتباه در ساخت چنین ماشین‌هایی می‌تواند اشتباه‌هایی چون عدم توانایی در تشخیص پرنده‌ای مانند کلاغ یا جانوری مانند موش را به همراه داشته باشد که همه حاکی از نیاز به دانش سطح بالاتری از فناوری امروزی است. تفکر دیگری نیز وجود دارد و آن این‌که، انسان نمی‌تواند ماشین‌هایی را بسازد که به اندازه خودش هوشمند باشند. بدیهی است که در ورای این نوع تفکر، خودخواهی و تعصب انسان نسبت به وجود خود، حاکم است، ولی این‌که هنوز ماشینی ساخته نشده که دست کم به اندازه یک کبوتر هوشمند باشد، باعث شرمساری است!

چندین سال است که پژوهشگران هوش‌مصنوعی روی الگوهای بصری با هدف بررسی معانی یا موجودیت‌ها کار می‌کنند. این یکی از شاخه‌هایی است که هوش مصنوعی و عصب شناسی در یک نقطه به هم می‌رسند: عصب‌شناسی، نقش مغز در تشخیص اشیا را مورد بررسی قرار می‌دهد، و هوش مصنوعی این موضوع را بررسی می‌کند که یک سیستم نیازمند طی چه مراحلی برای حل چنین مسئله‌ای است. پس از سپری شدن چندین دهه، این دو علم رفته رفته به هم نزدیک‌تر می‌شوند.

DiCarlo به این فکر می‌کند که آیا زمان تولد دانش جدیدی که شامل هر دو شاخه (هوش مصنوعی و عصب‌شناسی) باشد فرارسیده است، دانشی که شاید بتوان آن را بینایی بیولوژیکی ماشین (Biologically Inspired Machine Vision) نامید.

هیچ دانشگاهی به اندازه MIT در رسیدن به این نقطه مشترک، که در آن همکاری مشترک علم و مهندسی به یک عملیات علمی و دانشگاهی تبدیل می‌شود، پیشتاز نیست. DiCarlo نیز دلیل آمدنش به MIT را همین نکته ذکر می‌کند و انتظار وقوع انقلابی علمی را در این مکان دارد.

مدلسازی تشخیص بی‌درنگ‌

یکی از نمونه‌های عینی بر اظهارات مورد اشاره DiCarlo را می‌توان در آزمایشگاه‌های Tomaso Poggio پیدا کرد.Poggio، یکی از مسئولان مرکز یادگیری‌های بیولوژیکی و محاسباتی دانشگاه ام‌آی‌تی است که چهار دهه به بررسی موضوع بینایی پرداخته است.

وی نخست در انستیتوی Max Planck واقع در Tubingen در آلمان و سپس در آزمایشگاه هوش مصنوعی دانشگاه ام‌آی‌تی (که بعدها به آزمایشگاه علوم کامپیوتر و هوش مصنوعی تغییر یافت) مشغول تحقیق بوده است، و هم اکنون در بخش مغز و علومِ ادراکی به پژوهش‌های خود ادامه می‌دهد. Poggio در پروژه تست میمون Macaque که در آغاز این نوشته به آن اشاره شد، با DiCarlo همکاری کرده است.)

او بیشتر وقت خود را به هدایت یک گروه پژوهشی عصب‌شناسی و یک گروه پژوهشی بینایی ماشین گذرانده است و در آن زمان دلیلی نمی‌دید که این دو گروه را با هم تلفیق کند. او می‌گوید: <ما چیز زیادی نمی‌دانستیم. من همیشه فکر می‌کردم این یک اشتباه است که از دانش عصب‌شناسی انتظار زیادی داشته باشیم.> ولی نتایج اخیر که از انجام پروژه‌ای توسط Thomas Serre، فارغ التحصیل دکترا، و Aude Oliva، استادیار عصب‌شناسی ادراکی در مرکز BCS به دست آمد، نظر او را تغییر داد.

آزمایشگاه Poggio هم اکنون روی یک پروژه شناسایی موسوم به شناسایی بی‌درنگ متمرکز شده است. این موضوع کمتر شناخته شده، نخستین بار در سال 1969 در یک مقاله و طی سمیناری در دانشگاه ام‌آی‌تی توسط Mary Potter (استاد فعلی روان‌شناسی مرکز BCS) و دستیار او Ellen Levy ارائه شد. شناسایی بی‌درنگ نوع سریع‌تری از شناسایی است. شخصی که باید در تست شناسایی بی‌درنگ کلاسیک مورد آزمون قرار گیرد، پیش از نمایش تصاویر روی نمایشگر و درخواست از وی برای فشار دادن یک یا دو دکمه برای واکنش نشان دادن به هر تصویر و تعیین این‌که آیا آن تصویر متعلق به یک حیوان است یا نه، درآنجا نشانده می شود.

برای اطمینان از این‌که نگاه افراد به یک تصویر به تشخیص آن‌ها هنگام نگاه کردن به تصاویر دیگر کمک نکند، پژوهشگران از تصاویری استفاده می‌کنند که بسیار متفاوت از یکدیگرند؛ مانند یک دسته جانور در پس‌زمینه‌های مختلف که هر کدام در جهت و پرسپکتیوخاصی قرار گرفته‌اند. این تصاویر تنها چند دهم ثانیه روی نمایشگر ظاهر می‌شوند. در یکی از این تست‌ها ، یکی از کسانی که مورد آزمایش قرار می‌گرفت، تقریباً هیچ چیز از تصاویری که به سرعت ظاهر و سپس ناپدید می‌شدند، نفهمید؛ چه رسد به شناسایی آن. جالب این است که این اشخاص بیشتر کلید درست را فشار می‌دادند. آن‌ها مرتباً در طول آزمایش پیشرفت می‌کنند و هشیاری آن‌ها هنگام نمایش تصاویر رفته رفته بیشتر می‌شود. مکانیسمی در مغز وجود دارد که می‌تواند اشیا را پیش از آن که شخص نسبت به تصویری که دیده است آگاه شود، شناسایی و دسته بندی کند.

شناسایی بی‌درنگ از آن جهت برای پژوهشگران حائز اهمیت است که ساده‌ترین امکان برای بررسی شناسایی عمومی اشیا است. فرآیند شناسایی بی‌درنگ چنان سریع اتفاق می‌افتد که موجب فعالیت تعداد بسیار زیادی از نورون‌های عصبی، پردازش اطلاعات بسیار یا ارسال و دریافت درخواست‌های زیاد در یک فضای بیش از یک سانتی‌متری در مغز می‌شود. اطلاعات جمعآوری شده از طریق چرخش چشم به اطراف، که در انواع دیگر شناسایی (مانند آنچه که DiCarlo انجام داده بود) موردی کلیدی محسوب می‌شود، در شناسایی بی‌درنگ نقشی ندارد.

با این وجود، بیشتر اشخاص مورد آزمایش در هنگام تست کلید درست را فشار می‌دهند، که نشان می‌دهد نوع خاصی از شناسایی اشیا می‌تواند با استفاده از تعداد کمی از نورون‌های عصبی و با آرایش ساده و نه‌چندان پیچیده نورون‌ها انجام شود.

Poggie به همراه دکتر Riesenhuber، و بعدها Grad دانشجوی سال آخر در دانشگاه ام آی‌تی و هم اکنون نیز استاد دانشگاه جورج تاون به توسعه یک تئوری درباره کارکرد بخشی از لایه بیرونی مغز که مسئول شناسایی بی‌درنگ است، پرداختند. پژوهش و نگرش آن‌ها درباره پردازش تصویر با نگرش مهندسی به بینایی ماشین متفاوت بود. برای نمونه، بیشتر نرم‌افزارهای بینایی ماشین شامل یک پردازشگر برای اجرای مجموعه‌ای از دستورات به صورت یکی پس از دیگری و ساختاری موسوم به پردازش سریال است. از سوی دیگر، مغز از پردازش موازی استفاده می‌کند، فرآیندی که طی آن، <مسئله> به چندین بخش شکسته می‌شود و هر بخش، جداگانه توسط پردازنده مخصوص خود بررسی می‌شود، و پس از پردازش آن‌ها، بسته به نوع مسئله این بخش‌ها به هم متصل و به عنوان پاسخ باز گردانده می‌شوند.

از لحاظ تئوری، مهندسان می‌بایست برای برنامه‌های بینایی ماشین از پردازش موازی استفاده کنند (گاه تلاش کرده‌اند این کار را انجام دهند)، ولی در عمل شکستن یک سؤال به چند بخش و اتصال دوباره آن‌ها به هم، به ندرت انجام می‌شود. با این حال بینایی بیولوژیکی (Biological vision) این مشکل را به چند طریق مختلف مرتفع کرده است. یکی از آن راه‌ها به گفته گروه Poggio، سازماندهی و کنترل پردازش است. به‌گونه‌ای که پردازش شامل دو عملیات ساده باشد و سپس جایگزین‌کردن این عملیات با یک ترتیب مشخص در لایه‌های نورون‌های عصبی. لایه A باید ورودی‌های اصلی از عصب نوری چشم را فیلتر کند؛ لایه B نیز نتایجی را که از سلول‌ها در لایه A جمعآوری شده با هم ترکیب می‌کند؛ لایه C ورودی‌ها از لایه B را فیلتر می‌کند. لایه D نیز نتایج لایه C را به هم متصل می‌کند و به همین ترتیب کار ادامه پیدا می‌کند.

در اثر افزایش سیگنال‌ها در لایه‌های گفته شده، خروجی‌های پردازه‌هایی که به صورت موازی پردازش شده‌اند، به آرامی به هم متصل و موجودیت‌ها با هم ادغام می‌شوند و نویزها (پارازیت‌ها) از میان می‌روند. Serre و Poggio از این روش لایه‌بندی استفاده کردند تا مدل پیشنهادی خود را قادر به پردازش موازی کنند.

روش دیگری که آن‌ها برای پیاده‌سازی آن از زیست‌شناسی استفاده کردند، افزایش تعداد اتصالاتی بود که به واحدهای سوییچینگ اصلی آن‌ها وصل می‌شد. واحدهای سوییچینگ در کامپیوترهای رایج امروزی دارای اتصالات بسیار کم، (در حدود سه اتصال)، هستند؛ ولی تعداد نورون‌های عصبی که به مثابه واحدهای سوییچینگ مغز هستند، به هزاران و گاه حتی ده‌ها هزار عدد می‌رسد. Serre و Poggio در مدل خود از سوییچ‌های منطقی با تعداد معقول استفاده کردند. همچنین گاه از حدس‌ها و آموخته‌هایی مبتنی بر تجربیات خود از ساختار نورون‌ها استفاده کردند که البته هنوز از دید علمی قابل توضیح نیست.

Serre و Poggie برای تست تئوری خود، به توسعه یک برنامه کامپیوتری ویژه شناسایی بی‌درنگ پرداختند که می‌توانست تصاویر دیجیتال را تحلیل کند. وقتی فایل‌های تصویر دیجیتال به برنامه داده می‌شود، برنامه اطلاعات آن را به لایه‌های چندگانه فیلترکننده (که در بالا به آن‌ها اشاره شد) و سلول‌های متصل کننده می‌رساند تا با این‌کار، برنامه خودش را برای شناسایی و دسته بندی تصاویرآموزش دهد. Serre می‌گوید: <نکته کلیدی این است که در این روش، پیچیدگی به آهستگی پیش میآید.> وی می افزاید، <استفاده شتابزده از این هوشمندی اشتباه بزرگی است.> پژوهش‌های گذشته درباره هوش مصنوعی، شناسایی را شتابزده و بدون توجه به اطلاعات کلیدی بررسی می کرد؛ اطلاعاتی که می‌توانست در همان زمان آن‌ها را به نتیجه برساند.

نحوه عملکرد Serre و Poggio موفقیت بزرگی محسوب می‌شد. از نقطه نظر عصب‌شناسی، برخی از حدس‌ها و گمانه‌زنی‌های آن‌ها موجب پیش‌بینی برخی از حقایق مهم مانند مشاهده سلول‌ها (موسوم به سلول‌های OR)شد که قوی‌ترین یا پایدارترین سیگنال‌ها را از میان گروهی از ورودی‌ها برمی‌دارند و آن را به فیبرهای خروجیشان کپی می‌کنند. (سه نورون عصبی A ،B و C که همگی به نورون X از نوع نرون‌های OR سیگنال می‌فرستند را تصور کنید. اگر هر کدام از این سیگنال‌ها به ترتیب درسطوح 1، 2 و 3 ارسال شوند، نورون X از ورود سیگنال‌های A و Bجلوگیری می‌کند و سیگنالC را در خروجی خود کپی می‌کند. اگر ترتیب سطوح سیگنال‌ها 3، 2 و 1 بود، سیگنال Aدر خروجی X کپی می‌شد و از ورود سیگنال‌های B و C جلوگیری می‌شد.)

این نتایج به دست آمده تنها از دید دانش هوش‌مصنوعی جالب به نظر می‌رسند. وقتی نرم‌افزار شناسایی بی‌درنگSerre و Poggio تست وجود یا عدم وجود یک جانور را از افراد مورد آزمایش می گرفت، عملکرد کامپیوتر به خوبی عملکرد انسان بود؛ و بهتر از عملکرد بهترین برنامه‌های بینایی ماشین موجود!

(این نرم افزار در هشتاد و دو درصد مواقع به پاسخ درست می‌رسید. جالب آن‌که، میزان موفقیت برای انسان‌ها، هشتاددرصد بود.) این تقریباً نخستین بار بود که یک برنامه پردازش تصویر عمومی به خوبی انسان عمل می کرد.

نتایج امیدبخشِ به دست آمده Poggio و Serre را بر آن داشته است به چیزی فراتر از شناسایی بی‌درنگ فکر کنند. Poggio اظهار امیدواری می‌کند که این مدل بتواند به همین خوبی در بررسی حس شنوایی نیز مورد استفاده قرار بگیرد. Serre در انجام چنین ریسکی از این هم پیشتر می‌رود و می‌گوید: شناسایی عمومی اشیا، اساس شناسایی بر اساس حواس است. شاید به همین خاطر است که وقتی می‌خواهیم نشان دهیم که چیزی را فهمیده‌ایم یا متوجه شده‌ایم، می‌گوییم <می‌بینم> (1)

هر چند توسعه تئوری آن‌ها به حیطه‌های جدید، نیازمند پیشرفت‌های بیشتری است، مدل پیشنهادی Sierre وPoggio گسترش خود به هر دو دانش هوش مصنوعی و عصب‌شناسی را در دانشگاه ام‌آی‌تی آغاز کرده است. Stan Bileschi دانشجوی سال آخر مهندسی برق، اخیراً در پایان‌نامه دکترای خود به معرفی مدلی موسوم به تشخیص صحنه (scene recognition) پرداخته است که اساس قضاوت‌های سطح بالای انسان محسوب می‌شود. <یک مزرعه را در نظر بگیرید!> این مدل شامل شناسایی اشیای مجزا از هم، مانند گاو، نرده‌های طویل کنار مزرعه و هر آنچه که در آنجا قرار دارد می شود. Bileschi بر این باور است که تحلیل یک صحنه برتر از عملکرد بسیاری از برنامه‌های پردازش تصویر ماشینی (مانند پاییدن یک شیء) است.

Poggio می‌گوید تشخیص بی‌درنگ مبنا و اساس شناسایی‌های تصویر است، ولی همهِ چیزی نیست که ما نیازمند آنیم. سطوح متفاوتی از شناسایی وجود دارد که تشخیص بی‌درنگ یکی از ساده‌ترین انواع آن است. بسته به وضعیت موجود، یک شیء می‌تواند به عنوان یک اسباب بازی، یک عروسک، بازتابی از فرهنگ آمریکایی، یک شخصیت یا هر چیز دیگری معرفی شود. (اگر قصد خرید یک عروسک را داشته باشید، عروسک پشت ویترین برای ما، یک عروسک یا اسباب بازی است، ولی اگر آن عروسک در یک نمایشگاه تجارت و صادرات عرضه شود، به عنوان یک محصول تجاری و صادراتی معرفی می‌شود. یعنی وضعیتی که در آن قرار داریم، تعریف ما از اشیا را تحت تأثیر قرار می‌دهد.)

به طرز مشابهی در مسائل شطرنج، تشخیص حرکت درست ممکن است بسته به آرایش مهره‌ها، به چند ثانیه، دقیقه یا ساعت زمان نیاز داشته باشد. می‌توان گفت هر چه مشکلات بغرنج تر می‌شوند، مرتفع کردن آن‌ها به کارکردهای مغزی پیشرفته‌تری نیاز پیدا می‌کند که نیاز به زمان بیشتری خواهد داشت.

یک مدل شناسایی یا تشخیص بی‌درنگ شاید بتواند مسائل بصری‌ای را که مانع پیش روی توسعه و بهبود ساخت و پایداری روبات‌ها است حل کند. همچنین توسعه این مدل می‌تواند کاربردهای واقعاً ارزشمند دیگری نیز داشته باشد. مانند افزودن قابلیت تشخیص پیچیدگی‌ها ودلایل آن‌ها در تصویری از یک چشم‌انداز یا منظره. روشن است که این نوع از شناسایی بسیار سطح بالا محسوب می شود.

گام بعدی، ساخت مدل‌های تشخیص‌دهنده‌ای است که منابع هر چه بیشتری را به سیستم خود می‌افزایند و بر همین اساس نیاز به زمان بیشتری برای پردازش دارند. Serre می‌گوید: <ما می‌دانیم این مدل باید چگونه تغییر یابد تا مسئله زمان هم مد نظر قرار بگیرد. این مورد می‌تواند ما را به نحوه تفکر مغز نزدیک‌تر کند؛ البته شاید.>

پی نوشت:

1- معادلِ فارسی در انگلیسی، <می‌دانم> و زمانی به کار می‌رود که می‌خواهیم نشان دهیم چیزی را که دیگران می‌دانند یا درباره آن حرف می‌زنند، ما نیز می‌دان

علی حسینی

طراحی وب سایت فروشگاه اینترنتی طراحی فروشگاه اینترنتی سیستم مدیریت تعمیر و نگهداری سامانه تعمیر و نگهداری PM سامانه جمع آوری شناسنامه کامپیوتر سیستم جمع آوری شناسنامه کامپیوتر سیستم مدیریت کلان IT طراحی وب سایت آزانس املاک وب سایت مشاورین املاک طراحی پورتال سازمانی سامانه تجمیع پاساژ آنلاین پاساژ مجازی

جدیدترین مقاله ها