Xintonning kapsula tarmoqlarini tushunish. I qism: sezgi.

Hintonning kapsula tarmoqlari tarmog'ini tushunishning bir qismi:

I qism: sezgi (hozir o'qiyapsiz)
II qism: kapsulalar qanday ishlaydi
III qism: Kapsüller orasidagi dinamik marshrutlash
IV qism: CapsNet arxitekturasi

AI³ yangi nashrimiz haqida tezkor e'lon. Biz eng yaxshi yozuvchilarni AI nazariyasi, amaliyoti va biznesi va mashina o'rganish haqida suhbatlashish uchun to'playmiz. Eng so'nggi tendentsiyalardan xabardor bo'lish uchun unga amal qiling.

1.Kirish

O'tgan hafta Jefri Xinton va uning jamoasi ikkita kapsula asosida kapsulalar asosida yangi neyron tarmog'ini taqdim etgan ikkita hujjatni nashr etishdi. Bundan tashqari, jamoa kapsulalar orasidagi dinamik marshrut deb nomlangan algoritmni nashr etdi, bu esa bunday tarmoqni o'rgatish imkonini beradi.

Jefri Xinton o'n yillar davomida kapsulalar haqida o'ylab yurdi. Manba.

Chuqur bilim olayotgan jamoalar uchun bu juda katta yangilik va bir necha sabablarga ko'ra. Birinchidan, Xinton chuqur o'rganish asoschilaridan biri va bugungi kunda keng qo'llaniladigan ko'plab modellar va algoritmlarning ixtirochisidir. Ikkinchidan, ushbu hujjatlar mutlaqo yangi bir narsani taqdim etadi va bu juda hayajonli, chunki bu qo'shimcha tadqiqotlar to'lqinini va juda ajoyib dasturlarni rag'batlantiradi.

Ushbu postda men ushbu yangi arxitektura nega shunchalik muhimligini va uning orqasida sezgi borligini tushuntiraman. Keyingi postlarda men texnik tafsilotlarni ko'rib chiqaman.

Ammo, kapsulalar haqida gapirishdan oldin, CNN-larni ko'rib chiqishimiz kerak, ular bugungi kunda chuqur o'rganishning asosiy yo'nalishi hisoblanadi.

Asl qog'ozdan CapsNet arxitekturasi.

2. CNN-larda muhim kamchiliklar mavjud

CNNlar (konvulsion neyron tarmoqlari) juda ajoyib. Ular bugungi kunda chuqur o'rganish juda mashhur bo'lgan sabablardan biridir. Ular odamlar kompyuterlarni uzoq vaqt davomida qila olmaydilar deb o'ylashlari bilan ajablantiradigan narsalarni qilishlari mumkin. Shunga qaramay, ularning chegaralari bor va ularning asosiy kamchiliklari bor.

Keling, juda oddiy va texnik bo'lmagan misolni ko'rib chiqaylik. Yuzingizni tasavvur qiling. Qanday tarkibiy qismlar bor? Bizda yuz tasviri, ikkita ko'z, burun va og'iz bor. CNN uchun bu narsalarning shunchaki mavjudligi tasvirdagi yuz borligini hisobga olish uchun juda kuchli ko'rsatkich bo'lishi mumkin. Ushbu tarkibiy qismlar orasidagi orientatsiya va nisbiy fazoviy munosabatlar CNN uchun juda muhim emas.

CNN uchun ikkala rasm ham bir-biriga o'xshashdir, chunki ikkalasida ham bir-biriga o'xshash elementlar mavjud. Manba.

CNNlar qanday ishlaydi? CNN ning asosiy tarkibiy qismi - bu yig'ma qatlam. Uning vazifasi tasvir piksellaridagi muhim xususiyatlarni aniqlashdir. Chuqurroq (kirishga yaqinroq) qatlamlar qirralar va rang gradyanlari kabi oddiy xususiyatlarni aniqlashni o'rganadi, yuqori qavatlar esa oddiy xususiyatlarni yanada murakkab xususiyatlarga birlashtiradi. Va nihoyat, tarmoqning yuqori qismidagi zich qatlamlar juda yuqori darajadagi xususiyatlarni birlashtiradi va tasniflash bashoratini keltirib chiqaradi.

Ta'kidlash kerak bo'lgan muhim narsa shundan iboratki, yuqori darajadagi xususiyatlar pastki darajadagi xususiyatlarni vazn yig'indisi sifatida birlashtiradi: oldingi qavatning faollashuvi neyronlarning og'irliklariga quyidagi qavatga ko'paytiriladi va aktivizatsiya chizig'iga o'tmasdan oldin qo'shiladi. Ushbu sozlamaning hech bir joyida yuqori darajadagi xususiyatni tashkil etadigan sodda xususiyatlar o'rtasida pozitsiya (tarjima va aylanish) mavjud emas. Ushbu muammoni hal qilishda CNN yondashuvi tarmoq orqali oqib chiqadigan ma'lumotlarning fazoviy hajmini kamaytiradigan va yuqori darajadagi neyronlarning "ko'rish maydonini" oshiradigan maksimal yig'ish yoki ketma-ket biriktiruvchi qatlamlardan foydalanish bo'lib, ular yuqori darajadagi buyurtma xususiyatlarini aniqlashga imkon beradi. kirish rasmining kattaroq mintaqasi. Maks puling - bu turli xil sohalarda g'ayritabiiy ishlarga erishib, konvulsion tarmoqlarni hayratlanarli darajada yaxshi ishlashga majbur qilgan. Ammo uning ishlashiga aldanmang: CNN-lar o'zlaridan oldingi modellarga qaraganda yaxshiroq ishlayotganda, maksimal pul yig'ish qimmatli ma'lumotlarni yo'qotmoqda.

Hintonning o'zi ta'kidlashicha, maksimal puling juda yaxshi ishlamoqda, bu katta xato va falokatdir:

Xinton: "Asabiy asabiy tarmoqlarda ishlatiladigan birlashtirish operatsiyasi katta xato va uning juda yaxshi ishlashi falokatdir."

Albatta, siz maksimal pulingni yo'q qila olasiz va an'anaviy CNN-lar bilan yaxshi natijalarga erishishingiz mumkin, ammo ular hali ham asosiy muammoni hal qilmaydi:

Konvulsion neyron tarmoqning ichki ma'lumotlari oddiy va murakkab ob'ektlar orasidagi muhim fazoviy ierarxiyalarni hisobga olmaydi.

Yuqoridagi misolda, rasmda faqat 2 ko'z, og'iz va burun borligi, bu yuz borligini anglatmaydi, shuningdek, ushbu ob'ektlar bir-biriga nisbatan qanday yo'naltirilganligini bilishimiz kerak.

3. 3D-neyron tarmoqqa kodlash: teskari grafik yondashuv

Kompyuter grafikasi geometrik ma'lumotlarning ba'zi ichki ierarxik ko'rinishidan vizual tasvirni qurish bilan shug'ullanadi. E'tibor bering, ushbu vakillik tuzilishi ob'ektlarning nisbiy pozitsiyalarini hisobga olish kerak. Ushbu ichki vakolat kompyuterning xotirasida ushbu ob'ektlarning nisbiy pozitsiyalari va yo'nalishini ifodalaydigan geometrik jismlar va matritsalar massivi sifatida saqlanadi. Keyin maxsus dasturiy ta'minot ushbu vakillikni oladi va uni ekrandagi rasmga aylantiradi. Bunga renderlash deyiladi.

Kompyuter grafikasi ob'ektlarning ichki ko'rinishini oladi va tasvirni yaratadi. Inson miyasi buning aksini qiladi. Kapsül tarmoqlari miyaga o'xshash yondashuvga amal qiladi. Manba.

Ushbu g'oyadan ilhomlangan Hinton, miyalar, aslida, aksincha, aks ettirishni aksincha qiladi, deb ta'kidlaydi. U buni teskari grafika deb ataydi: ko'zlar tomonidan olingan vizual ma'lumotlardan ular atrofimizdagi dunyoning ierarxik vakolatini tuzib, uni miyada saqlangan o'rganilgan naqshlar va munosabatlar bilan taqqoslashga harakat qilishadi. Shunday qilib, tan olish sodir bo'ladi. Va asosiy g'oya shundaki, miyadagi ob'ektlarning tasvirlanishi ko'rish burchagiga bog'liq emas.

Shunday qilib, savol tug'iladi: biz ushbu ierarxik aloqalarni neyron tarmog'i ichida qanday qilib modellashtiramiz? Javob kompyuter grafikasidan kelib chiqadi. 3D grafikasida, 3D ob'ektlar orasidagi munosabatlar mohiyatiga ko'ra tarjima va aylantirishga asoslangan poza deb atalishi mumkin.

Xinton ta'kidlashicha, ob'ektlarni tasniflash va tanib olishni to'g'ri bajarish uchun ob'ekt qismlari o'rtasida ierarxik poz pozitsiyasini saqlab qolish kerak. Bu kapsula nazariyasi nima uchun juda muhimligini tushunishga imkon beradigan asosiy sezgi. U ob'ektlar o'rtasidagi nisbiy munosabatlarni o'z ichiga oladi va u raqamli ravishda 4D pozri matritsasi sifatida namoyish etiladi.

Ushbu aloqalar ma'lumotlarning ichki ko'rinishida tuzilganida, model ko'rgan narsaning oldingisiga nisbatan boshqa ko'rinishi ekanligini tushunish juda oson bo'ladi. Quyidagi rasmni ko'rib chiqing. Bu Ozodlik haykali ekanligini osongina anglashingiz mumkin, garchi barcha rasmlar uni turli burchaklardan ko'rsatsa ham. Buning sababi, miyangizdagi Ozodlik haykalining ichki ko'rinishi ko'rish burchagiga bog'liq emas. Ehtimol, siz ushbu aniq rasmlarni hech qachon ko'rmagansiz, lekin baribir bu nima ekanligini darhol bilgansiz.

Sizning miyangiz bu bir xil ob'ektni osongina taniy oladi, garchi barcha fotosuratlar turli burchaklardan olingan bo'lsa ham. CNN-larda bunday imkoniyat yo'q.

CNN uchun bu vazifa juda qiyin, chunki unda 3D makon to'g'risida bunday tushuncha mavjud emas, lekin CapsNet uchun bu ancha oson, chunki bu munosabatlar aniq modellashtirilgan. Ushbu yondashuvdan foydalanadigan qog'oz, oldingi holatga nisbatan xatolar darajasini 45 foizga qisqartirishga muvaffaq bo'ldi, bu juda yaxshilanishdir.

Kapsül yondashuvining yana bir foydasi shundaki, u CNN foydalanadigan ma'lumotlarning faqat bir qismini ishlatgan holda zamonaviy san'at ko'rsatkichlariga erishishni o'rganishga qodir (Hinton buni CNN-larga qarshi bo'lgan mashhur nutqida aytib o'tgan). . Shu ma'noda kapsula nazariyasi inson miyasi amalda bajaradigan narsalarga ancha yaqin. Raqamlarni bir-biridan farqlashni o'rganishni o'rganish uchun inson miyasi atigi o'nlab misollarni ko'rishi kerak, yuzlab. O'z navbatida, CNN-larga juda yaxshi ishlashga erishish uchun o'n minglab misollar kerak, bu bizning miyamiz bilan qilgan ishimizdan yaqqol ko'rinadigan shafqatsiz kuch yondashuviga o'xshaydi.

4. Nima uzoq vaqtga cho'zildi?

G'oya juda sodda, ilgari hech kim uni o'ylab topmagan yo'l yo'q! Haqiqat shuki, Xinton bu haqda o'nlab yillar davomida o'ylab kelgan. Nashrlar yo'qligining sababi shunchaki uni ilgari ishlash uchun texnik usul yo'qligi bilan izohlanadi. Buning sabablaridan biri shundaki, kompyuterlar GPUgacha bo'lgan davrda, taxminan 2012 yilgacha, etarlicha kuchli emas edilar. Boshqa sabab shundaki, kapsulalar tarmog'ini amalga oshirish va muvaffaqiyatli o'rganishga imkon beradigan algoritm yo'q edi (xuddi shu tarzda g'oya). sun'iy neyronlar 1940-yillardan beri bo'lgan, ammo 1980-yillarning o'rtalariga kelib, orqa-propagatsiya algoritmi paydo bo'lganda va chuqur tarmoqlarni muvaffaqiyatli o'qitishga imkon berilganda).

Xuddi shu tarzda, kapsulalar g'oyasining o'zi unchalik yangi emas va Hinton bu haqda oldin ham aytib o'tgan, ammo hozirga qadar uni ishlata oladigan algoritm yo'q edi. Ushbu algoritm "kapsulalar orasidagi dinamik marshrutlash" deb nomlanadi. Ushbu algoritm kapsulalarni bir-biri bilan bog'lashga va kompyuter grafikasida sahna grafikalariga o'xshash tasvirlarni yaratishga imkon beradi.

Kapsula tarmog'i boshqa modellarga qaraganda ancha yuqori, chunki yuqoridagi va pastki qatorlardagi rasmlar bir xil sinflarga tegishli, faqat ko'rish burchagi farq qiladi. So'nggi nashrlarda xato darajasi 45% ga kamaydi. Manba.

5. Xulosa

Narsalar tarmog'ining ichki bilimlarini aks ettirish ichidagi ierarxik munosabatlarni yaxshiroq modellashtirish uchun chuqur o'rganish jarayonida ishlatilishi mumkin bo'lgan yangi bloklar mavjud. Ularning orqasida sezgi juda sodda va oqlangan.

Xinton va uning jamoasi kapsulalardan tashkil topgan bunday tarmoqni o'qitish usulini taklif qilishdi va uni zamonaviy ma'lumotlar to'plamiga oddiy ma'lumot to'plamida muvaffaqiyatli o'rgatishdi. Bu juda dalda beradi.

Shunga qaramay, qiyinchiliklar mavjud. Amaliy tatbiq etish boshqa zamonaviy chuqur o'rganish modellariga qaraganda ancha sekin. Kapsula tarmoqlarini tez va samarali o'qitish mumkinligini vaqt ko'rsatadi. Bundan tashqari, ular yanada qiyin ma'lumot to'plamlarida va turli sohalarda yaxshi ishlaydilarmi-yo'qligini ko'rishimiz kerak.

Qanday bo'lmasin, kapsulalar tarmog'i juda qiziqarli va allaqachon ishlaydigan model bo'lib, vaqt o'tishi bilan yanada rivojlanib, chuqur o'rganish sohasini yanada kengaytirishga hissa qo'shadi.

Bu kapsula tarmoqlari seriyasining birinchi qismiga yakun yasaydi. Ikkinchi qismda, ko'proq texnik qismda, men sizni asta-sekin CapsNet-ning ichki ishlanmalaridan o'taman.

O'qiganingiz uchun rahmat! Agar sizga yoqqan bo'lsa, quyidagi chap tugmachani bosing va veb-saytimdagi yangilanishlarga obuna bo'ling! Bu men uchun juda ko'p narsani anglatar edi va menga bu kabi ko'proq hikoyalar yozishga undaydi.

Siz meni Tvitterda kuzatishingiz mumkin. LinkedIn-ga ulanaylik.