10 ta statistik usul ma'lumotlari bo'yicha mutaxassislar o'zlashtirishlari kerak

Ma'lumot haqidagi ma'lumotning shahvoniyligi masalasida qaerda ekanligingizdan qat'i nazar, ma'lumotlarning doimiy ahamiyatini va uni tahlil qilish, tashkillashtirish va kontekstualizatsiya qilish qobiliyatiga e'tibor bermaslik mumkin emas. Glassdoor o'zining ish bilan ta'minlanganligi va xodimlarning fikr-mulohazalarining ulkan do'konlariga tayanib, "Amerikadagi eng yaxshi 25 ish" ro'yxatida 1-o'rinni ma'lumotlarga bag'ishladi. Shunday qilib, bu erda qolish muhimdir, ammo Ma'lumotlar bo'yicha mutaxassis nima qilish kerakligi aniq. Machine Learning kabi texnologiyalar tobora odatiy holga aylanib bormoqda va "Deep Learning" kabi rivojlanayotgan sohalar tadqiqotchilar va muhandislar - va ularni yollayotgan kompaniyalar orasida katta qiziqish uyg'otmoqda - Ma'lumotlar bo'yicha olimlar innovatsiyalar va texnologik taraqqiyotning ajoyib to'lqinini ko'tarishda davom etmoqdalar.

Kodlash qobiliyatiga ega bo'lish juda muhim bo'lsa-da, ma'lumot ilmi dasturiy ta'minotni yaratish bilan bog'liq emas (aslida, Python bilan yaxshi tanish va siz borishingiz yaxshi). Ma'lumot olimi kodlash, statistika va tanqidiy fikrlash chorrahasida yashaydi. Josh Vills ta'kidlaganidek, "ma'lumotlar olimi har qanday statistikadan ko'ra statistikani yaxshi biladigan va dasturlash bo'yicha har qanday statistikadan yaxshiroq bo'lgan odam". Men shaxsan ma'lumotlar olimi tizimiga o'tmoqchi bo'lgan va mashinalarni o'rganish tizimlaridan ko'r-ko'rona foydalanadigan juda ko'p dastur muhandislarini bilaman. TensorFlow yoki Apache ularning statistik nazariyalarini to'liq tushunmasdan ma'lumotlarga uchqun beradi. Shunday qilib, statistika o'rganish, statistika va funktsional tahlil sohalaridan mashina o'rganish uchun nazariy asos yaratiladi.

Nega Statistik o'rganishni o'rganish kerak? Turli xil texnikaning g'oyalarini qanday va qachon ishlatishni bilish uchun ularni tushunish muhimdir. Murakkab usullarni tushunish uchun avval sodda usullarni tushunish kerak. Usulning ishlashini to'g'ri baholash, uning qanchalik yaxshi yoki yomon ishlashini bilish juda muhimdir. Bundan tashqari, bu fan, sanoat va moliya sohalarida muhim qo'llanmalarga ega bo'lgan qiziqarli tadqiqot sohasi. Oxir oqibat, statistik o'rganish zamonaviy ma'lumot olimi tayyorlashda asosiy tarkibiy qism hisoblanadi. Statistik o'rganish muammolariga misollar quyidagilardan iborat:

  • Prostata saratoni uchun xavf omillarini aniqlang.
  • Yozilgan fonemani log-periodogramma asosida tasniflang.
  • Demografik, dietali va klinik o'lchovlar asosida kimdir infarktga duchor bo'lishini oldindan taxmin qiling.
  • Elektron pochta spamini aniqlash tizimini sozlang.
  • Qo'lda yozilgan pochta indeksidagi raqamlarni aniqlang.
  • To'qimalar namunasini saraton kasalligining bir nechta sinflaridan biriga tasniflang.
  • Aholi sonini aniqlash ma'lumotlaridagi ish haqi va demografik o'zgaruvchilar o'rtasidagi bog'liqlikni o'rnatish.

Kollejdagi so'nggi semestrimda ma'lumot konlari bo'yicha mustaqil tadqiqot o'tkazdim. Ushbu darslik uchta kitobdan olingan keng qamrovli materiallarni o'z ichiga oladi: Statistik o'qishga kirish (Xasti, Tibshirani, Vitten, Jeyms), Bayesian ma'lumotlarini tahlil qilish (Kruschke) va Vaqt ketma-ketligini tahlil qilish va qo'llash (Shumway, Stoffer). Biz Bayesian Analizi, Markov Zanjiri Monte Karlo, Ierarxik Modellashtirish, Nazorat ostiga olingan va Nazoratsiz O'rganish bo'yicha ko'plab mashqlarni bajarganmiz. Ushbu tajriba Data Mining akademik maydoniga bo'lgan qiziqishimni yanada oshiradi va bu sohada yanada ko'proq ixtisoslashishga ishontiradi. Yaqinda men Stenford Lagunitada "Statistik ta'lim" onlayn kursini yakunladim, u "Mustaqil o'rganishim" da o'qigan "Statistikaga kirish" kitobidagi barcha ma'lumotlarni o'z ichiga oladi. Endi tarkibga ikki marotaba duch kelganimda, men ushbu ma'lumotdan 10 ta statistik usulni baham ko'rmoqchiman, ishonaman, har qanday ma'lumotlar katta ma'lumotlar to'plamlari bilan ishlashda samaraliroq bo'lishni o'rganishi kerak.

Ushbu 10 usul bilan ishlashdan oldin men statistik o'rganish va mashina orqali o'qishni farqlashni istayman. Men ilgari mashina o'rganish bo'yicha eng ommabop O'rta ma'lumotlardan birini yozganman, shuning uchun bu farqlarni asoslash uchun tajribam borligiga aminman:

  • Mashinada o'qitish sun'iy intellektning pastki sohasi sifatida vujudga keldi.
  • Statistik o'rganish Statistikaning pastki zonasi sifatida vujudga keldi.
  • Mashinada o'qitish katta hajmdagi dasturlarga va bashorat qilishning aniqligiga ko'proq e'tibor beradi.
  • Statistik o'rganish modellar va ularning izohlanishi, aniqligi va noaniqligini ta'kidlaydi.
  • Ammo tafovut tobora xiralashmoqda va ko'p "xoch urug'lantirish" mavjud.
  • Mashinada o'qitish Marketingda ustunlikka ega!

1 - Chiziqli regressiya:

Statistikada, chiziqli regressiya - bu bog'liq va mustaqil o'zgaruvchiga eng yaxshi chiziqli aloqani o'rnatish orqali maqsadli o'zgaruvchini taxmin qilish usuli. Eng yaxshi moslash, har bir nuqtada shakl va haqiqiy kuzatuvlar orasidagi barcha masofalar yig'indisi imkon qadar kichik ekanligiga ishonch hosil qilish orqali amalga oshiriladi. Shaklga mosligi, shakni tanlashda boshqa biron bir pozitsiyada kamroq xato bo'lmaydi, degan ma'noni anglatadi. Chiziqli regressning 2 asosiy turi oddiy chiziqli regressiya va ko'p chiziqli regressiya. Oddiy chiziqli regressiya eng yaxshi chiziqli munosabatlarni o'rnatish orqali bog'liq o'zgaruvchini bashorat qilish uchun bitta mustaqil o'zgaruvchidan foydalanadi. Bir nechta chiziqli regressiya eng yaxshi chiziqli munosabatlarni o'rnatish orqali bog'liq o'zgaruvchini bashorat qilish uchun bir nechta mustaqil o'zgaruvchilardan foydalanadi.

Kundalik hayotingizda ishlatadigan va bog'liq bo'lgan har qanday 2 narsani tanlang. Shunga o'xshab, menda so'nggi 3 yil uchun oylik xarajatlarim, oylik daromadim va oyiga qilgan tashriflarim to'g'risida ma'lumotlar bor. Endi men quyidagi savollarga javob berishim kerak:

  • Keyingi yil uchun oylik xarajatlarim qanday bo'ladi?
  • Mening oylik xarajatlarimni hal qilishda qaysi omil (oylik daromadi yoki oyiga ketadigan safarlar soni) muhimroq?
  • Oylik daromadlar va oylik sayohatlar oylik xarajatlar bilan qanday bog'liq?

2 - Tasniflash:

Tasniflash - bu aniqroq prognozlash va tahlil qilishda yordam berish uchun ma'lumotlar to'plamiga toifalarni ajratadigan ma'lumotlarni yig'ish usuli. Ba'zida qaror daraxti deb ham ataladi, tasniflash juda katta ma'lumotlar to'plamini tahlil qilishni samarali qilish uchun mo'ljallangan bir necha usullardan biridir. Tasniflashning ikkita asosiy usuli ajralib turadi: logistik regressiya va diskriminant tahlil.

Logistik regressiya - bu o'zgaruvchini dikotomik (ikkilik) bo'lganida, tegishli regressiya tahlilidir. Barcha regressiya tahlillari singari, logistik regressiya ham bashoratli tahlildir. Logistik regressiya ma'lumotlarga tavsif berish va bitta bog'liq ikkilik o'zgaruvchini va bir yoki bir nechta nominal, tartibli, oraliq yoki nisbat darajasidagi mustaqil o'zgaruvchilar o'rtasidagi munosabatni tushuntirish uchun ishlatiladi. Logistik regressiya tekshirishi mumkin bo'lgan savollar turlari:

  • Har qanday qo'shimcha kilogramm funt uchun va kuniga chekilgan har bir sigaret uchun o'pka saratonini (Ha va Yo'q) olish ehtimoli qanday o'zgaradi?
  • Tana vaznining kaloriya miqdori, yog 'iste'moli va ishtirokchilar yoshi yurak xurujlariga ta'sir qiladimi (Ha va Yo'q)?

Diskriminant tahlilda 2 yoki undan ortiq guruhlar yoki klasterlar yoki populyatsiyalar priori ma'lum va 1 yoki undan ortiq yangi kuzatuvlar o'lchanadigan xususiyatlar asosida ma'lum populyatsiyalarning 1 tasniflanadi. Diskriminant tahlil bashorat qiluvchilar X ning javob sinflarining har birida alohida taqsimlanishini modellashtiradi va keyinchalik Bayes teoremasidan foydalanib, X qiymatini hisobga olgan holda javob kategoriyasining ehtimolini taxmin qilish uchun foydalanadi. Bunday modellar chiziqli yoki kvadratik bo'lishi mumkin. .

  • Lineer Discriminant təhlili har bir kuzatuv uchun "kamsituvchi" ballarni hisoblab chiqadi va javob o'zgaruvchisi sinfini tasniflaydi. Ushbu ballar mustaqil o'zgaruvchilarning chiziqli kombinatsiyasini topish orqali olinadi. Bu har bir sinf ichidagi kuzatuvlar Gaussning ko'p o'lchovli taqsimotidan kelib chiqqan va bashorat qiluvchi o'zgaruvchilarning kovarianligi Y o'zgaruvchining barcha k darajalarida keng tarqalgan deb taxmin qiladi.
  • Kvadratik diskriminantlar tahlili alternativ yondashuvni ta'minlaydi. LDA singari QDA har bir Y sinfidagi kuzatuvlar Gauss taqsimotidan olingan deb taxmin qiladi. Ammo, LDA dan farqli o'laroq, QDA har bir sinfning o'ziga xos kovariatsiya matritsasi mavjud deb taxmin qiladi. Boshqacha qilib aytganda, bashoratli o'zgaruvchilar Y-dagi k darajalarning har biri bo'yicha umumiy tafovutga ega deb qabul qilinmaydi.

3 - takrorlash usullari:

Qayta taqsimlash - bu dastlabki ma'lumotlar namunalaridan takrorlangan namunalarni olishdan iborat usul. Bu statistik xulosaning parametrik bo'lmagan usuli. Boshqacha qilib aytganda, taqqoslash usuli taxminiy p ehtimollik qiymatlarini hisoblash uchun umumiy tarqatish jadvallaridan foydalanishni o'z ichiga olmaydi.

Qayta taqsimlash haqiqiy ma'lumotlar asosida noyob namunalar taqsimotini yaratadi. Noyob namunalar taqsimotini yaratish uchun u analitik usullardan ko'ra eksperimental usullardan foydalanadi. Bu ob'ektiv baholarni beradi, chunki tadqiqotchi o'rgangan ma'lumotlarning barcha mumkin bo'lgan natijalarining ob'ektiv namunalariga asoslanadi. Qayta taqsimlash tushunchasini tushunish uchun Bootstrapping va Cross-Validation atamalarini tushunishingiz kerak:

  • Bootstrapping - bu ko'plab vaziyatlarda modelning bashoratli ishlashini tekshirish, ansambl usullari, tarafkashlik va modelning o'zgarishini baholashda yordam beradigan usul. U dastlabki ma'lumotlarni almashtirish bilan tanlab olish orqali ishlaydi va "tanlanmagan" ma'lumotlar punktlarini test holati sifatida oladi. Biz buni bir necha bor amalga oshira olamiz va o'rtacha ko'rsatkichni modelimizning ishlashini baholash sifatida hisoblashimiz mumkin.
  • Boshqa tomondan, o'zaro faoliyat tekshirish - bu modelning ishlashini tekshirish usuli bo'lib, mashg'ulot ma'lumotlarini k qismlarga bo'lish orqali amalga oshiriladi. Biz k-1 qismni mashg'ulotlar to'plami sifatida olamiz va "ajratilgan" qismni testlar to'plamida ishlatamiz. Bu k marta boshqacha takrorlaymiz. Va nihoyat, k baholanishning o'rtacha ko'rsatkichini ish faoliyatini baholash sifatida olamiz.

Odatda chiziqli modellar uchun odatdagi eng kichik kvadratlar ularni ma'lumotlarga mos kelishini hisobga olish kerak. Keyingi 3 usul - bu chiziqli modellarga mos keladigan bashorat qilishning aniqligini va modelning izohlanishini ta'minlaydigan alternativ yondashuvlar.

4 - ichki tanlov:

Ushbu yondashuv biz javob bilan bog'liq deb hisoblagan p prediktorlarining pastki qismini aniqlaydi. Keyin biz quyi xususiyatlarning eng kam kvadratlaridan foydalangan holda modelga moslashamiz.

  • Eng yaxshi to'plam tanlovi: Bu erda biz p prediktorlarining har bir mumkin bo'lgan kombinatsiyasi uchun alohida OLS regressiga mos kelamiz va natijada olingan modelga mos kelishini ko'rib chiqamiz. Algoritm 2 bosqichga bo'lingan: (1) k predlogga ega bo'lgan barcha modellarga moslash, bu erda k - modellarning maksimal uzunligi, (2) Xoch tasdiqlangan bashorat xatosi yordamida bitta modelni tanlang. Test yoki tekshirish xatolaridan foydalanish muhim, va modelning muvofiqligini baholash uchun mashq xatoligidan foydalanmaslik kerak, chunki RSS va R monoton ravishda ko'proq o'zgaruvchilar bilan ko'payadi. Eng yaxshi yondashuv - bu sinov xatolarini baholashda eng yuqori R² va eng past RSSga ega modelni o'zaro tasdiqlash va tanlash.
  • Oldinga qadam-baqadam saralash p prediktorlarining ancha kichik qismini ko'rib chiqadi. U oldindan taxmin qiluvchilar bo'lmagan modeldan boshlanadi, keyin barcha bashorat qiluvchilar modelda bo'lgunga qadar birdaniga modelga predmetlarni qo'shadi. Qo'shilgan o'zgaruvchilarning tartibi o'zgarishga ega bo'lib, u mos keladiganlarga eng katta qo'shimcha yaxshilanishni beradi, boshqa hech qanday o'zgaruvchilar o'zaro tasdiqlangan taxmin qilish xatosi yordamida modelga moslikni yaxshilamaguncha.
  • Orqaga qadam-baqadam tanlab olish, modeldagi barcha b prediktorlarni boshlaydi, so'ngra birdaniga eng kam foydali predikatorni olib tashlaydi.
  • Gibrid usullari oldinga bosqichma-bosqich yondoshishga amal qiladi, ammo har bir yangi o'zgaruvchini qo'shgandan so'ng, usul modelga mos kelmaydigan o'zgaruvchini olib tashlashi mumkin.

5 - qisqarish:

Ushbu yondashuv barcha b prognozchilar ishtirok etadigan modelga mos keladi, ammo taxminiy koeffitsientlar kvadratlarning eng kichik ko'rsatkichlariga nisbatan nolga qisqargan. Ushbu qisqarish, aka tartiblashuvi tafovutni kamaytirish ta'siriga ega. Qanday qisqarish amalga oshirilayotganiga qarab, ba'zi koeffitsientlar aniq nolga teng deb taxmin qilinishi mumkin. Shunday qilib, bu usul o'zgaruvchan tanlovni ham amalga oshiradi. Koeffitsient bahosini nolga kamaytirish uchun eng mashhur ikkita usul tizma regressiyasi va lasso hisoblanadi.

  • Tog'ning regressiyasi eng kichik kvadratlarga o'xshaydi, bundan tashqari koeffitsientlar biroz boshqacha miqdorni minimallashtirish orqali baholanadi. Tiz tizmasining regressiyasi, OLS singari, RSSni kamaytiradigan koeffitsient baholarini qidiradi, ammo koeffitsientlar nolga yaqinlashganda, ular qisqargan jarimaga ham ega. Ushbu jazo koeffitsient bahosini nolga kamaytirishga ta'sir qiladi. Matematikaga kirmasdan, tizma regressiyasi eng kichik ustun bo'shlig'i o'zgarishi bilan xususiyatlarni kichraytirishini bilish foydalidir. Printsipial qismlarni tahlil qilishda bo'lgani kabi, tizmalar regressiyasi ma'lumotni direktsion kosmosga kiritadi va keyin eng katta va kichik printsipial tarkibiy qismlarga teng bo'lgan yuqori dispanser tarkibiy qismlarga qaraganda past-dispersli komponentlarning koeffitsientlarini kamaytiradi.
  • Ridge regressiyasining kamida bitta noqulayligi bor edi; u yakuniy modeldagi barcha p prediktorlarini o'z ichiga oladi. Jazo muddati ularning ko'pchiligini nolga yaqinlashtiradi, lekin hech qachon nolga teng bo'lmaydi. Bu umuman bashorat qilishning aniqligi uchun muammo tug'dirmaydi, ammo natijani talqin qilishda modelni qiyinlashtirishi mumkin. Lasso bu kamchilikni engib chiqadi va ba'zi koeffitsientlarni nolga tenglashtirishga majbur qiladi. S = 1 natijasi OLS doimiy regressiyasiga olib keladi, s 0 ga yaqinlashganda koeffitsientlar nolga tushadi. Shunday qilib, Lasso regressiyasi o'zgaruvchan tanlovni ham amalga oshiradi.

6 - o'lchamlarni kamaytirish:

O'lchovni pasaytirish p + 1 koeffitsientlarini M + 1 koeffitsientlarining oddiy muammosiga qadar kamaytirish muammosini kamaytiradi, bu erda M

  • Asosiy komponentlarning regressiyasini ko'p o'zgaruvchidan past o'lchovli xususiyatlar to'plamini olish uchun yondashuv sifatida tavsiflash mumkin. Ma'lumotlarning birinchi asosiy komponenti yo'nalishi bo'lib, ular bo'yicha kuzatishlar eng ko'p o'zgaradi. Boshqacha qilib aytganda, birinchi kompyuter bu ma'lumotlarga imkon qadar yaqin keladigan chiziq. Bir-biridan farq qiluvchi asosiy tarkibiy qismlarga sig'ishi mumkin. Ikkinchi kompyuter - bu birinchi kompyuter bilan bog'liq bo'lmagan va ushbu cheklovga duch keladigan eng katta tafovutga ega bo'lgan o'zgaruvchilarning chiziqli birikmasi. Fikr shundan iboratki, asosiy tarkibiy qismlar ma'lumotlarning chiziqli kombinatsiyasidan foydalanib, keyinchalik ortogonal yo'nalishda ma'lumotlarda eng katta tafovutni qo'lga kiritadilar. Shu tarzda, mavjud ma'lumotlardan qo'shimcha ma'lumot olish uchun biz korrelyatsiya qilingan o'zgaruvchilarning ta'sirini birlashtiramiz, holbuki oddiy eng kam kvadratlarda biz korrelyatsiya qilingan o'zgaruvchilardan birini o'chirib tashlashimiz kerak edi.
  • Yuqorida biz tasvirlab bergan PCR usuli bashorat qiluvchilarni eng yaxshi ifodalovchi X ning chiziqli birikmalarini aniqlashni o'z ichiga oladi. Ushbu kombinatsiyalar (yo'nalishlar) nazoratsiz tarzda aniqlanadi, chunki Y javobi komponentning asosiy yo'nalishlarini aniqlashga yordam bermaydi. Ya'ni, Y javobi asosiy tarkibiy qismlarni aniqlashni nazorat qilmaydi, shuning uchun oldindan aytib beruvchilarni eng yaxshi tushuntiradigan ko'rsatmalar ham javobni oldindan aytib berish uchun eng yaxshisiga kafolat yo'q (garchi bu ko'pincha taxmin qilinsa ham). Qisman eng kam kvadratlar (PLS) PCR uchun nazorat ostiga olinadi. PCR singari, PLS ham o'lchamlarni kamaytirish usuli bo'lib, dastlab yangi xususiyatlarning chiziqli kombinatsiyalari bo'lgan yangi kichik funktsiyalar to'plamini aniqlaydi, so'ngra yangi M xususiyatlariga eng kam kvadratchalar orqali chiziqli modelga mos keladi. Ammo, PCR-dan farqli o'laroq, PLS yangi xususiyatlarni aniqlash uchun javob o'zgaruvchisidan foydalanadi.

7 - nooziq modellar:

Statistikada, chiziqli bo'lmagan regressiya - bu regressiya tahlilining shakli bo'lib, unda kuzatuv ma'lumotlari model parametrlarining chiziqli bo'lmagan kombinatsiyasi bo'lgan va bir yoki bir nechta mustaqil o'zgaruvchiga bog'liq bo'lgan funktsiya tomonidan modellashtirilgan. Ma'lumotlar ketma-ket yaqinlashish usuli bilan o'rnatiladi. Quyida chiziqli bo'lmagan modellar bilan ishlashning bir nechta muhim usullari keltirilgan.

  • Haqiqiy sonlar bo'yicha funksiya qadam funktsiyasi deb ataladi, agar uni intervallarni indikator funktsiyalarining sonli chiziqli kombinatsiyasi sifatida yozish mumkin bo'lsa. Norasmiy qilib aytganda, qadam funktsiyasi - bu juda ko'p sonli bo'laklarga bo'lingan doimiy ravishda doimiy funktsiya.
  • To'rtburchak funktsiyasi - bu ko'p funktsiyali sub-funktsiyalar bilan aniqlanadigan, asosiy funktsiyalar domenining ma'lum bir oralig'ida qo'llaniladigan har bir sub-funktsiya. Piecewise aslida bu funktsiyaning o'ziga xos xususiyati emas, balki funktsiyani ifoda etish usuli, ammo qo'shimcha malaka bilan u funktsiyaning xususiyatini tasvirlashi mumkin. Masalan, qisqaroq ko'paytirilgan funktsiya - bu har bir sub-domenlarda ko'p a'zoli bo'lgan funktsiya, lekin, ehtimol, ularning har birida boshqasi.
  • Spline - bu ko'p funksiyalar tomonidan aniqlangan maxsus funksiya. Kompyuter grafikasida spline aniq ko'paytirilgan parametrik egri deyiladi. Splinlar qurilishning soddaligi, osonligi va baholashning aniqligi va egri moslashishi va interfaol dizayni orqali murakkab shakllarni taxminiy hisoblash qobiliyatiga ega bo'lganligi sababli mashhurdir.
  • Umumlashtirilgan qo'shimchalar modeli bu chiziqli bashorat qiluvchi ba'zi predikator o'zgaruvchisining noma'lum silliq funktsiyalariga lineer bog'liq bo'lib, qiziqish esa ushbu silliq funktsiyalar to'g'risidagi inkorga qaratilgan.

8 - Daraxtlarga asoslangan usullar:

Daraxtga asoslangan usullar ham regressiya, ham tasniflash muammolari uchun ishlatilishi mumkin. Bular bashorat qiluvchi kosmosni bir qator oddiy hududlarga bo'lish yoki tabaqalashtirishni o'z ichiga oladi. Bashoratli makonni ajratish uchun ishlatiladigan bo'linish qoidalari to'plamini daraxtda umumlashtirish mumkinligi sababli, ushbu turdagi yondashuvlar qarorlar qabul qilish usullari deb nomlanadi. Quyidagi usullar bir nechta daraxtlarni o'stiradi, ular birlashtirilib bashorat qilish uchun birlashtiriladi.

  • Bagging - bu sizning dastlabki ma'lumotlaringizdan bir xil hajmdagi karnavitatsiya / hajmni ko'paytirish uchun takrorlash bilan kombinatsiyalardan foydalanib, o'zingizning dastlabki ma'lumotlar bazangizdan mashq qilish uchun qo'shimcha ma'lumotlar ishlab chiqarish orqali bashorat qilishdagi farqni kamaytirish usuli. O'quv to'plamingiz hajmini ko'paytirgan holda, siz taxmin qilinadigan modelning kuchini yaxshilay olmaysiz, faqat taxminni kutilgan natijaga ozgina moslashtirib, o'zgarishni kamaytirasiz.
  • Boosting - bu bir nechta turli xil modellardan foydalangan holda mahsulotni hisoblash va keyin o'rtacha og'irlikdagi yondashuv yordamida natijani hisoblashning yondashishidir. Ushbu yondashuvlarning afzalliklari va kamchiliklarini og'irlik formulasini o'zgartirish orqali birlashtirib, siz turli xil sozlangan modellardan foydalangan holda kengroq ma'lumot kiritish uchun yaxshi bashorat qiluvchi kuchni topishingiz mumkin.
  • Tasodifiy o'rmon algoritmi aslida sumkalarni o'stirishga juda o'xshash. Shuningdek, bu erda siz o'zingizning mashq to'plamingizning tasodifiy yuklash chizmalarining namunalarini chizasiz. Biroq, yuklash chizig'i namunalaridan tashqari, siz alohida daraxtlarni o'rgatish uchun tasodifiy xususiyatlar to'plamini ham chizasiz; sumkada siz har bir daraxtga xususiyatlarning to'liq to'plamini berasiz. Tasodifiy tanlov tanlovi tufayli siz muntazam ravishda qoplash bilan taqqoslaganda daraxtlarni bir-biridan mustaqil qilib qo'yasiz, bu ko'pincha bashoratli ishlashga olib keladi (farqni yaxshi ko'rmaslik sababli) va u tezroq bo'ladi, chunki har bir daraxt faqat undan o'rganadi. xususiyatlar to'plami.

9 - qo'llab-quvvatlovchi vektor mashinalari:

SVM bu Machine Learning-da nazorat qilinadigan o'quv modellarida keltirilgan tasniflash usuli. Laymanning so'zlariga ko'ra, bu giperpletni (2D tekislik, 3D o'lchamdagi tekislik va yuqori o'lchamdagi giperpletani) o'z ichiga oladi. Rasmiy ravishda, giperplet n-o'lchovli bo'shliqning n-1 o'lchovli bo'shliqidir) va nuqta bilan ikkita sinfni eng yaxshi ajratib turadi. maksimal marj. Aslida, bu cheklangan optimallashtirish muammosidir, bu erda cheklash sharoitida maksimal darajada ma'lumotlar yig'iladi (qattiq marj).

Ma'lumotlar shuni ko'rsatadiki, ushbu giperplanetning har ikki tomonidagi "qo'llab-quvvatlash" "qo'llab-quvvatlash vektorlari" deb nomlanadi. Yuqoridagi rasmda to'ldirilgan ko'k doira va ikkita to'ldirilgan kvadrat qo'llab-quvvatlovchi vektorlardir. Ikki sinf ma'lumotlari chiziqli ajratilmasa, nuqtalar chiziqli ajratish mumkin bo'lgan portlash (yuqori o'lchovli) makonga yo'naltiriladi. Bir nechta sinflarga tegishli bo'lgan muammoni bir-biriga yoki bir-biriga yoki qolgan-biriga-ikkilamchi tasniflash muammolariga bo'lish mumkin.

10 - Nazorat qilinmaydigan o'rganish:

Xullas, biz faqat boshqariladigan o'quv uslublarini muhokama qildik, ularda guruhlar ma'lum va algoritm bo'yicha tajriba - bu mavjudotlar va ular tegishli bo'lgan guruh o'rtasidagi munosabatlar. Ma'lumotlar guruhlari (toifalari) noma'lum bo'lsa, boshqa usullardan foydalanish mumkin. Ular tekshiruvsiz deb nomlanadi, chunki taqdim etilgan ma'lumotlarda naqshlarni aniqlash uchun o'rganish algoritmida qoladi. Klasterlash - bu nazorat qilinmaydigan o'rganishga misol bo'lib, unda turli xil ma'lumotlar to'plamlari chambarchas bog'liq bo'lgan narsalar guruhlariga bo'linadi. Quyida eng ko'p ishlatiladigan nazorat qilinmaydigan o'rganish algoritmlari ro'yxati keltirilgan:

  • Principal Component Analizi maksimal o'zgaruvchan va o'zaro bog'liq bo'lmagan xususiyatlarning chiziqli kombinatsiyasini aniqlash orqali ma'lumotlar to'plamining past o'lchovli namoyishini yaratishga yordam beradi. Bu chiziqli o'lchov uslubi nazoratsiz muhitda o'zgaruvchini yashirin o'zaro ta'sirini tushunishda yordam berishi mumkin.
  • k-vositalari klasteri: klasterning santroidiga masofaga asoslangan k-ni ajratib turadigan ma'lumotlar.
  • Ierarxik klasterlash: klaster daraxtini yaratish orqali ko'p bosqichli klasterlar ierarxiyasini quradi.

Bu ma'lumotlar fanlari bo'yicha dasturlar menejeri yoki ma'murlarga o'zlarining ma'lumotlar fanlari bo'yicha guruhlari ostida nima ishlayotganligini yaxshiroq tushunishga yordam beradigan ba'zi bir asosiy statistik metodlarning asosiy natijasi edi. To'g'ri, ba'zi bir ma'lumot fanlari guruhlari algoritmlarni python va R kutubxonalari orqali ishlaydi. Ularning aksariyati hatto asosiy matematika haqida o'ylashlari shart emas. Biroq, statistik tahlil asoslarini tushunish sizning jamoalaringizga yaxshiroq yondashuvni beradi. Kichik qismlarni tushunish osonroq manipulyatsiya va mavhumlashtirishga imkon beradi. Umid qilamanki, ushbu asosiy ma'lumotlar statistikasi bo'yicha qo'llanma sizga to'g'ri tushuncha beradi!

P.S: Siz barcha ma'ruza slaydlarini va RStudio seanslarini GitHub-ning manba kodidan bu erda olishingiz mumkin. Javob uchun rahmat!

- -
Agar siz ushbu parchani yoqtirgan bo'lsangiz, boshqalar bu haqda qoqilib ketishi uchun chapak urish tugmachasini bosganingizda juda yoqadi. Siz o'z kodimni GitHub-da va boshqa yozuvlarim va loyihalarimni https://jameskle.com/ da topishingiz mumkin. Bundan tashqari, meni Twitter-da kuzatib borishingiz, to'g'ridan-to'g'ri elektron pochta orqali yuborishingiz yoki LinkedIn-dan topishingiz mumkin. O'zingizning xabarlar qutisi orqali ma'lumotlar ilmi, mashinalarni o'rganish va sun'iy intellekt haqidagi so'nggi fikrlarimni olish uchun mening axborot byulletenimga a'zo bo'ling!