Карта статистических методов - bootstrap VS t - test | Вебинар Анатолия Карпова | karpov.courses

Sdílet
Vložit
  • čas přidán 24. 08. 2024
  • Курс «Аналитик данных»: bit.ly/3UeT8yj
    Продолжаем серию вебинаров по статистике!
    Все мы знаем, что статистика - штука настолько многогранная, что одну и ту же гипотезу можно проверить абсолютно разных способами, и наоборот - использовать один метод для анализа данных в различных задачах.
    На прошлом вебинаре мы разобрали, как не запутаться в задачах регрессии и корреляции. В этот раз будем говорить о том, как:
    ● сравнить несколько групп с использованием такого метода как t-test;
    ● выжить, если в данных много нулей и пункт выше не работает (спойлер: с помощью Mann-Whitney U-test);
    ● повысить точность предсказания с Bootstrap.
    Код и данные по ссылке yadi.sk/d/-TLe...
    Учитесь Data Science с нами: karpov.courses/

Komentáře • 70

  • @VladNykytenko
    @VladNykytenko Před 3 lety +75

    шикарный вебинар.
    запишите пожалуйста вебинар про разбор бутстрепа под капотом, очень интересно услышать от вас эту лекцию

    • @karpovcourses
      @karpovcourses  Před 3 lety +28

      Будет сделано!)

    • @user-ow3tn1ns5r
      @user-ow3tn1ns5r Před 3 lety +2

      Плюсую+++

    • @user-ti2jn7wy5v
      @user-ti2jn7wy5v Před 3 lety +12

      @@karpovcourses по-прежнему ждём)

    • @Astronomka
      @Astronomka Před 3 lety +7

      поддержу Романова Андрея, очень хочется про бутстрап подробнее! Особенно как его применять на данных типа выручка и arpu

    • @lexa_russ
      @lexa_russ Před rokem

      @@karpovcourses еше ждем, как хатико)

  • @jinsaw5129
    @jinsaw5129 Před 4 měsíci +4

    3 года прошло, а я все жду выпуск про bootstrap😂

    • @user-id9hm6qu6y
      @user-id9hm6qu6y Před 3 měsíci +1

      В курсе аналитик данных от karpov курсов он есть, правда там небольшой ролик на эту тему. Не думаю, что только ради этого нужно покупать весь курс, но ролик можно найти где-нибудь в сливах😅

  • @gr2033
    @gr2033 Před 2 lety +2

    "И это то зачем мы здесь собрались"))
    Отличный семинар, отличный курс по аналитике на Карпов Курсес.
    Юмор Анатолия с годами статистически значимо превосходит английский.

    • @karpovcourses
      @karpovcourses  Před 2 lety +3

      Трай ту спик фром май харт!

  • @gsm7490
    @gsm7490 Před rokem +2

    За Степик уважуха!

  • @Uncle_dijkstra
    @Uncle_dijkstra Před 3 lety +7

    Отличный вебинар. Спасибо!) Интересно стало посмотреть на пример выбора теста на основе симуляции и АА тестов, раз уж он был упомянут )

  • @mariyaalberdina9917
    @mariyaalberdina9917 Před rokem +2

    Очень хороший материал! Спасибо вам! Как всегда изложение на высоте и очень полезно)

  • @jinsaw5129
    @jinsaw5129 Před 4 měsíci

    Выпуск пушка в меру упростил в меру осветил 🎉

  • @grievingdad5848
    @grievingdad5848 Před rokem +1

    Отличный вебинар. Огромное спасибо, Анатолий!

  • @user-ob1xj3kb5e
    @user-ob1xj3kb5e Před rokem

    Спасибо большое. Картина выстроилась более понятно

  • @user-hj4kk2lt6w
    @user-hj4kk2lt6w Před 2 lety +1

    Толково рассказано! Спасибо!

  • @user-gi8tt9fz6x
    @user-gi8tt9fz6x Před rokem

    Спасибо! Слушать интересно.

  • @serj.parshin
    @serj.parshin Před rokem

    Спасибо за отличное видео ❤

  • @alexeykruglov8185
    @alexeykruglov8185 Před rokem

    Хороший обзор, спасибо)

  • @sanitarnov
    @sanitarnov Před 3 lety

    Отлично, все понятно. Спасибо

  • @marines8725
    @marines8725 Před 2 lety +1

    спасибо!

  • @vetedde
    @vetedde Před 3 lety +18

    Можно, пожалуйста, ссылку на предыдущий вебинар, на который вы ссылайтесь в начале видео?

  • @nonamenoname3601
    @nonamenoname3601 Před 3 lety +4

    Был бы очень благодарен если бы Вы выложили отдельным плей-листом все видео о статистике на Ваш ютуб канал, так как в Украине вк ещё забанен, а пользоваться VPN и вспоминать пароль от вк как то очень не хочется

  • @Anonymous00754
    @Anonymous00754 Před 3 lety +2

    супер круто мега спасибо!
    вопросы есть конечно)
    проходил и дс и стат на степике твой оч благодарен!
    есть вопрос по выбросам так и не понял пересмотрел и читал кучу всего в итоге что делать то как раз если вот у тебя в 50нике есть пару выбросов и они ушли за 3 сигма)
    что тут делать?
    ждем более детальных подробных не школьных стат!))

  • @FireSonix
    @FireSonix Před 3 lety +4

    У кого пропал звук - не пугайтесь, в видео есть три таких места, где читать надо по губам!

  • @user-mu4do3dk4z
    @user-mu4do3dk4z Před rokem +2

    Анатолий, на самом деле так и не стало понятно, требуется ли т-тесту нормальность выборки? На мой взгляд, нет. Если просимулировать A/A-тесты из экспоненциального распределения, то т-тест ошибается ожидаемо (~5% ошибок при альфе=0.05). Кроме того (опять же на мой взгляд), вы допускаете вольные высказывания насчет Манна-Уитни. В индустрии говорят (например, ребята из Авито доказывают это), что тест Манна-Уитни в принципе нежелательно использовать, тк он дает очень много ложных срабатываний и не всегда в принципе отражает реальное положение дел.

  • @user-hc8dm5jz7q
    @user-hc8dm5jz7q Před 2 lety +1

    Про сон во сне тоже подумал :D

  • @germansokolov4226
    @germansokolov4226 Před 2 lety +1

    не совсем понятно, как оценить доверительный интервал в случае бутстрапа. можно ведь взять бесконечно большое кол-во выборок по N, тогда confidence interval станет точкой

  • @hrportalru
    @hrportalru Před 4 měsíci

    А где бы найти прошлый вебинар? что-то не гуглится

  • @Shepshenga
    @Shepshenga Před rokem

    великолепно

  • @Anonymous00754
    @Anonymous00754 Před 3 lety +2

    о и да можно продвинутое юзание в пайчарме?? а то привык к спайдеру и тетради что от пч отвык да и сильно в нем не углублялся(

  • @mazaltov7284
    @mazaltov7284 Před 3 lety +3

    как в таком случае посчитать effect size? где об этом почитать? Cohen's d - размер эффекта для t-test, Rank-biserial correlation - размер эффекта для u-test, а для bootstrap?

  • @maxp1059
    @maxp1059 Před 2 lety

    Подскажите пожалуйста 2 вопроса:
    1) Если я хочу проверить одни и те же гипотезы с помощью t-test, u-test и бутстрап, нужно ли делать поправки как при множественных сравнениях?
    2) В коде бутстрапа, что использует Анатолий, мы берем размер бут-выборок равный размеру большей выборки. Не нужно ли как-то изменить данный параметр для таких несбалансированных выборок как в примере 90% на 10%? А то получается, что из выборки размером 50 мы берем выборку с возвращением в 500

  • @BoQbL1k
    @BoQbL1k Před rokem

    Вы тоже теперь когда говорите качаете головой из стороны в сторону как Анатолий?

  • @mazaltov7284
    @mazaltov7284 Před 3 lety +1

    в конце ноутбука написано вот что: 5.4687657931866705e-08 < 0.0000002, я так понимаю 1-е число это получившееся p-value как результат применения функции, а второе число это порог допустимой значимости.
    Такой вопрос как мы получили это число - 0.0000002? и как вообще делать поправку на множественные сравнения в этом случае?
    Например, я беру поправку Бонферрони. Нужно ли мне мой порог (0.01) делить на количество бустреп выборок? а если я сравниваю 2 выборки по 20 признакам?

  • @user-lt1ul9cn5c
    @user-lt1ul9cn5c Před 2 lety +2

    Анатолий, здравствуйте! У меня обе выборки по распределению Пуассона, количество значений в каждой около 1000. Какой метод правильнее применить?

    • @karpovcourses
      @karpovcourses  Před 2 lety +1

      Используйте непараметрику, не прогадаете

    • @user-lt1ul9cn5c
      @user-lt1ul9cn5c Před 2 lety +2

      @@karpovcourses Благодарю за ответ. Применил непараметрические критерии (Манна-Уитни и Бутстрэп). В случае с Манна-Уитни p-value составило 0.032, а при Бутстрэп p-value составило 0.24 (mean, 1000 подвыборок). Какая причина такого различия может быть и на что ориентироваться?)

  • @andreygolobokov372
    @andreygolobokov372 Před 3 lety +11

    Здравствуйте, Анатолий! Пожалуйста, дайте ссылку на ноутбук к видео.

    • @karpovcourses
      @karpovcourses  Před 3 lety +8

      Код и данные по ссылке yadi.sk/d/-TLefuXoV7Z7FQ?w=1

    • @gikis1
      @gikis1 Před 3 lety

      @@karpovcourses thnx!

  • @ilyin_sergey
    @ilyin_sergey Před 3 lety

    Вопрос по статтестам: есть наблюдения по двум точкам за три месяца. Хочу понять, как изменяется (и статзначимо ли изменяется) распределение наблюдений от месяца к месяцу и выяснить - кто менялся от первого месяца к третьему больше всего (в том числе и туда-обратно?
    покритикуйте план:
    1/ сравниваю внутри точек тестом Колмогорова-Смирнова (или Манна-Уитни) первый месяц со вторым, второй с третьим, первый с третьим. Получаю три числа - численное выражение различий. Суммирую.
    2/ делаю вывод, что та точка, сумма которой получилась больше - изменялась сильнее
    или есть какие-то другие тесты для таких штук?

  • @DataAnalystVictoria
    @DataAnalystVictoria Před 3 lety +3

    Анатолий, большое спасибо за ваши видео и за курс на Степике. Думаю о том, чтобы прийти на ваши курсы Karpov Courses. Правильно ли я понимаю, что на ваших курсах делается упор на практику? Я уже многое изучила: sql, основы Python с его библиотеками для анализа данных и даже немного минимум по линейной алгебре (чтобы хоть чуть-чуть понимать в матрицах), визуализацией почти не занималась. Я чувствую, что мне не хватает реальной практики, может даже какой-то стажировки, чтобы отработать и закрепить знания. У Вас есть предложение для таких как я? Может какой-нибудь буткемп? Не хотелось бы долго зависать на азах, хотя полезность повторения я ни в коем случае не отрицаю, хочется уже что-то более-менее приближенное к реальной работе.
    В моём случае все ещё осложняется тем, что на своей позиции и на своём месте работы (отсталая во многих отношениях государственная структура) я не могу применять полученные знания, быстро забываются какие-то важные моменты, полученные во время обучения.

  • @user-mo1iq6ix8l
    @user-mo1iq6ix8l Před 2 lety

    Возможно пропустил этот момент. Но можно ли с помощью bootstrap подвыборок оценивать p-value каких нибудь тестов? например те же Манна-Уитни или т-тест.

    • @karpovcourses
      @karpovcourses  Před 2 lety +1

      А зачем? В этих тестах мы же и так можем рассчитать п валью?

    • @user-mo1iq6ix8l
      @user-mo1iq6ix8l Před 2 lety +1

      @@karpovcourses Да, но если bootstrap'ом мы можем более точно измерить среднее, медиану и т.д., то нельзя ли адаптировать bootstrap так чтобы получить более точный результат тестов или получить больше информации про его результаты(например учесть те же ошибки первого/второго рода)? Ну или как-то по другом извлечь для себя пользу?

  • @Zacher772
    @Zacher772 Před 2 lety

    Что же там про ману небесную? :DD

  • @rumsultan1226
    @rumsultan1226 Před 3 lety

    как участвовать в онлайн чате, глюк CZcams

  • @vadimnan8117
    @vadimnan8117 Před 3 lety +1

    Где посмотреть прошлый вебинар?

    • @karpovcourses
      @karpovcourses  Před 3 lety

      vk.com/karpovcourses?w=wall-169934613_215

    • @nonamenoname3601
      @nonamenoname3601 Před 3 lety +6

      @@karpovcourses Был бы очень благодарен если бы Вы выложили отдельным плей-листом все видео о статистике на Ваш ютуб канал, так как в Украине вк ещё забанен, а пользоваться VPN и вспоминать пароль от вк как то очень не хочется

  • @olegmakarikhin
    @olegmakarikhin Před 3 lety +2

    Карпов - верни ̶с̶т̶е̶н̶у̶ курс на степике.

  • @vladlitvinyuk6159
    @vladlitvinyuk6159 Před 3 lety

    Мне одному bootstrap похож на бустинг?

    • @user-mx8pn1ky5s
      @user-mx8pn1ky5s Před 3 lety +2

      Воснове бустинга и лежит идея бутстрапа. Посмотрите что означает слово бустинг с английского )