Первое задание

Видео с комментариями можно найти здесь: https://youtu.be/BRBc0K8gZro

  1. Задачу 1 нужно решать с использованием центральной предельной теоремы. Кроме того, нужно учесть, что функция распределения выборки нам никогда не известна (иначе и оценивать ничего не нужно). Иногда приносят решение, в котором используется теорема Колмогорова, переходя от условия $\{|\hat F_n(x)-F(x)|\le t/\sqrt{n}\}$ к гораздо более жесткому условию $\{\sup_{x\in\mathbb{R}}|\hat F_n(x)-F(x)|\le t/\sqrt{n}\}$. Но тогда получается, что вероятность исходного события больше либо равна вероятности нового события (с супремумом), но последняя вероятность может быть близка к нулю. Рекомендуется этого не делать.
  2. В задачах 9 и 10 не задан уровень значимости. Его нужно выбрать самостоятельно, например 10% или 5%, и делать вывод от отклонении или не отклонении гипотезы уже для этого фиксированного значения.
  3. Задача 53, как и задача 12, решается численно. А именно, численно решается уравнение-условие на уровень значимости. Кроме того, не нужно забывать про график $\beta=\beta(\alpha)$. Еще в этой задаче допускается одна из самых распространенных ошибок — считать, будто $\mathbb{P}_1(l(X)=c)=0$ только потому, что $X$ согласно первой гипотезе имеет непрерывное распределение. Это вообще неверно! Я много времени этому этому моменту уделил, и мы даже решили на семинаре задачу, в которой гипотеза $H_1$ содержит непрерывное распределение, а случайная величина $l(X)$ имеет дискретное распределение. Всем, кто так пишет или не объяснил, почему эта вероятность равна нулю, я ставлю 0 баллов за задачу.
  4. В задаче 54 критическая область формируется из двух частей — часть квадрата под прямой (которая, кстати говоря, может быть как треугольником, так и многоугольником!) и область за квадратом! Про область за квадратом часто забывают, а ведь от этого будет зависеть значение вероятности ошибки второго рода. Это, кстати, распространенная ошибка, когда критическая область состоит из двух частей, то про одну из частей забывают. Кроме того, здесь и в некоторых других задачах не нужно забывать про случаи, когда $L_1(x)=L_2(x)=0$, в таких случаях можно принимать любую гипотезу (до тех пор, пока критерий основан только на вероятностях ошибок первого и второго рода).
  5. В задаче 58 предлагается построить равномерно наиболее мощный критерий в классе несмещенных критериев заданного уровня значимости. Эта задача разбирается у меня на седьмом семинаре.
  6. На задача 60 полегло много народу. Здесь критическая область — это пересечение шара с кубом и область за кубом. Пересечение шара с кубом — это не всегда шар! Поэтому вероятность попасть в критическую область в рамках первой гипотезы, вообще говоря, равно не объему шара, а объему области шара внутри куба. В данной задаче уровень значимости достаточно мал, чтобы шар полностью лежал в кубе, но это все нужно аккуратно обосновывать.
  7. В задаче 70 нужно построить два критерия. Один критерий — обычный, а другой — последовательный критерий Вальда. При построении обычного критерия следует пользоваться критерием Неймана—Пирсона, но нужно найти такой критерий, чтобы было $\beta=\alpha\le0.05$. Для этого нужно поступить следующим образом. Берем абстрактную $\alpha$ и строим критерий Неймана—Пирсона. Вероятность ошибки второго рода получится зависящей от $\alpha$, то есть $\beta=\beta(\alpha)$. Далее следует составить уравнение $\beta(\alpha)=\alpha$ и рассматривать его как уравнение на $\alpha$, это нелинейное уравнение и решается численно. Для каких-то объемов выборки $n$ это уравнение будет иметь решение для $\alpha \le 0.05$, а для каких-то — не будет. Нужно найти минимальное значение $n$, для которого это уравнение будет иметь решение для $\alpha \le 0.05$, именно это значение и следует сравнить с математическими ожиданиями числа шагов последовательного критерия. А еще в этой задаче не нужно пользоваться ЦПТ, потому что мы не знаем, законно ли это — действительно ли $n$ является достаточно большим для аппроксимаций нормальным распределением или нет.
  8. В задаче 71 сначала строится обычный рандомизированный критерий с $\varepsilon=0.01$, а нерандомизированный получается из него занулением параметра $p$ в выражении для критической функции $\pi_{c,p}(x)$. Вот эти два критерия и предлагается сравнивать, а именно рисуются графики зависимости вероятности ошибки второго рода от ошибки первого рода.
  9. В задаче 11 из дополнительных задач объем выборки $n\ge1$ считается произвольным. Произвольным считается и уровень значимости $\varepsilon\in(0,1)$ и решать эту задачу нужно, разбирая как случай $\mathbb{P}_1(l(X)>0)\ge\varepsilon$, так и случай $\mathbb{P}_1(l(X)>0)<\varepsilon.$ А еще в этой задаче две простые гипотезы, никаких РНМК строить не нужно.

Второе задание

Видео с комментариями можно найти здесь: https://youtu.be/V7bp0gRfbuM

  1. В задаче 3 можно находить с самого начала совместную плотность распределения порядковых статистик (как я это делал на семинаре), именно она пригождается для расчета коэффициента корреляции. Можно сначала найти и совместную функцию распределения $\mathbb{P}(X_{(1)}<x,X_{(n)}<y)$, для этого можно разобрать случаи $x\ge y$ (тогда первое неравенство выкидывается из под вероятности) и случай $x<y$, для которого $\mathbb{P}(X_{(1)}<x,X_{(n)}<y)=\mathbb{P}(X_{(n)}<y)-\mathbb{P}(X_{(1)}\ge x,X_{(n)}<y)$. При расчете математических ожиданий и дисперсии можно пользоваться тем, что порядковые статистики из равномерного распределения на отрезке $[0,1]$ имеют известное распределение — бета-распределение. А именно, для $X_k \in U(0,1)$ порядковые статистики $X_{(k)}\in\mathrm{Beta}(k,n-k+1)$. У бета-распределения считаются известными математическое ожидание и дисперсия. А еще в этой задаче удобно сразу перейти к случайным величинам на отрезке $[0,1]$, которые линейно связаны с исходными величинами на $[a,b]$, это существенно упростит выкладки.
  2. Метод моментов здесь следует записать для $X_i$, а не для $V_i$, это гораздо проще.
  3. В задачах 19 и 20 (и вообще во всех задачах, где требуется найти оценку максимального правдоподобия), нужно доказывать, почему критическая точка является именно максимумом (приравнять к нулю производную не достаточно). Например, можно показать, что вторая производная в этой точке меньше нуля. Можно воспользоваться связью между ОМП и эффективными оценками. Либо доказать выпуклость вверх в окрестности этой точки.
  4. При решении задачи 19 многие не помнят формулу для корней квадратного трехчлена, забывают минус перед $k$ в числителе формулы.
  5. В задаче 20 статистика для показательного распределения с плотностью $f(x,\theta)=\theta\exp(-\theta x)I(x\ge0)$ получается $T(X)=1/{\bar{X}}$, нужно доказывать, почему она смещенная или не смещенная, слово "очевидно" не прокатит. Нужно просто воспользоваться тем, что сумма $X_i$ имеет гамма-распределение. Распространено заблуждение, что $\mathbb{E}(1/\bar{X})=1/(\mathbb{E}\bar{X})$, но это опровергается вычислениями, по-крайней мере для показательного распределения. Кстати если под плотностью показательного распределения понимать распределение с плотностью $f(x,\theta)=\theta\exp(-\theta x)I(x\ge0)$, то эффективной оценки что $\theta$ не существует, а оценка максимального правдоподобия является смещенной. Если же считать плотность равной что $f(x,\theta)=1/\theta \exp(-x/\theta)I(x\ge0)$, то эффективная оценка существует, она равна $\bar{X}$, совпадает с оценкой максимального правдоподобия и является несмещенной. Еще обращаю внимание на то, что если оценка эффективная, то она является оценкой максимального правдоподобия и является несмещенной. Все модели в этой задаче являются представителями экспоненциального семейства распределений.
  6. В задаче 21 про рыб ищется оценка максимального правдоподобия. А именно, сначала аккуратно выписывается вероятность искомого события (вероятность события типа вытащил-вернул-вытащил, это еще называется гипергеометрическим распределением). Получится некоторая функция числа рыб в озере $N$, обозначим ее $L(N)$. Далее эту функцию относительно $N$ максимизируют, технически — анализируют $f(N+1)/f(N)$. Хотя действительно $X_i\in\mathrm{Be}(500/n)$, но эти случайные величины являются зависимыми, поэтому функция правдоподобия не будет равна $L(x,n)=(500/n)^{\sum x_i}(1-500/n)^{n-\sum x_i}$.