1. Выборка — это упорядоченный набор случайных данных с одинаковым распределением на одном вероятностном пространстве. Случайными данными могут быть случайные величины или случайные векторы. Измерениями же называются реализации элементов выборки, то есть реализации входящих в выборку случайных величин или векторов. Неправильно называть выборку набором измерений, так как набор измерений — это реализация выборки, но не сама выборка. Отмечу, что в некоторых источниках под выборкой подразумевается как набор случайных элементов, так и набор измерений, но только если из контекста ясно, что именно имеется ввиду. Я же предпочитаю иметь однозначные определения.
  2. Статистический критерий — это просто однозначное соответствие. то есть каждой выборке ставится в соответствие гипотеза. Это НЕ взаимно однозначное соответствие, потому что одной и той же гипотезе может соответствовать много значений выборки. Кроме того, это не просто функция, а измеримая функция — это значит, что при подаче на нее выборки мы получаем не просто какую-то функцию исходов, а измеримую функцию исходов, то есть случайную величину.
  3. При формулировке теоремы Гливенко часто забывается вид сходимости — почти наверное. А именно, $D_n=\sup\limits_{x\in\mathbb{R}}|\hat F_n(x)-F_{\xi}(x)|\xrightarrow[n\to\infty]{п.н.}0.$ Ошибочно писать $D_n \rightrightarrows 0$ без каких либо пояснений насчет того, что именно означает такая двойная стрелочка. Если подразумевается равномерная сходимость, то тогда не $D_n$ равномерно сходится к нулю, а скорее $\hat F_n(x)$ равномерно (по иксам) и почти наверное (по исходам) сходится к $F_{\xi}(x)$. Более того, в теореме Гливенко не требуется непрерывность $F_{\xi}(x)$, доказательство этой теоремы можно найти в учебнике Боровкова А.А. "Математическая статистика". Непрерывность $F_{\xi}(x)$ входит в условие теоремы Колмогорова, которое тоже часто забывается.
  4. При формулировке критерия согласия Колмогорова забывается то, что $F(x)$ в основной гипотезе — непрерывная функция. Это принципиальный момент. Во-первых, в этом случае распределение статистики $D_n$ не зависит от $F(x)$ и мы можем пользоваться таблицами квантилей вне зависимости от заданной $F(x)$, а во-вторых именно для непрерывной $F(x)$ имеется асимптотический результат в виде теоремы Колмогорова. А еще не нужно забывать, что при решении мы вычисляем статистику Колмогорова—Смирнова $D_n=\sup_{x\in\mathbb{R}}|\hat F_n(x)-F(x)|$, которая лишь при верности основной гипотезы, то есть при $F_{\xi}(x)=F(x)$, совпадает с $D_n=\sup_{x\in\mathbb{R}}|\hat F_n(x)-F_{\xi}(x)|$, для которой и выполнены теоремы Гливенко и Колмогорова.
  5. Если в задаче на проверку гипотезы не задан уровень значимости, значит надо его самостоятельно каким-то выбрать (например, 5%) и для него решать задачу и делать вывод об отклонении или не отклонении.
  6. Ошибкой считается в задачах проверки одной гипотезы утверждать о "принятии" гипотезы. С уверенностью можно говорить лишь об "отклонении" гипотезы, так как в этом случае нам известна вероятность нашей ошибки (уровень значимости). Вместо "принимаем гипотезу" следует говорить "не отклоняем гипотезу" или "данные гипотезе не противоречат". На моем четвертом семинаре был пример задачи, где мы одновременно не отклоняли гипотезу о равномерном распределении данных и гипотезу о нормальном распределении данных. Нельзя же их обе принять!
  7. Студенты часто в задачах на критерии хи-квадрат не проверяют условия применимости этих критерием — объем выборки и частоты должны быть достаточно большими, а именно должно быть $n \ge 50$, $\nu_j \ge 5$. Если это не так, то критериями хи-квадрат пользоваться не разрешается. Если $n\ge50$, но какие-то $\nu_j < 5$, то можно попробовать какие-то ячейки объединить, чтобы все частоты были не меньше 5.
  8. При решении задач на критерий Неймана—Пирсона одна из самых распространенных ошибок — считать, будто $\mathbb{P}_1(l(X)=c)=0$ только потому, что $X$ согласно первой гипотезе имеет непрерывное распределение. Это вообще неверно! Я много времени этому этому моменту уделил, и мы даже решили на семинаре задачу, в которой гипотеза $H_1$ содержит непрерывное распределение, а случайная величина $l(X)$ имеет дискретное распределение.
  9. В ряде задач (например 54 и 60) неверно определяется критическая область и/или рассчитывается вероятность ошибки второго рода и мощность. В задаче 54 в критическую область входит, в частности, вся область за квадратом, ее нужно учитывать для расчета ошибки второго рода и мощности. В задаче 60 в критическую область входит, в частности, вся область за кубом, ее нужно учитывать для расчета ошибки второго рода и мощности. Нужно помнить, что область, где отношение правдоподобия равна бесконечности, лежит в критической области. Область с бесконечным отношением правдоподобия не отражается на расчете ошибки первого рода (поэтому на этом этапе про нее забывают), но она отражается на расчете ошибки второго рода.