Учебные материалы
Введение в курс
Тема 1. Понятие анализа данных. Описательная статистика
Тема 2. Генеральная и выборочная совокупности
Тема 3. Корреляционный анализ
Тема 4. Дисперсионный анализ
Тема 5. Снижение размерности признакового пространства
Тема 6. Классификация многомерных наблюдений
Тема 7. Робастное оценивание параметров и непараметрические модели генеральной совокупности
Заключение
Итоговый тест
Компетентностный тест
Ответы на тесты: по темам + итоговый + компетентностный.
130 вопросов с правильными ответами. На отлично (100 баллов).
С вопросами вы можете ознакомиться ДО покупки.
Ответы вы сможете скачать сразу после оплаты.
1. По числу переменных, характеризующих объект исследования, данные делятся на …
2. По способу получения данные делятся на …
3. По типу шкалы измерения данные делятся на …
4. Установите соответствие шкалы и ее характеристики:
5. Если дан вариационный ряд выборки объема n = 8: -2, 0, 1, 3, 4, 4, 5, 8, то выборочная мода для этого ряда равна …
6. Расположите в правильной последовательности этапы построения вариационного ряда:
7. Диаграмма … – это гистограмма, изображающая частоты встречаемости признака в убывающем порядке, с наложенным точечно-линейным графиком накопленных частот
8. Когда при проверке гипотезы Н0:μ=μ0 против Н1:μ=μ1, следует выбирать правостороннюю критическую область …
9. Статистический … – это правило, устанавливающее условия, при которых нулевую гипотезу следует либо принять, либо отвергнуть
10. Установите соответствие между классификациями и соответствующими типами данных:
11. Установите соответствие между видом переменной и набором описательных статистик:
12. Пусть α – вероятность отвергнуть верную гипотезу, γ – доверительная вероятность, то есть вероятность принять верную гипотезу; тогда если α = 0,05, то …
13. Выдвинутая гипотеза, которую нужно проверить, – это … гипотеза
14. Установите соответствие понятия и его содержания:
15. Если нулевая гипотеза имеет вид Н0: р = 0,6, тогда конкурирующей гипотезой может являться … (укажите 3 варианта ответа)
16. Если нулевая гипотеза состоит в предположении, что параметр показательного распределения λ = 5, то конкурирующая гипотеза состоит в предложении, что …
17. Для того чтобы по выборке можно было судить о случайной величине, выборка должна быть …
18. … анализ позволяет проверить гипотезу о равенстве средних значений выборок (взяты ли выборки из одного распределения или из разных распределений)
19. Логарифмическое преобразование позволяет осуществить переход от нелинейной модели y = 5x2u к модели …
20. Установите соответствие между коэффициентом и задачей, для которой он может использоваться:
21. Какое значение не может принимать Неверно, что парный коэффициент корреляции может принимать значение …
22. … предполагают взаимодействие между уровнями исследуемых факторов, причем эффект влияния одного фактора зависит от значения другого фактора
23. Установите соответствие между коэффициентом (индексом) и его формулой:
24. Неверно, что парный коэффициент корреляции может принимать значение …
25. Значение коэффициента детерминации рассчитывается как отношение дисперсии результативного признака, объясненной регрессией, к … дисперсии результативного признака
26. Расположите в правильной последовательности этапы проведения однофакторного дисперсионного анализа:
27. Дисперсионный анализ используется для …
28. Установите соответствие понятия и соответствующей ему формулы:
29. Установите соответствие вида дисперсии и ее характеристики:
30. Расположите в правильной последовательности этапы проведения однофакторного дисперсионного анализа:
31. Эмпирический коэффициент детерминации определяется формулой …
32. Эмпирический коэффициент … характеризует долю межгрупповой дисперсии в общей дисперсии
33. Дисперсия отклонений значений признака от произвольного числа А, неравного средней величине, …
34. Оценка качества модели факторного анализа может осуществляться на основе критерия …
35. … анализ – это процедура, с помощью которой большое число переменных, относящихся к имеющимся наблюдениям, сводят к меньшему количеству независимых влияющих величин, называется …
36. Расположите в правильной последовательности этапы метода многомерного шкалирования:
37. К методам снижения размерности следует отнести … анализ (укажите 2 варианта ответа)
38. Расположите в правильной последовательности этапы проведения факторного анализа:
39. Установите соответствие понятия и его содержания:
40. Установите соответствие видов факторного анализа и их характеристик:
41. Компонентный анализ используется для …
42. Иерархическая … – это последовательное объединение групп элементов (сначала самых близких, а затем все более удаленных) в соответствии с матрицей расстояний
43. Исходные данные для кластерного анализа могут быть …
44. Пусть даны две точки трехмерного пространства – А(2; -3; 5) и В(4; 4; -4), тогда евклидово расстояние между ними равно квадратному корню из …
45. В результате разбиения объектов на группы по сходству признаков образуются …
46. Графическое представление результатов кластерного анализа реализуется в …
47. Многомерная статистическая процедура, которая выполняет сбор данных, содержащих информацию о выборке объектов, и затем упорядочивает объекты в сравнительно однородные группы, – это … анализ
48. Дискриминантный анализ – это …
49. Главная задача кластерного анализа – …
50. Установите соответствие видов расстояний в кластерном анализе и соответствующих им математических выражений:
51. … (средняя точка) – это средние значения для дискриминантных показателей конкретной группы
52. Метод максимального правдоподобия основывается на формуле …
53. Установите соответствие метода и его описания:
54. Если при построении статистических моделей функциональный вид распределения наблюдений задается, то такие модели называются …
55. Метод, направленный на выявление выбросов, снижение их влияния или исключение их из выборки, называется …
56. … эффект – это смещение среднего значения и увеличение меры разброса значений признака при наличии нескольких выбросов
57. Предварительный способ анализа выборки, заключающийся в присваивании одинаковых значений крайним наблюдениям выборки, называется методом …
58. Установите соответствие понятия и его математического выражения:
59. Установите правильную последовательность шагов алгоритма проверки статистической гипотезы:
60. … выборки – это отбрасывание определенной части минимальных и/или максимальных наблюдений
61. Установите соответствие понятий и их характеристик:
62. … используют в иерархических алгоритмах классификаций, принцип работы которых – последовательно объединять наблюдения, а затем и целые группы, сначала самых близкие, а затем все более и более отдаленные друг от друга
63. … корреляция измеряет степень связи между дискриминантными показателями и группами, т.е. определяет принадлежность к данной группе
64. Данные, при составлении которых у каждого наблюдения регистрируется несколько признаков, – это … данные
65. … коэффициент детерминации характеризует долю межгрупповой дисперсии в общей дисперсии
66. Установите соответствие понятий и их определений:
67. Уравнение … математически выражает среднюю величину одного признака как функцию другого
68. Процент цензурированных наблюдений относительно полного объема выборки – это …
69. Иерархические процедуры – это наиболее распространенные алгоритмы кластерного анализа, в которых начальное разбиение состоит из n одноэлементных классов, а конечное разбиение состоит из …
70. Данные, при составлении которых у каждого наблюдения регистрируется только один признак, – это … данные
71. Установите соответствие понятий и их определений:
72. Установите соответствие понятий и их определений:
73. Метод корреляционных … предназначен для нахождения таких групп признаков, что корреляционная связь между параметрами одной группы достаточно велика, а связь между параметрами из разных групп – мала
74. Бинарные (дихотомические) переменные, которые имеют две категории или два значения, которые обычно кодируют …
75. Вариацию признака по всей совокупности как результат влияния всех факторов, определяющих индивидуальные различия единиц совокупности характеризует … дисперсия
76. … регрессия представляет собой регрессию между двумя переменными
77. … – это статистические методы, которые позволяют получать надежные оценки параметров с учетом неизвестного закона распределения генеральной совокупности и наличия существенных отклонений в значениях данных
78. Число объектов совокупности называется …
79. Установите правильную последовательность шагов проведения расчета однофакторного дисперсионного анализа в MS Excel:
80. … – это доля дисперсии наблюдаемых переменных, обусловленная наличием общих факторов
81. Класс методов для представления восприятий и предпочтений респондентов в пространстве с помощью наглядного изображения – это …
82. Установите соответствие понятий и их определений:
83. … модели регрессии – это соответствие теоретических данных, полученных на основе уравнения регрессии, фактическим статистическим данным
84. … обследование предполагает измерение каждого из объектов генеральной совокупности
85. Процедура, с помощью которой большое число переменных, относящихся к имеющимся наблюдениям, сводят к меньшему количеству независимых влияющих величин, называется … анализом
86. Индекс … – это показатель тесноты связи для нелинейной регрессии
87. Установите соответствие методов и их характеристик:
88. … корреляционная матрица – это матрица корреляции, при вычислении которой наблюдения обрабатывают так, как будто они взяты из одной выборки
89. … анализ позволяет разложить общую вариацию зависимой переменной на две составляющие – степень случайной изменчивости отклика Y и долю изменчивости отклика за счет влияния непрерывных предикторов X
90. … – это способ нахождения промежуточных значений функции в области ее определения
91. Диаграмма в виде столбцов, по оси абсцисс которой отображаются все возможные значения переменной, а по оси ординат – частоты или относительные частоты каждого значения, – это …
92. … – это метод ортогонального вращения, при котором минимизируется число факторов, необходимых для объяснения исходных переменных
93. Корреляционные методы — методы оценки тесноты связи, основанные на использовании, как правило, оценок нормального распределения
94. Расположите в правильной последовательности этапы проведения корреляционно-регрессионного анализа:
95. …– это величина, характеризующая степень применимости факторного анализа к данной выборке
96. Критерий … выборки показывает степень применимости факторного анализа к данной выборке
97. Статистическая оценка генерального параметра Θ_Г, которая определяется одним числом, называется … оценкой
98. Установите правильную последовательность шагов применения правила «ящик с усами»:
99. … регрессия представляет собой регрессию между одной эндогенной и несколькими экзогенными переменными
100. Установите соответствие основных способов формирования выборочной совокупности и соответствующих вариантов отбора (выборки):
101. … зависимость – это связь, при которой каждому фиксированному значению переменой х соответствует не одно, а множество значений зависимой переменной у, причем заранее нельзя сказать, какое именно значение примет у
102. … – это совокупность сведений, зафиксированных на определенном носителе в форме, пригодной для их постоянного хранения, передачи и обработки
103. … методы – это методы, подчиненные некоторым частным целевым установкам, но не формулируемые в терминах вероятностно-статистической теории
104. Установите правильную последовательность шагов алгоритма, который используется, чтобы найти кластеры по методу k-средних:
105. … коэффициенты корреляции – это линейные коэффициенты корреляции между каждым из предикторов и дискриминантной функцией
106. Последовательность значений количественного признака, расположенных в порядке возрастания (неубывания), – это … ряд
107. … случайная мера равна отношению числа точек в множестве А к числу точек во всем пространстве Х
108. Вероятность γ, с которой осуществляется событие |ΘГ-Θв |<δ, – это … оценки Θв
109. В отличие от дисперсионного и регрессионного анализов … анализ ANCOVA оперирует с набором предикторов, который включает как качественные группообразующие переменные, так и количественные переменные, измеренные в непрерывных шкалах
110. … критерия – это величина 1 – β, где β – вероятность ошибки второго рода
111. Вопрос: По способу отбора, которые определяет конкретный механизм или процедуру выборки единиц из генеральной совокупности, выделяют пять выборок. В частности, используется выборка, которую применяют, когда генеральная совокупность каким-либо образом упорядочена или ранжирована, то есть существует определенная последовательность в расположении единиц. Сначала определяют, какое число единиц необходимо отобрать в выборочную совокупность. Затем разбивают генеральную совокупность на полученное число групп и из каждой группы выбирают по одной единице, которая стоит в середине группы. Это позволяет избежать систематической ошибки выборки.
О какой выборке говорится в описании?
112. Вопрос: Для характеристического уравнения... Собственный вектор, соответствующий этому собственному значению имеет вид (3 Y).
Чему равна координата y?
113. Вопрос: Имеется следующая выборка: 4, 6, 8, 9, 9, 12, 12, 14, 15, 18.
Рассчитайте 10-процентное усеченное среднее для этой выборки.
114. Вопрос: Непараметрические показатели связи позволяют судить о степени и тесноте
связи для количественных и для атрибутивных признаков.
Один из этих показателей определяется по формуле:
K= ((ad-bc)/ корень из ((a+b)(c+d)(d+b(a+c))
115. Вопрос: Непараметрические показатели связи позволяют судить о степени и тесноте
связи для количественных и для атрибутивных признаков.
Один из этих показателей определяется по формуле:
K=(ad-bc)/(ad+bc)
116. Вопрос: Необходимое условие анализа данных – отсутствие пропусков в данных. Если в совокупности присутствуют пропуски, то дальнейший анализ нужно предварить процедурой заполнения этих пропусков. Интерполяция – это нахождение промежуточных значений функции в области ее определения.
Существуют разные методы интерполяции. Один из них – простой, но действенный способ заполнить пробелы в данных. При таком подходе все недостающие данные заполняют средними арифметическими значениями либо по всем наблюдениям, либо только по N ближайшим точкам с обеих сторон пропущенного значения.
О каком методе интерполяции идет речь?
117. Вопрос: Ниже приведена динамика числа родившихся в России в период 2014-2023 гг. в виде таблицы и столбчатой диаграммы.
118. Вопрос: По выборке Х1, …, Х100 из распределения F(x,θ) требуется проверить гипотезу о том, что неизвестный параметр θ равен 5 против альтернативы, что значение параметра θ больше 5.
Для проверки этой гипотезы применяется некоторый состоятельный критерий. Уровень значимости этого критерия равен 0,05.
Какое значение может принимать функция мощности этого критерия в точке 6?
119. Вопрос: В кластерном анализе используют различные виды расстояний.
Один из этих видов – расстояние в городских кварталах, когда от А до Б мы можем передвигаться по улицам под прямым углом и никогда по диагонали. Такое расстояние зависит от вращения системы координат, но не зависит от отражения относительно оси координат или переноса.
О каком виде расстояний говорится в описании?
120. Вопрос: Имеется следующая выборка: 4, 6, 8, 9, 9, 12, 12, 14, 15, 18.
Рассчитайте 10-процентное винзорированное среднее для этой выборки.
121. Вопрос: Сущность данного алгоритма состоит в следующем.
О каком алгоритме говорится в описании?
122. Вопрос: Эта величина является мерой разброса чисел в ряду. Она определяется как среднее арифметическое квадратов отклонений чисел от их среднего арифметического.
О каком понятии идет речь?
123. Вопрос: Непараметрические показатели связи позволяют судить о степени и тесноте связи для количественных и атрибутивных признаков. Один их этих показателей определяется по формуле: K=(C-h)/(C+H
Назовите этот непараметрический показатель связи.
124. Вопрос: В кластерном анализе используют различные виды расстояний.
Один из этих видов применяют в тех случаях, когда каждой компоненте xt вектора наблюдений X удается приписать некоторый «вес» wp, пропорционально степени важности признака в задаче классификации. Принимают вес больше 0 и меньше 1. Чтобы определить «вес», нужно провести с дополнительные исследования, например, организовать опрос экспертов и обработать их мнения.
О каком виде расстояний говорится в описании?
125. Вопрос: Для характеристики уравнения... Чему равно собственное значение ?
126. Вопрос: Этот способ визуализации данных используют, чтобы графически отобразить и анализировать категориальные номинальные данные. Это гистограмма, которая изображает частоты встречаемости признака в убывающем порядке, на которую накладывают точечно-линейный график из накопленных частот или процентов, долей. График отражает накопленную частоту значений признака.
Назовите данный способ визуализации данных.
127. Вопрос: Даны 6 объектов, которые характеризуются двумя признаками X1 и X2:
Чему равно евклидово расстояние d13?
128. Вопрос: При определении влияния квалификации рабочего на его производительность были получены следующие значения общей и межгрупповой дисперсии:
- общая дисперсия – 900;
- межгрупповая дисперсия – 370.
Чему равна средняя внутригрупповая дисперсия?
129. Вопрос: При определении влияния квалификации рабочего на его производительность были получены следующие значения общей и средней внутригрупповой дисперсии:
- общая дисперсия – 900;
- средняя внутригрупповая дисперсия – 300.
Чему равна межгрупповая дисперсия?
130. Вопрос: По способу отбора, которые определяет конкретный механизм или процедуру выборки единиц из генеральной совокупности, выделяют пять выборок. В частности, используется выборка, которая заключается в собственно-случайном либо механическом отборе групп единиц, внутри которых проводят сплошное обследование. Единица отбора при этой выборке – группа или серия, а не отдельная единица. Этот способ отбора удобен в тех случаях, когда единицы генеральной совокупности изначально объединены в небольшие более или менее равновеликие группы.
О какой выборке говорится в описании?