- Введение в курс
- Тема 1. Понятие «большие данные» (Big Data) и их применение в анализе бизнес-процессов
- Тема 2. Подходы к формированию больших данных (Big Data) и технологии их обработки
- Тема 3. Методы и алгоритмы анализа больших данных (Big Data)
- Тема 4. Алгоритмы Data Mining в анализе больших данных (Big Data)
- Тема 5. Программные комплексы анализа больших данных (Big Data)
- Заключение
- Итоговая аттестация
… – это группа файлов стандартной структуры, служащих для хранения данных и организованных таким образом, чтобы обеспечить легкий доступ к ним, эффективное управление и обновление
Тип ответа: Текcтовый ответ
… – это процесс преобразования данных в выводы, на основе которых будут приниматься решения и строиться действия с помощью людей, процессов и технологий
Тип ответа: Текcтовый ответ
… является шириной коробки в диаграмме «ящик с усами»
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- Диапазон
- Интерквартильный размах
- Стандартное отклонение
- Нижний квартиль
- Медиана
Аналитическим отделом компании был получен спам по e-mail с приложенным файлом: Что следует предпринять?
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- Прочитать приложение, если оно не содержит ничего ценного – удалить.
- Сохранить приложение в папке «Спам», выяснить затем IP-адрес генератора спама.
- Написать ответное письмо с просьбой не присылать спам.
- Удалить письмо с приложением, не раскрывая (не читая) его.
Английское название фреймворка для вычисления наборов распределенных задач с использованием большого количества компьютеров, образующих кластер, – …
Тип ответа: Текcтовый ответ
Библиотека … является базовой для Data Science на языке программирования Python
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
В вашей компании необходимо организовать сбор, хранение и обработку больших данных. На что в первую очередь должно обратить внимание руководство при организации хранения и обработки данных?
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- Обеспечить управление доступом, которое должно защищать данные.
- Оценить уровень риска и отменить контрмеры.
- Обеспечить необходимый уровень доступности, целостности и конфиденциальности данных.
- Обеспечить удобство использования данных при анализе.
В изучении нейронных сетей и машинного обучения часто упоминают закон Мура, согласно которому …
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- не следует множить сущее без необходимости
- 20 % усилий дают 80 % результата, а остальные 80 % усилий – лишь 20 % результата
- каждое следующее поколение компьютеров работает в 2,5 раза быстрее
- если все слова текста упорядочить по убыванию частоты их использования, то частота n-го слова окажется приблизительно обратно пропорциональной его порядковому номеру n
В числе примеров структурированных данных – … (укажите 2 варианта ответа)
Тип ответа: Множественный выбор • с выбором нескольких правильных ответов из предложенных вариантов
- отчет о продажах в MS Excel
- таблица с ежедневными показаниями температуры помещения за год в файле формата CSV
- каталог продуктов в базах данных SQL
- фильмы, представленных в формате MPEG на одном жестком диске
В числе систем управления базами данных (СУБД), которые полностью полагаются на оперативную память при хранении информации, – … (укажите 2 варианта ответа)
Тип ответа: Множественный выбор • с выбором нескольких правильных ответов из предложенных вариантов
- Oracle Exalytics
- SAP HANA
- BigTable
- HBase
В числовом ряду 3, 5, 8, 12, 2, 9, 6, 10, 11, 14 медиана (с точностью до 0,1) равна …
Тип ответа: Текcтовый ответ
В языке программирования R используются такие типы данных, как … (укажите 5 вариантов ответа)
Тип ответа: Множественный выбор • с выбором нескольких правильных ответов из предложенных вариантов
- numeric
- integer
- quantitative
- attributive
- logical
- complex
- character
В языке программирования R ошибочными являются такие варианты присвоения, как … (укажите 2 варианта ответа)
Тип ответа: Множественный выбор • с выбором нескольких правильных ответов из предложенных вариантов
Вам необходимо выполнить интерактивную визуализацию данных. Какой из языков программирования содержит больше библиотек и фреймворков для интерактивной визуализации и лучше подойдет для выполнения этой задачи?
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
Вам необходимо импортировать в программную среду RStudio текстовый файл с разделителем. Какую функцию вы будете использовать?
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- read.text()
- read.table()
- read_text()
- read_table()
Вам необходимо организовать потоковую обработку событий в режиме реального времени. Какую технологию необходимо использовать?
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- Spark Streaming
- Apache Kafka
- Apache Hadoop
- MapReduce
Вам необходимо предсказать значения непрерывной числовой величины для входных данных. Какой метод вам в этом поможет?
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- Переобучение.
- Регрессия.
- Кластеризация.
- Классификация.
Вам необходимо принять решение о выдаче кредита клиенту. Какой метод машинного обучения вам в этом поможет?
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- Поиск ассоциативных правил.
- Деревья решений.
- Кластеризация.
- Регрессия.
Вам нужно рассчитать необходимые параметры для создания обшивки самолета. Какая из областей машинного обучения вам в этом поможет?
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- Компьютерное зрение.
- Латентная модель.
- Обучение ранжированию.
- Предсказательное моделирование.
Ваша компания использует различные технологии для сбора и хранения данных. Приведите пример данных, когда эффективнее использовать технологию Hadoop.
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- Поминутное сохранение данных транзакций торговых точек.
- Построение графика ежегодной выручки.
- Анализ 10 Гб данных.
- Сравнение цен с конкурентами.
Вашей компании необходимо закупить новый вид сырья. Вам необходимо узнать, насколько может упасть стоимость этого сырья в ближайшем будущем и когда это может произойти. Какой метод Data Mining вы будете использовать?
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- Прогнозирование.
- Кластеризация.
- Классификация.
- Поиск ассоциативных правил.
Вашей компании необходимо определить структуру клиентов по их вкладу в доходы компании. Какой метод Data Mining вы будете использовать?
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- Прогнозирование.
- Кластеризация.
- Классификация.
- Поиск ассоциативных правил.
Вашей компании необходимо проанализировать продуктовые наборы для их своевременной закупки и совместного размещения в торговом зале. Какой метод Data Mining вы будете использовать?
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- Прогнозирование.
- Кластеризация.
- Классификация.
- Поиск ассоциативных правил.
Вектор частных производных функции потерь по весам нейронной сети, который указывает на направление наибольшего роста этой функции, – это …
Тип ответа: Текcтовый ответ
Возможность снижения размерности признакового пространства обусловлена … (укажите 3 варианта ответа)
Тип ответа: Множественный выбор • с выбором нескольких правильных ответов из предложенных вариантов
- неинформативностью признаков, значения которых мало меняются при переходе от одного объекта к другому
- информативностью признаков, значения которых сильно меняются при переходе от одного объекта к другому
- дублированием информации по причине корреляции исходных признаков
- возможностью агрегирования исходных признаков
- невозможностью агрегирования исходных признаков
Выполнены следующие строки кода в программной среде RStudio: vec <- c(3,5,2,1,8,4,9,10,3,15,1,11) vec[2]
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
Вычислительная единица в искусственных нейронных сетях, которая получает информацию, производит над ней простые вычисления и передает ее дальше, – это …
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- перцептрон
- градиент
- нейрон
- протон
Вычислительная единица в искусственных нейронных сетях, которая получает информацию, производит над ней простые вычисления и передает ее дальше, – это …
Тип ответа: Текcтовый ответ
Градиентом в искусственных нейронных сетях называют …
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- вектор, своим направлением указывающий на убывание некоторой скалярной величины
- вектор, который направлен в сторону максимального изменения функции
- функцию со многими параметрами, весовыми коэффициентами связей, которые влияют на выходной сигнал
- распространение ошибки сети между нейронами в обратном направлении
Группа элементов, обладающих каким-то общим свойством и находящихся на небольшом расстоянии другу от друга, – это …
Тип ответа: Текcтовый ответ
Данные являются структурированными в … (укажите 2 варианта ответа)
Тип ответа: Множественный выбор • с выбором нескольких правильных ответов из предложенных вариантов
- отчете о продажах, составленном в MS Excel
- таблице с ежедневными показаниями температуры помещения за год в файле формата CSV
- файлах Google Sheets
- фильмах, представленных в формате mpeg на одном жестком диске
Деревья классификации относятся к стратегии …
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- обучения с учителем
- обучения без учителя
- обучения с подкреплением
- ленивого обучения
Если в результате расчетов получены значения двух первых главных компонент λ1=1,928 и λ2=0,072, тогда относительный вклад первой главной компоненты в суммарную дисперсию (с точностью до 0,1) равен … %
Тип ответа: Текcтовый ответ
Если все значения признака увеличить в 16 раз, дисперсия увеличится в … раз
Тип ответа: Текcтовый ответ
Если выборочные данные о потреблении и накоплении пяти домохозяйств представлены матрицей «объект – свойство» (см. ниже), то, считая, что различия в потреблении в 4 раза важнее различий в накоплении, а сумма весовых коэффициентов равна 1, взвешенное евклидово расстояние между домохозяйствами № 1 и № 2 с точностью до 0,01 будет равно … 🖻 https://lms.synergy.ru/user_files/1604396/119654/04/07_01.jpg
Тип ответа: Текcтовый ответ
Если расстоянием между кластерами называется минимальное из расстояний между парами объектов, один из которых входит в первый кластер, а другой – во второй, то это расстояние …
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- ближнего соседа
- средней связи
- ближайшего центра
- дальнего соседа
Интеграция – это …
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- сбор данных из нескольких источников в единое место хранения
- объединение данных из различных источников для получения их согласованного представления
- привлечение к решению инновационных задач широкого круга лиц по типу субподрядной работы на добровольных началах
- область исследования, занимающаяся созданием компьютерных алгоритмов для преобразования данных в обоснованные действия
Компьютер, выделенный из группы персональных компьютеров (или рабочих станций) для выполнения какой-либо сервисной задачи без непосредственного участия человека, – это …
Тип ответа: Текcтовый ответ
Консолидация – это …
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- сбор данных из нескольких источников в единое место хранения
- объединение данных из различных источников для получения их согласованного представления
- привлечение к решению инновационных задач широкого круга лиц по типу субподрядной работы на добровольных началах
- область исследования, занимающаяся созданием компьютерных алгоритмов для преобразования данных в обоснованные действия
Краудсорсинг – это …
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- сбор данных из нескольких источников в единое место хранения
- объединение данных из различных источников для получения их согласованного представления
- привлечение к решению инновационных задач широкого круга лиц по типу субподрядной работы на добровольных началах
- область исследования, занимающаяся созданием компьютерных алгоритмов для преобразования данных в обоснованные действия
Метод исследования, характеризующийся выделением и изучением отдельных частей объектов исследования, – … (слово происходит от греч. «разложение»)
Тип ответа: Текcтовый ответ
Метод Data Mining, который относит объекты к одному из заранее известных классов, – это …
Тип ответа: Текcтовый ответ
Метод, используемый для предотвращения дублирования данных в реляционных базах данных, – …
Тип ответа: Текcтовый ответ
Минимальная единица измерения информации – это …
Тип ответа: Текcтовый ответ
Минимальное количество слоев, которые должна иметь нейронная сеть, для того чтобы к ней возможно было применить алгоритм обратного распространения, – …
Тип ответа: Текcтовый ответ
Нажатие клавиши «…» предложит возможные варианты продолжения текста кода, включая выбор параметров и переменных в аргументах набираемых команд
Тип ответа: Текcтовый ответ
Нажатием сочетания клавиш «…» и «–» можно написать оператор присваивания "<-"
Тип ответа: Текcтовый ответ
Название на английском языке системы или репозитория данных, хранящихся в необработанном формате, – …
Тип ответа: Текcтовый ответ
Название технологии, которая имитирует человеческое поведение, – искусственный …
Тип ответа: Текcтовый ответ
Неверно, что существует такой вид искусственных нейронных сетей, как …
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- рекуррентные
- противоборствующие
- наивные
- импульсные
Неверно, что Big Data – это …
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- данные, имеющие объем свыше 1 Гб
- данные, которые можно обрабатывать с помощью Python
- данные, для которых используют технологию Hadoop
- как правило, неструктурированные данные
Неверно, что MapReduce …
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- это интерфейс для массово-параллельной обработки данных, где вычисления производятся на узлах
- это две операции: распределения и сборки данных
- был придуман разработчиками Hadoop
- был анонсирован разработчиками Google
Неверно, что Variety в контексте характеристик Big Data означает … (укажите 3 варианта ответа)
Тип ответа: Множественный выбор • с выбором нескольких правильных ответов из предложенных вариантов
- высокую скорость генерирования данных
- разные типы данных в колонках таблиц реляционных систем управления базами данных (СУБД)
- разнообразие отраслей, являющихся источниками данных
- разнообразие типов данных, включающих в себя структурированные, полуструктурированные и неструктурированные
Область исследования, включающая создание компьютерных алгоритмов для преобразования данных в обоснованные действия, – это … обучение
Тип ответа: Текcтовый ответ
Определите правильную последовательность этапов распределенных вычислений MapReduce:
Тип ответа: Сортировка
- 1 Input
- 2 Splitting
- 3 Mapping
- 4 Shuffling
- 5 Reducing
Отказоустойчивость Big Data имеет место, когда …
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- активируются до 1000 компьютеров
- сбой в одном звене системы не ведет к сбоям в других звеньях
- недостоверные данные удаляются из системы
- данные обрабатываются на других серверах
Первые большие наборы данных начали использовать …
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- в 1990-х гг.
- в 1960–70-х гг.
- в 1980-х гг.
- после 2012 г.
Причина создания баз данных NoSQL – …
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- высокая стоимость горизонтальной масштабируемости RDBMS при сохранении требования высокой доступности
- недостаточная гибкость языка запросов SQL
- невозможность хранения больших объемов информации в базе данных
- дороговизна лицензий RDBMS
Простейший вид нейронной сети, который представляет собой алгоритм для выполнения двоичной классификации, – это …
Тип ответа: Текcтовый ответ
Процедура снижения признакового пространства …
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- возможна в случае некоррелированности признаков
- возможна в случае сильной коррелированности признаков
- возможна всегда
- никогда не возможна
Процесс преобразования данных в код, который можно распознать только с помощью определенного ключа или пароля, – это …
Тип ответа: Текcтовый ответ
Процесс привлечения к решению задач в инновационной сфере широкого круга лиц по типу субподрядной работы на добровольных началах с применением информационно-коммуникационных технологий – это …
Тип ответа: Текcтовый ответ
Разветвляющийся алгоритм – это …
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- присутствие в алгоритме хотя бы одного условия
- набор команд, которые выполняются последовательно друг за другом
- многократное выполнение одних и тех же действий
- алгоритм, использующий подпрограммы
Разным группам пользователей с различным уровнем доступа требуется доступ к одной и той же информации. Что следует предпринять руководству?
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- Снизить уровень классификации этой информации.
- Улучшить контроль за безопасностью этой информации.
- Требовать подписания специального разрешения каждый раз, когда человеку требуется доступ к этой информации.
- Открыть временный доступ к информации по запросу пользователей.
Расположите в правильной последовательности этапы дивизимного метода кластерного анализа:
Тип ответа: Сортировка
- 1 все объекты помещаются в один кластер С1
- 2 выбирается объект, у которого среднее значение расстояния до других объектов в этом кластере наибольшее
- 3 выбранный объект удаляется из кластера С1 и формирует первый элемент второго кластера С2
- 4 объект в кластере С1, для которого разность между средним расстоянием до объектов, находящихся в С2, и средним расстоянием до объектов, остающихся в С1, наибольшая, переносится в С2
- 5 каждый последующий уровень применяет процедуру разделения к одному из кластеров, полученных на предыдущем уровне
Расположите в правильной последовательности этапы кластерного анализа методом k-средних:
Тип ответа: Сортировка
- 1 выбирается k произвольных исходных центров кластеров – обычно выбираются k объектов
- 2 все объекты разбиваются на k групп, наиболее близких к одному из центров
- 3 вычисляются новые центры кластеров
- 4 проводится новое разбиение всех объектов на основании близости к новым центрам
Рассматривается несколько технологий систем управления базами данных (СУБД). Это технологии Hadoop, Cassandra, HDInsight и Redis. Какая из данных технологий не использует принцип MapReduce?
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- Hadoop
- Cassandra
- HDInsight
- Redis
Расстояние Манхэттен между векторами (-6, 3, -2) и (-1, 3, -3) равно …
Тип ответа: Текcтовый ответ
Реляционные базы данных организованы в виде …
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- таблиц
- списков
- презентации
- мультимедийного файла
Совокупность сведений, зафиксированных на определенном носителе в форме, пригодной для постоянного хранения, передачи и обработки, – это …
Тип ответа: Текcтовый ответ
Сокращенное английское название семейства нереляционных баз данных – …
Тип ответа: Текcтовый ответ
Сокращенное английское название языка структурированных запросов – …
Тип ответа: Текcтовый ответ
Способность языка программирования распознавать типы переменных – это …
Тип ответа: Текcтовый ответ
Такой вид машинного обучения, как …, основывается на взаимодействии обучаемой системы со средой
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- обучение с учителем
- глубинное обучение
- обучение без учителя
- обучение с подкреплением
Укажите правильную последовательность шагов алгоритма машинного обучения (ML):
Тип ответа: Сортировка
- 1 сбор данных
- 2 исследование и подготовка данных
- 3 обучение модели
- 4 оценка модели
- 5 улучшение модели
Укажите правильную последовательность этапов анализа данных в языке программирования R:
Тип ответа: Сортировка
- 1 сбор данных
- 2 импорт данных из источника в программную среду R
- 3 разведочный анализ
- 4 очистка и трансформация данных
- 5 моделирование
- 6 презентация результатов
Установите правильную последовательность этапов процесса MapReduсe подсчета цветов в текстовых файлах:
Тип ответа: Сортировка
- 1 чтение входных файлов
- 2 каждая строка передается заданию
- 3 ключ отображается на значение
- 4 ключи сортируются, чтобы упростить обобщение данных
- 5 фаза свертки суммирует количество вхождений каждого цвета и выводит для каждого ключа один файл с общим количеством вхождений этого цвета
- 6 ключи собираются в выходной файл
Установите правильный порядок действий при проектировании баз данных (БД):
Тип ответа: Сортировка
- 1 анализ предметной области с учетом требования конечных пользователей
- 2 обобщенное описание БД с использованием естественного языка, математических формул, графиков и других средств
- 3 формализация представления данных в БД
- 4 решение проблемы передачи данных
Установите правильный порядок действий при проектировании баз данных:
Тип ответа: Сортировка
- 1 анализ предметной области, с учетом требования конечных пользователей
- 2 обобщенное описание баз данных с использованием естественного языка, математических формул, графиков и других средств
- 3 формализация представления данных в базе данных
- 4 решение проблемы передачи данных
- 5 оценка работы и поддержка базы данных
Установите соответствие баз данных и их характеристик:
Тип ответа: Сопоставление
- A. MongoDB
- B. Reddis
- C. Neo4J
- D. Cassandra
- E. хранилище документов
- F. хранилище «ключ – значение»
- G. графовая база данных
- H. столбцовая база данных
Установите соответствие между аргументами функции leaflet() и их содержанием:
Тип ответа: Сопоставление
- A. data
- B. width
- C. crs
- D. origin
- E. scales
- F. матрица, фрейм данных, пространственные данные
- G. ширина карты
- H. используемая система координат
- I. начало координат в проекции
- J. масштабные коэффициенты
Установите соответствие между метриками расстояния между объектами и формулами расчета:
Тип ответа: Сопоставление
Установите соответствие между метриками расстояния между объектами и формулами расчета:
Тип ответа: Сопоставление
Установите соответствие между описательными статистиками и их определением:
Тип ответа: Сопоставление
- A. Мода
- B. Медиана
- C. Первый квартиль
- D. Третий квартиль
- E. наиболее часто встречающееся значение признака в совокупности
- F. значение признака, которое делит ранжированную совокупность на две равные части
- G. значение признака, ниже (левее) которого располагаются 25 % измеренных значений
- H. значение признака, правее которого располагаются 75 % измеренных значений
Установите соответствие между понятием и его содержанием:
Тип ответа: Сопоставление
- A. Data lake
- B. Data science
- C. Data mining
- D. Machine learning
- E. хранилище больших данных в необработанном виде
- F. дисциплина, изучающая проблемы анализа, обработки и представления информации в цифровой форме
- G. интеллектуальный анализ данных с целью выявления закономерностей
- H. теория и практика разработки самообучающихся программ, большая область искусственного интеллекта
Установите соответствие функций, применяемых для расчета ошибок выходного сигнала нейронной сети, и формул для их вычисления:
Тип ответа: Сопоставление
Установите соответствие функций, применяемых для расчета ошибок выходного сигнала нейронной сети, и формул для их вычисления:
Тип ответа: Сопоставление
Установите соответствие целей инфраструктуры Hadoop и их характеристик:
Тип ответа: Сопоставление
- A. Надежность
- B. Отказоустойчивость
- C. Масштабируемость
- D. Портируемость
- E. достигается посредством создания нескольких копий данных и повторного применения логики обработки в случае сбоя
- F. обнаружение сбоев и их автоматическое и применение автоматического восстановления
- G. данные и их обработка распределяются в кластерах
- H. возможность установки на всех видах устройств и операционных систем
Установите соответствие этапов MapReduce и их содержания:
Тип ответа: Сопоставление
- A. Input
- B. Splitting
- C. Mapping
- D. Shuffling
- E. Reducing
- F. загрузка входных данных для обработки
- G. разбивка данных на порции
- H. обработка порционных данных воркерами в формате «ключ – значение»
- I. сортировка ключей для упрощения обобщенных данных
- J. объединение и вывод результата
Фамилия британского ученого, который разработал эмпирический тест, призванный определить способность компьютера мыслить как человек, – …
Тип ответа: Текcтовый ответ
Функция … реализует алгоритм классификации в языке программирования R
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- kmeans()
- hcclust()
- randomForest()
- classify()
Функция … реализует алгоритм кластеризации в языке программирования R
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- pam()
- nnet()
- party()
- cluster()
Целое четырехзначное число, отражающее количество зеттабайт в йоттабайте, – …
Тип ответа: Текcтовый ответ
Целое четырехзначное число, отражающее количество петабайт в зеттабайте, – …
Тип ответа: Текcтовый ответ
Циклический алгоритм используется при вычислении … (укажите 2 варианта ответа)
Тип ответа: Множественный выбор • с выбором нескольких правильных ответов из предложенных вариантов
- суммы всех чисел от 1 до 100
- площади трапеции
- корня квадратного уравнения
- суммы двух чисел, введенных с клавиатуры
- среднего арифметического всех двухзначных чисел
Элементы матрицы факторных нагрузок меняются в пределах …
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
Язык программирования … имеет лицензию от компании MathWorks и широко используется для вычислений как в научных, так и в промышленных целях
Тип ответа: Текcтовый ответ
Язык программирования R является потомком языка …
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
Язык программирования R является потомком языка …
Тип ответа: Текcтовый ответ
Язык программирования, который объединяет объектно-ориентированный и функциональный подходы и используется в Apache Spark, – это язык …
Тип ответа: Текcтовый ответ
Data Mining – это процесс обнаружения в сырых данных … (укажите 3 варианта ответа)
Тип ответа: Множественный выбор • с выбором нескольких правильных ответов из предложенных вариантов
- ранее сформулированных гипотез
- неочевидных закономерностей
- практических закономерностей
- объективных закономерностей
- большого количества закономерностей
Hadoop – это проект …
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- фонда Apache Software Foundation
- SAP
- SAS
- Google
SQL – это …
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- реляционная база данных
- язык неструктурированных запросов
- язык структурированных запросов
- средство для создания пайплайнов
Variety в контексте характеристик Big Data означает …
Тип ответа: Одиночный выбор • с выбором одного правильного ответа из нескольких предложенных вариантов
- высокую скорость генерирования данных
- разные типы данных в колонках таблиц реляционных систем управления базами данных (СУБД)
- разнообразие отраслей, являющихся источниками данных
- разнообразие типов данных, включающих структурированные, полуструктурированные и неструктурированные
Web Mining применяет технологию Data Mining для анализа … (укажите 4 варианта ответа)
Тип ответа: Множественный выбор • с выбором нескольких правильных ответов из предложенных вариантов
- неструктурированной информации
- структурированной информации
- неоднородной информации
- однородной информации
- распределенной и значительной по объему информации
- информации, содержащейся на веб-узлах