6 задач по датафреймам для начинающих, например:
Task 1.
Определите модуль разницы между средними тратами женщин и мужчин (трата - отрицательное значение amount). (*)
Выведите ответ в виде вещественного числа, округлённого до двух знаков после запятой, отделив дробную часть точкой в формате "123.45"
Пояснения:
(*) Если в результате для мужчин получились значения [-1,-3,-5], а для женщин [-1,-2,-3],
то модуль разницы между средними арифметическими -3 и -2 будет равен 1.
(**) Обратите внимание, что для вычисления модуля разности точных знаний о том,
какой класc относится к мужчинам, а какой - к женщинам, пока не требуется.
(***) Округление не нужно производить отдельно по средним тратам женщин и мужчин, а только в самом конце, когда получите значение модуля разницы трат.Task 2:
Создайте новый столбец - mcc_code+tr_type, сконкатенировав значения из соответствующих столбцов. (*)
Оставьте только наблюдения с отрицательным значением amount. Посчитайте дисперсию по категориям получившегося столбца mcc_code+tr_type, в которых количество наблюдений >= 10.
Определите отношение максимальной дисперсии к минимальной.
Выведите ответ в виде вещественного числа, округлённого до ближайшего целого в формате "123456" без дробной части.
Пояснения:
(*) Для конкатенации значений в столбцах можно использовать метод .astype(str) для серии и складывать соответствующие серии. Либо же применять apply к строкам датафрейма, прописывая логику преобразования и конкатенации значений внутри.
(**) Для одновременного подсчета количества наблюдений и дисперсии по категориям можно воспользоваться функцией .agg()