Обработка пропущенных значений в таблицах expss: полный

Освойте обработку пропущенных значений в таблицах кросс‑табуляции expss. Показать специальные коды, например -999, но исключить их из расчётов процентов. Изучите альтернативы пакету survey.

Авторы: НейроАгент

20.11.2025, 13:45

Как обрабатывать пропущенные значения в таблицах перекрестной классификации expss, исключая их из расчётов, но при этом отображая в таблице? Я работаю с данными опроса, где респонденты иногда пропускают вопросы, что приводит к значениям вроде –999 или –998. Я хочу, чтобы эти значения появлялись в таблице, но не учитывались при расчёте процентов. При использовании tab_mis_val() это работает для основной переменной, но не для объединённых категорий, например quest1 %in% c(4, 5). Как правильно решить эту задачу в expss, и есть ли другие пакеты R, которые предлагают более продвинутые возможности статистических тестов — как с учётом весов, так и без — для табуляции опросов?

Missing values in survey data can be effectively handled in expss by using the tab_mis_val() function for single variables and employing custom approaches for combined categories, while other R packages like survey and srvyr offer more comprehensive weighted statistical testing capabilities for complex survey tabulations.

Понимание пропущенных значений в опросных данных
Использование tab_mis_val() в expss
Обработка объединённых категорий с пропущенными значениями
Альтернативные подходы в expss
Другие пакеты R для анализа опросов
Лучшие практики табуляции опросов

Понимание пропущенных значений в опросных данных

Пропущенные значения в опросных данных обычно появляются как специальные коды, например -999, -998 или другие пользовательские значения, которые представляют пропущенные вопросы, отказ от ответа или ошибки сбора данных. Эти значения необходимо обрабатывать иначе, чем реальные ответы, во время анализа.

Согласно руководству Unidata о пропущенных значениях, пропущенные значения могут возникать по многим причинам:

Пропущенные ответы в опросе – респонденты намеренно или случайно пропускают вопросы
Глюки датчиков – технические сбои в устройствах сбора данных
Ошибки ввода данных – ошибки при ручном вводе данных
Потерянные записи – данные собраны, но не сохранены должным образом
Несоответствие при объединении – проблемы при комбинировании нескольких источников данных

При работе с опросными данными в R важно различать:

Системные пропущенные значения (NA в R)
Пользовательские пропущенные значения (например, -999, -998)
Действительные ответы, которые должны включаться в расчёты

Пакет expss предоставляет инструменты для обработки обоих типов пропущенных значений, но требует разных подходов для отдельных переменных и объединённых категорий.

Использование tab_mis_val() в expss

Функция tab_mis_val() в expss специально разработана для обработки пропущенных значений в кросс‑табуляционных таблицах. Для одной переменной её можно использовать так:

library(expss)
# Предположим, что 'data' – ваш датафрейм, а 'quest1' содержит пропущенные значения, закодированные как -999
data %>% tab_mis_val(quest1)

Она:

Отображает пропущенные значения (-999, -998) в таблице
Исключает их из расчётов процентов
Показывает их как отдельную категорию в выводе

Однако, как вы уже заметили, эта функция напрямую не работает с объединёнными категориями, например quest1 %in% c(4, 5). Ограничение возникает, потому что tab_mis_val() предназначена для работы с отдельными переменными, а не с комплексными выражениями.

Обработка объединённых категорий с пропущенными значениями

Для объединённых категорий, где вы хотите исключить пропущенные значения из расчётов, но при этом отобразить их, нужен другой подход. Ниже несколько методов:

Метод 1: Создание переменной объединённой категории

# Создайте новую переменную, объединяющую категории 4 и 5
data$quest1_combined <- ifelse(data$quest1 %in% c(4, 5), "combined_4_5",
                              ifelse(data$quest1 %in% c(-999, -998), "missing",
                                     as.character(data$quest1)))

# Затем примените tab_mis_val к новой переменной
data %>% tab_mis_val(quest1_combined)

Метод 2: Пользовательская табуляция с обработкой пропущенных значений

# Создайте переменную весов при необходимости
data$weight <- 1  # замените на реальные веса

# Пользовательская функция табуляции
custom_tab <- function(data, var, weight_var = NULL) {
    if (!is.null(weight_var)) {
        data <- data[!is.na(data[[var]]), ]  # Удаляем NA для взвешенного анализа
        data <- data[data[[var]] %in% c(-999, -998), ]  # Удаляем пользовательские пропущенные
        data %>% cro(table(weight_var, var), total_row = TRUE, total_col = TRUE)
    } else {
        data <- data[!is.na(data[[var]]), ]
        data <- data[data[[var]] %in% c(-999, -998), ]
        data %>% cro(var, total_row = TRUE, total_col = TRUE)
    }
}

# Использование с объединёнными категориями
combined_data <- data[data$quest1 %in% c(4, 5) | data$quest1 %in% c(-999, -998), ]
custom_tab(combined_data, "quest1")

Метод 3: Использование expss с фильтрацией

# Фильтруем пропущенные значения для расчётов, но включаем их в отображение
data %>%
    mutate(quest1_display = ifelse(quest1 %in% c(-999, -998), "MISSING", as.character(quest1))) %>%
    cro(table(quest1_display, quest1 %in% c(4, 5)), total_row = TRUE)

Альтернативные подходы в expss

Помимо tab_mis_val(), expss предлагает несколько других функций, которые могут помочь с обработкой пропущенных значений:

Использование `cro()` с пользовательским форматированием

# Создайте форматированную таблицу, разделяющую пропущенные значения
data %>%
    mutate(quest1_clean = ifelse(quest1 %in% c(-999, -998), "MISSING", quest1)) %>%
    cro(table(quest1_clean, other_variable), total_row = TRUE)

Использование `etable()` для контроля экспорта

# Экспорт таблицы с конкретной обработкой пропущенных значений
data %>%
    mutate(quest1_processed = ifelse(quest1 %in% c(-999, -998), "MISSING", quest1)) %>%
    etable(~ quest1_processed + other_variable)

Взвешенный анализ в expss

expss также поддерживает взвешенный анализ:

# Установите переменную весов
data %>% set_weights(weight)

# Затем используйте tab_mis_val или другие функции
data %>% tab_mis_val(quest1)

Другие пакеты R для анализа опросов

Хотя expss хорош для базовой табуляции, несколько других пакетов предоставляют более комплексные возможности статистических тестов для опросных данных:

1. Пакет survey

Пакет survey является золотым стандартом для анализа сложных опросов:

library(survey)

# Создайте объект дизайна опроса
design <- svydesign(
    ids = ~1,  # без кластеров
    weights = ~weight,  # веса выборки
    data = data
)

# Создайте кросс‑табуляцию с правильными статистическими тестами
svytable(~quest1 + other_variable, design = design)

# Тест хи‑квадрат для сложных опросов
svychisq(~quest1 + other_variable, design = design)

2. Пакет srvyr

srvyr предоставляет интерфейс в стиле tidyverse к пакету survey:

library(srvyr)

# Преобразуйте в дизайн srvyr
design <- data %>%
    as_survey_design(weights = weight)

# Создайте взвешенную табуляцию
design %>%
    group_by(quest1) %>%
    summarise(n = survey_total(), percent = survey_mean())

3. Пакет descr

Как упоминалось в исследовательских выводах, пакет descr предоставляет функцию CrossTable():

library(descr)

# Кросс‑табуляция со статистическими тестами
CrossTable(data$quest1, data$other_variable,
           prop.c = FALSE, prop.r = FALSE, prop.t = FALSE,
           prop.chisq = FALSE, chisq = TRUE, format = "SPSS")

4. Пакет flipStatistics

Этот пакет предоставляет комплексные статистики опросов:

library(flipStatistics)

# Взвешенная кросс‑табуляция
CrossTable(data$quest1, data$other_variable,
           weights = data$weight,
           test = TRUE, expected = TRUE)

Лучшие практики табуляции опросов

При работе с опросными данными и пропущенными значениями рассмотрите следующие лучшие практики:

1. Документируйте коды пропущенных значений

Всегда поддерживайте чёткую документацию:

Что представляет каждый код пропущенного значения
Сколько случаев содержит каждый тип пропущенных значений
Обрабатываются ли пропущенные значения систематически или случайно

2. Рассмотрите механизмы пропущенных значений

Понимание причин пропусков помогает определить подходящую обработку:

Полностью случайные пропуски (MCAR) – можно безопасно исключить
Случайные пропуски (MAR) – может потребоваться статистическая корректировка
Наследуемые пропуски (MNAR) – может потребоваться специализированные методы

3. Используйте подходящие статистические тесты

Для опросных данных всегда используйте:

Тесты на основе дизайна (пакет survey) вместо стандартных тестов
Взвешенные анализы, когда доступны веса выборки
Методы репликации для сложной оценки дисперсии

4. Отчитывайтесь о пропущенных значениях

Всегда сообщайте:

Количество и процент пропущенных значений
Как пропущенные значения были обработаны
Любые чувствительные анализы, проведённые

5. Рассмотрите множественную иммутацию

Для значительных пропусков рассмотрите методы множественной иммутации:

library(mice)

# Множественная иммутация
imp <- mice(data, m = 5, maxit = 50, method = 'pmm', seed = 500)

# Анализ каждого иммутационного набора данных
models <- with(imp, lm(outcome ~ quest1 + other_variable))

# Сводные результаты
pooled <- pool(models)
summary(pooled)

Заключение

Обработка пропущенных значений в опросных данных требует тщательного учёта как требований отображения, так и аналитических потребностей. Хотя функция tab_mis_val() expss хорошо работает для отдельных переменных, объединённые категории требуют пользовательских подходов, таких как создание новых переменных или использование фильтрации. Для более комплексных статистических тестов пакеты survey и srvyr предоставляют превосходные возможности для взвешенного анализа опросов.

Ключевые рекомендации:

Используйте tab_mis_val() для простого управления пропущенными значениями одной переменной
Создавайте пользовательские переменные или применяйте фильтрацию для объединённых категорий
Используйте пакет survey для сложных статистических тестов с правильным взвешиванием
Всегда документируйте и сообщайте процедуры обработки пропущенных значений
Рассмотрите продвинутые методы, такие как множественная иммутация, при значительном объёме пропусков

Выбор пакета и подхода в конечном итоге зависит от конкретного дизайна опроса, паттернов пропущенных значений и аналитических требований.

Источники

Авторы

НейроАгент

Автор

Проверено модерацией

НейроОтветы

Модерация