Я новичок в R, поэтому это может показаться основным вопросом; Я пытаюсь оценить пробит-регрессию занятости, учитывая, что человек является мужчиной. Я думаю, что у меня правильная пробит-модель, но я не могу ее построить. Ниже приведены первые 10 строк из моего набора данных, в котором всего 60 000 строк. Как вы можете видеть, я создал 5 фиктивных переменных: «Мужчина», «LeavingCert», «Bachelors», «Married» и «Employed»; (Хотя первые 10 строк в столбце «Занятые» равны 0, это не относится к полному набору данных. Однако нулей значительно больше, чем единиц, и, возможно, это моя проблема?)
Top10 <- head(data,10)
Top10
# A tibble: 10 × 10
...1 SEX MARSTAT MAINSTAT EDUCLEV4 Male LeavingCert Bachelors Married Employed
<dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1 1 2 2 6 9 0 0 0 1 0
2 2 2 1 2 9 0 0 0 0 0
3 3 2 1 2 9 0 0 0 0 0
4 4 2 2 2 9 0 0 0 1 0
5 5 2 1 5 6 0 0 1 0 0
6 6 1 2 3 9 1 0 0 1 0
7 7 1 2 2 9 1 0 0 1 0
8 8 2 3 2 9 0 0 0 0 0
9 9 2 2 2 9 0 0 0 1 0
10 10 1 1 4 9 1 0 0 0 0
Для моей модели «Probit1» мой Y — «Работающий», а мой X — «Мужской». Мой код выглядит следующим образом;
Probit1 <- glm(Employed ~ Male,
family = binomial(link = "probit"),
data = data)
summary(Probit1)
Я попытался построить эту пробит-регрессию следующим образом;
# plot data
plot(x = data$Male,
y = data$Employed,
main = "Probit Model of the Probability of Employed, Given Male",
xlab = "Male",
ylab = "Employed",
pch = 20,
ylim = c(-0.4, 1.4),
cex.main = 0.85)
# add horizontal dashed lines and text
abline(h = 1, lty = 2, col = "darkred")
abline(h = 0, lty = 2, col = "darkred")
text(2.5, 0.9, cex = 0.8, "Empolyed")
text(2.5, -0.1, cex= 0.8, "Unemployed")
# add estimated regression line
x <- seq(0, 3, 0.01)
y <- predict(Probit1, list(Male = x), type = "response")
lines(x, y, lwd = 1.5, col = "steelblue")
Это сюжет, который я получаю, и он не кажется правильным?

Мои данные проблема?
Любая помощь очень ценится, и если это невозможно, есть ли другой сюжет, который я мог бы сделать? Заранее спасибо.
сводка (Probit1)
> summary(Probit1)
Call:
glm(formula = Employed ~ Male, family = binomial(link = "probit"),
data = data)
Deviance Residuals:
Min 1Q Median 3Q Max
-0.2777 -0.2777 -0.2742 -0.2742 2.5689
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.78787 0.01299 -137.67 <2e-16 ***
Male 0.01141 0.01871 0.61 0.542
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 19747 on 61939 degrees of freedom
Residual deviance: 19747 on 61938 degrees of freedom
AIC: 19751
Number of Fisher Scoring iterations: 5
таблица (данные $ Мужчина, данные $ Работа)
> table(data$Male, data$Employed)
0 1
0 31165 1194
1 28462 1119
Решение проблемы
Спасибо за добавление сводки по регрессии и таблицы. Из сводки регрессии видно, что коэффициент для мужчин действительно мал (и незначителен):
Male 0.01141 0.01871 0.61 0.542
Этот небольшой коэффициент означает, что принадлежность к мужскому полу увеличивает шансы на трудоустройство лишь на самую незначительную часть, поэтому логично, что мы не можем увидеть это на графике, потому что изменение слишком мало, наклон к небольшому.
Глядя на стол
> table(data$Male, data$Employed)
0 1
0 31165 1194
1 28462 1119
Мы можем подтвердить, что численно или визуально впечатляющего увеличения нет:
1194/(1194+31165) = 3,7%, 1119/(1119+28462) = 3,8%. Вы не можете ожидать увеличения вашего графика на 0,1%.
Мои данные проблема?
Они являются причиной. Я не знаю, являются ли они проблемой.
Комментариев нет:
Отправить комментарий