SciELO - Scientific Electronic Library Online

 
vol.30 issue2Time Series Data Reconstruction: An Application to the Hourly Demand of ElectricityCentral Limit Theorems for S-Gini and Theil Inequality Coefficients author indexsubject indexarticles search
Home Pagealphabetic serial listing  

Services on Demand

Journal

Article

Indicators

Related links

  • On index processCited by Google
  • Have no similar articlesSimilars in SciELO
  • On index processSimilars in Google

Share


Revista Colombiana de Estadística

Print version ISSN 0120-1751

Rev.Colomb.Estad. vol.30 no.2 Bogotá July/Dec. 2007

 

Estimación de datos faltantes en medidas repetidas con respuesta binaria

Estimation of Missing Data in Repeated Measurements with Binary Response

YOLIMA AYALA1, ÓSCAR ORLANDO MELO2

1Universidad Pedagógica y Tecnológica de Colombia, Departamento de Matemáticas y Estadística, Tunja, Colombia. Profesora auxiliar. Email: yayalas@unal.edu.co
2Universidad Nacional de Colombia, Facultad de Ciencias, Departamento de Estadística, Bogotá, Colombia. Profesor asistente. Email: oomelom@unal.edu.co


Resumen

Se propone una metodología para la estimación de datos faltantes en condiciones longitudinales con respuesta binaria, desde una perspectiva univariada, basada en máxima verosimilitud. Suponiendo que las respuestas son faltantes de forma aleatoria (FFA), en cada una de las ocasiones se emplea el algoritmo EM de dos formas distintas: en la primera, el paso E se expresa como una log-verosimilitud ponderada de la respuesta, condicionada a las anteriores ocasiones tomadas como covariables adicionales, con base en el método de Ibrahim (1990) para covariables categóricas faltantes, obteniendo de esta forma estimadores máximo verosímiles. En la segunda, en el paso E se realiza la estimación e imputación de datos faltantes basada en el método Ancova de Bartlett (1937). La metodología propuesta es aplicada en un caso de estudio relacionado con factores de riesgo coronario, presentado en Fitzmaurice et al. (1994).

Palabras clave: datos longitudinales, regresión logística, máxima verosimilitud, algoritmo EM.


Abstract

A maximum likelihood method is proposed to provide estimates for models with binary response in longitudinal data based on an univariate model. Under a missing at random (MAR) mechanism, the EM algorithm is used in two different forms: in the first, the E step can be expressed as a weighted log-likelihood responses given the previous times, based in the method of weights proposed by Ibrahim (1990), for partially missing covariates. In the second, on the E step the estimation and imputation for missing data is based in Ancova method proposed by Bartlett (1937). Finally, we apply our method to the data from the Muscatine Coronary Risk Factor Study, employed in Fitzmaurice et al. (1994).

Key words: Longitudinal data, Logistic regression, Maximum likelihood, EM algorithm.


Texto completo disponible en PDF


Referencias

1. Ayala, S. Y. (2006), Estimación e Imputación de Datos Faltantes en Diseños de Medidas Repetidas con Respuesta Binaria o Poisson, Tesis de Maestría, Estadística, Universidad Nacional de Colombia, Facultad de Ciencias, Departamento de Estadística, Bogotá, Colombia.         [ Links ]

2. Bartlett, M. S. (1937), 'Some Examples of Statistical Methods of Research in Agricultura and Applied Botany', Journal of Royal Statistical 4, 137-170.         [ Links ]

3. Chen, H. Y. & Little, R. (1999), 'A Test of Missing Completely at Random for Generalised Estimating Equations with Missing Data', Biometrika 86(1), 1-13.         [ Links ]

4. Dempster, A. P., Laird, N. M. & Rubin, D. B. (1977), 'Maximum Likelihood from Incomplete Data Via the EM Algorithm', Journal of the Royal Statistical 39, 1-38.         [ Links ]

5. Diggle, P. J., Liang, K. Y. & Zeger, S. L. (1994), Analysis of Longitudinal Data, Oxford, England.         [ Links ]

6. Fitzmaurice, G., Laird, N. & Lipsitz, S. (1994), 'Analysis Incomplete Longitudinal Binary Responses: A Likelihood-Based Approach', Biometrics 50(3), 601-612.         [ Links ]

7. Fitzmaurice, G., Laird, N. & Ware, J. (2004), Applied Longitudinal Analysis, Wiley Series in Probability and Statistics, New York, United States.         [ Links ]

8. Healy, M. & Wesmacott, M. (1956), 'Missing Values in Experiments Analized on Automatic Computers', Applied Statistic 5, 203-206.         [ Links ]

9. Horton, N. & Lipsitz, S. (2001), 'Multiple Imputation in Practice: Comparison of Software Packages for Regression Models With Missing Variables', American Statistical Association 55(3), 244-254.         [ Links ]

10. Ibrahim, J. (1990), 'Incomplete Data in Generalized Linear Models', Journal of American Statistical Association 85(411 pages 765-769).         [ Links ]

11. Lipsitz, S., Ibrahim, J. & Fitzmaurice, G. (1999), 'Likelihood Methods for Incomplete Longitudinal Binary Responses with Incomplete Categorical Covariates', Biometrics 55, 214-223.         [ Links ]

12. Little, R. & Rubin, D. (2002), Statistical Analysis with Missing Data, Wiley & Son, New York, United States.         [ Links ]

13. McCullagh, P. & Nelder, J. (1989), Generalized Linear Models, second edn, CRC Press, New York, United States.         [ Links ]

14. Park, T. & Davis, C. (1993), 'A Test of the Missing Data Mechanism for Repeated Categorical Data', Biometrics 49(2), 631-638.         [ Links ]

15. Park, T. & Lee, S. Y. (1997), 'A Test of Missing Completely at Random for Longitudinal Data with Missing Observations', Statistics in Medicine 16, 1859-1871.         [ Links ]

16. Peña, D. (2002), Análisis de datos multivariantes, McGraw-Hill, Madrid, España.         [ Links ]

17. Srivastava, M. & Carter, E. (1986), 'The Maximum Likelihood Method for Non-Response in Sample Surveys', Statistics Canada 12, 61-72.         [ Links ]

18. Wolson, R. F. & Clarke, W. R. (1984), 'Analysis of Categorical Incomplete Longitudinal Data', Royal Statistical Society 147, 87-99.         [ Links ]

19. Yang, X., Li, J. & Shoptaw, S. (2005), 'Multiple Partial Imputation for Longitudinal Data with Missing Values in Clinical Trials'. Paper 2005010102.         [ Links ]

20. Yates, F. (1933), 'The Analysis of Replicate Experiments When the Field Results are Incomplete', Empire Journal of Experimental Agriculture 1, 129-142.         [ Links ]

21. Zhao, L. P. & Prentice, R. L. (1990), 'Correlated Binary Regression Using a Quadratic Exponential Model', Biometrika 77, 642-648.         [ Links ]

22. Zorn, C. J. (2001), 'Generalized Estimation Equation Model for Correlated Data: A Review with Application', American Journal of Political Science 45(2), 470-490.         [ Links ]

Este artículo se puede citar en LaTeX utilizando la siguiente referencia bibliográfica de BibTeX:

@ARTICLE{AyalaMelo07,
AUTHOR = {Yolima Ayala and Óscar Orlando Melo}
TITLE = {{Estimación de datos faltantes en medidas repetidas con respuesta binaria}},
JOURNAL = {Revista Colombiana de Estadística},
YEAR = {2007},
volume = {30},
number = {2},
pages = {265-285}
}

Creative Commons License All the contents of this journal, except where otherwise noted, is licensed under a Creative Commons Attribution License