Scielo RSS <![CDATA[Revista Colombiana de Estadística]]> http://www.scielo.org.co/rss.php?pid=0120-175120220001&lang=en vol. 45 num. 1 lang. en <![CDATA[SciELO Logo]]> http://www.scielo.org.co/img/en/fbpelogp.gif http://www.scielo.org.co <![CDATA[Additive Outliers in Open-Loop Threshold Autoregressive Models: A Simulation Study]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512022000100001&lng=en&nrm=iso&tlng=en Abstract The effect of additive outlier observations is investigated in adapting a non-linearity test and a robust estimation method for the autoregressive coefficients from SETAR(self-exciting threshold autoregressive) models to open-loop models. TAR (threshold autoregressive). Through a Monte Carlo experiment, the power and size of the non-linearity test are studied. Regarding the estimation, the bias and the mean square error ratio between the robust estimator and the least-squares estimator are compared. Additionally, the approximation of the GM estimators' empirical distribution to the univariate normal distribution is evaluated together with the coverage levels of the asymptotic confidence intervals. The results indicate that the adapted non-linearity test has higher power than that based on least squares and does not present distortions in size under the presence of additive outliers. On the other hand, the robust estimation method for autoregressive coefficients exceeds the least-squares one in terms of the mean square error in the presence of this type of observations. These results were analogous to those obtained for SETAR models. Finally, the use of the non-linearity test and the estimation method are illustrated through two real examples.<hr/>Resumen Se investiga el efecto de observaciones atípicas aditivas en la adaptación de una prueba de no linealidad y un método de estimación robusto para los coeficientes autorregresivos de modelos SETAR(self-exciting threshold autoregressive) a modelos open-loop TAR(threshold autoregressive). A través de un experimento Monte Carlo se estudia la potencia y el tamaño de la prueba de no linealidad. Respecto a la estimación, se compara el sesgo y la razón de error cuadrático medio entre el estimador robusto y el de mínimos cuadrados. Adicionalmente, se evalúa la aproximación de la distribución empírica de los estimadores GM de los coeficientes a la distribución normal univariada junto a los niveles de cobertura de los intervalos de confianza asintóticos. Los resultados indican que la prueba de no linealidad adaptada presenta una potencia superior a la basada en mínimos cuadrados y no presenta distorsiones en el tamaño bajo la presencia de datos atípicos aditivos. Por otro lado, el método de estimación robusto para los coeficientes autorregresivos supera al de mínimos cuadrados en términos de error cuadrático medio bajo la presencia de este tipo de observaciones. Estos resultados fueron análogos a los obtenidos para modelos SETAR. Finalmente, se ilustra a través de dos ejemplos reales el uso de la prueba de no linealidad y el método de estimación. <![CDATA[Asymmetric Prior in Wavelet Shrinkage]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512022000100041&lng=en&nrm=iso&tlng=en Abstract In bayesian wavelet shrinkage, the already proposed priors to wavelet coefficients are assumed to be symmetric around zero. Although this assumption is reasonable in many applications, it is not general. The present paper proposes the use of an asymmetric shrinkage rule based on the discrete mixture of a point mass function at zero and an asymmetric beta distribution as prior to the wavelet coefficients in a non-parametric regression model. Statistical properties such as bias, variance, classical and bayesian risks of the associated asymmetric rule are provided and performances of the proposed rule are obtained in simulation studies involving artificial asymmetric distributed coefficients and the Donoho-Johnstone test functions. Application in a seismic real dataset is also analyzed.<hr/>Resumen En la contracción de las ondículas bayesianas, se supone que los coeficientes a priori ya propuestos de las ondículas son simétricos alrededor de cero. Aunque esta suposición es razonable en muchas aplicaciones, no es general. El presente artículo propone el uso de una regla de contracción asimétrica basada en la mezcla discreta de una función de masa puntual en cero y una distribución beta asimétrica como priori de los coeficientes de ondícula en un modelo de regresión no paramétrico. Se proporcionan propiedades estadísticas tales como sesgo, varianza, riesgos clásicos y bayesianos de la regla asimétrica asociada y se obtienen los rendimientos de la regla propuesta en estudios de simulación que involucran coeficientes distribuidos asimétricos artificiales y las funciones de prueba de Donoho-Johnstone. También se analiza la aplicación en un conjunto de datos sísmicos reales. <![CDATA[Cubic Rank Transmuted Lindley Distribution with Applications]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512022000100065&lng=en&nrm=iso&tlng=en Abstract In this work, we propose a three-parameter generalized Lindley distribution using the cubic rank transmutation map approach by Granzotto et al. (2017). We derive expressions for several mathematical properties including moments and moment generating function, mean deviation, probability weighted moments, quantile function, reliability analysis, and order statistics. We conducted a simulation study to assess the performance of the maximum likelihood estimation procedure for estimating model parameters. The flexibility of the proposed model is illustrated by analyzing two real data sets.<hr/>Resumen En este trabajo, proponemos una distribución generalizada Lindley con tres parámetros utilizando el enfoque de mapa de transmutación de rango cúbico de Granzotto et al. (2017). Derivamos expresiones para varias propiedades matemáticas, incluyendo momentos y función generadora de momentos, desviación media, momentos ponderados por probabilidad, función cuantil, análisis de confiabilidad y estadísticas de orden. Se realizó un estudio de simulación para evaluar el rendimiento del procedimiento de estimación de máxima verosimilitud para estimar los parámetros del modelo. La flexibilidad del modelo propuesto se ilustra mediante el análisis de dos conjuntos de datos reales. <![CDATA[Evaluation of the Mean Control Chart Under a Bayesian Approach]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512022000100085&lng=en&nrm=iso&tlng=en Abstract A previous study on the evaluation of control charts for the mean with a Bayesian approach, based on predictive limits, was performed in such a way that neither prior nor sample information was taken into account. This work was developed to make a more complete study to evaluate the influence of the combination of the prior distribution with the sample information. It is assumed that the quality characteristic to be controlled can be modeled by a Normal distribution and two cases are considered: known and unknown variance. A Bayesian conjugate model is established, therefore the prior distribution for the mean is Normal and, in the case where the variance is unknown, the prior distribution for the variance is defined as the Inverse-Gamma(v, v). The posterior predictive distribution, which is also Normal, is used to establish the control limits of the chart. Signal propability is used to measure the performance of the control chart in phase II, with the predictive limits calculated under different specifications of the prior distributions, and two different sizes of the calibration sample and the future sample. The simulation study evaluates three aspects: the effects of sample sizes, the distance of the prior mean to the mean of the calibration sample, and an indicator of how informative is the prior distribution of the population mean. In addition, in the case of unknown variance, we study what is the effect of changing values in the parameter v. We found that the false alarm rate could be quite large if the prior distribution is very informative which in turn leads to an ARL (average run length) biased chart, that is, the maximum of the ARL is not given when the process is under control. Besides, we found great influence of the prior distribution on the control chart power when the size of the calibration and future samples are small, particulary when the prior is very informative. Finally, regarding the effect of the parameter v, we found that the smaller the value, which means having a less informative prior distribution, the lower the power of the control chart.<hr/>Resumen Un estudio previo sobre la evaluación de las gráficas de control para la media con un enfoque Bayesiano, basadas en límites predictivos, fue realizado de tal manera que no se tuvo en cuenta ni la información a priori ni la información muestral. En este trabajo hemos desarrollado un estudio más completo para evaluar la influencia de la combinación de la distribución a priori con la información muestral. Se asume que la característica de calidad a controlar puede modelarse mediante una distribución Normal y se consideran dos casos: varianza conocida y desconocida. Para la aproximación Bayesiana se establece un modelo conjugado, por lo tanto la distribución a priori para la media es Normal y, en el caso donde la varianza es desconocida, se define como distribución a priori para la varianza la Gamma-Inversa(v, v). La distribución predictiva posterior, que también es Normal, es utilizada para establecer los límites de control de la gráfica. Se utiliza la probabilidad de señal para medir el desempeño de la gráfica en la denominada phase II de control, con los límites predictivos calculados bajo diferentes especificaciones de las distribuciones a priori, del tamaño de la muestra de calibración y del tamaño de la muestra futura. El estudio de simulación evalúa tres aspectos: efectos del tamaño de muestra, de la distancia de la media a priori con relación a la media de la muestra de calibración, y un indicador de cuán informativa es la distribución a priori de la media poblacional. Adicionalmente, cuando la varianza es desconocida, se estudia el efecto de los valores del parámetro v. Se encuentra que la tasa de falsas alarmas puede ser exageradamente grande si se especifica una a priori muy informativa, lo que a su vez puede conducir a una gráfica de control con una ARL (average run length) sesgada, es decir, que el máximo de la ARL no se dará cuando el proceso está en control. Además, cuando el tamaño de las muestras de calibración y de la muestra futura son pequeñas, hay gran influencia de la especificación de la a priori sobre la potencia de la gráfica de control, en especial cuando la a priori es muy informativa. Finalmente, en cuanto al efecto del parámetro v, se encuentra que entre más pequeño es su valor, lo cual indica que la distribución a priori para la varianza es menos informativa, menor es la potencia de la gráfica de control, en especial si los tamaños de muestra son pequeños. <![CDATA[Wavelet Shrinkage Generalized Bayes Estimation for Multivariate Normal Distribution Mean Vectors with unknown Covariance Matrix under Balanced-LINEX Loss]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512022000100107&lng=en&nrm=iso&tlng=en Abstract In this paper, the generalized Bayes estimator of mean vector parameter for multivariate normal distribution with Unknown mean vector and covariance matrix is considered. This estimation is performed under the balanced-LINEX error loss function. The generalized Bayes estimator by using wavelet transformation is investigated. We also prove admissibility and minimaxity of shrinkage estimator and we present the simulation study and real data set for test validity of new estimator.<hr/>Resumen En este trabajo, se considera el estimador de Bayes generalizado del parámetro de vector medio para distribución normal multivariante con vector de media desconocido y matriz de covarianza. Esta estimación se realiza bajo la función de pérdida de error LINEX balanceada. Se investiga el estimador de Bayes generalizado mediante la transformación de ondículas. También probamos la admisibilidad y minimaxidad del estimador de contracción y presentamos el estudio de simulación y el conjunto de datos reales para comprobar la validez de la prueba del nuevo estimador. <![CDATA[Finite Population Mixed Models for Pretest-Posttest Designs with Response Errors]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512022000100125&lng=en&nrm=iso&tlng=en Abstract We consider a finite population mixed model that accommodates response errors and show how to obtain optimal estimators of the finite population parameters in a pretest-posttest context. We illustrate the method with the estimation of the difference in gain between two interventions and consider a simulation study to compare the empirical version of the proposed estimator (obtained by replacing variance components with estimates) with the estimator obtained via covariance analysis usually employed in such settings. The results indicate that in many instances, the proposed estimator has a smaller mean squared error than that obtained from the standard analysis of covariance model.<hr/>Resumen Se considera un modelo mixto para población finita que tiene en cuenta el error de respuesta y que arroja estimadores óptimos de los parámetros de la población finita, para analizar datos de estudios con estructura del tipo pretest-posttest. Se ilustra el método estimando la diferencia en ganancia entre dos intervenciones y se considera un estudio de simulación para comparar la versión empírica del estimador propuesto (obtenido al reemplazar las componentes de varianza con sus estimativas) con el estimador obtenido vía análisis de covarianza, que es usualmente empleado en este tipo de estudios. Los resultados indican que en muchas circunstancias, el estimador propuesto tiene menor error cuadrático medio que el obtenido del análisis estándar usando el modelo de covarianza. <![CDATA[Some Characterizations of the Exponential Distribution by Generalized Order Statistics, with Applications to Statistical Prediction Problem]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512022000100149&lng=en&nrm=iso&tlng=en Abstract Some new characterization properties of the exponential distribution based on two non-adjacent m-generalized order statistics (consequently m-dual generalized order statistics), m # - 1, coming from two independent exponential distributions are derived. The result of this paper provides a beneficial strategy to predict the failure time of some survived components in a lifetime experiment by using the result of another independent lifetime experiment.<hr/>Resumen Se derivan algunas propiedades de caracterización nuevas de la distribución exponencial basadas en dos estadísticas de orden generalizado m no adyacentes (en consecuencia, estadísticas de orden generalizado m dual), m # -1, procedentes de dos distribuciones exponenciales independientes. El resultado de este artículo proporciona una estrategia beneficiosa para predecir el tiempo de falla de algunos componentes sobrevividos en un experimento de por vida utilizando el resultado de otro experimento de por vida independiente. <![CDATA[Causal Mediation for Survival Data: A Unifying Approach via GLM]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512022000100161&lng=en&nrm=iso&tlng=en Abstract Mediation analysis has been receiving much attention from the scientific community in the last years, mainly due to its ability to disentangle causal pathways from exposures to outcomes. Particularly, causal mediation analysis for time-to-event outcomes has been widely discussed using accelerated failures times, Cox and Aalen models, with continuous or binary mediator. We derive general expressions for the Natural Direct Effect and Natural Indirect Effect for the time-to-event outcome when the mediator is modeled using generalized linear models, which includes existing procedures as particular cases. We also define a responsiveness measure to assess the variations in continuous exposures in the presence of mediation. We consider a community-based prospective cohort study that investigates the mediation of hepatitis B in the relationship between hepatitis C and liver cancer. We fit different models as well as distinct distributions and link functions associated to the mediator. We also notice that estimation of NDE and NIE using different models leads to non-contradictory conclusions despite their effect scales. The survival models provide a compelling framework that is appropriate to answer many research questions involving causal mediation analysis. The extensions through GLMs for the mediator may encompass a broad field of medical research, allowing the often necessary control for confounding.<hr/>Resumen El análisis de mediación ha recibido mucha atención en los últimos años, principalmente debido a su capacidad para desenredar las vías causales. Particularmente, mediación causal para el tiempo hasta el evento se ha discutido ampliamente utilizando tiempos de falla acelerados, modelos de Cox y Aalen, con mediador continuo o binario. Derivamos expresiones generales para el efecto directo natural y el efecto indirecto natural para el el tiempo hasta el evento cuando el mediador se modela utilizando modelos lineales generalizados, que incluyen procedimientos existentes como casos particulares. Definimos una medida para evaluar variaciones en exposiciones continuas en presencia de mediación. Consideramos un estudio de cohorte prospectivo que investiga la mediación de la hepatitis B en la relación entre la hepatitis C y el cáncer de hígado. Encajamos diferentes modelos, así como distintas distribuciones y funciones de enlace. Todos los enfoques dan como resultado evaluaciones consistentes de los effectos considerando sus correspondientes escalas. Los modelos de supervivencia proporcionan un marco convincente apropiado para responder a muchas preguntas de investigación que involucran mediación causal. Las extensiones a través de GLM para el mediador pueden abarcar un amplio campo de investigación médica, lo que permite el control necesario para los factores de confusión. <![CDATA[Bahadur's Stochastic Comparison of Combining infinitely Independent Tests in Case of Extreme Value Distribution]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512022000100193&lng=en&nrm=iso&tlng=en Abstract For simple null hypothesis, given any non-parametric combination method which has a monotone increasing acceptance region, there exists a problem for which this method is most powerful against some alternative. Starting from this perspective and recasting each method of combining p-values as a likelihood ratio test, we present theoretical results for some of the standard combiners which provide guidance about how a powerful combiner might be chosen in practice. In this paper we consider the problem of combining n independent tests as n → ∞ for testing a simple hypothesis in case of extreme value distribution (EV(θ,1)). We study the six free-distribution combination test producers namely; Fisher, logistic, sum of p-values, inverse normal, Tippett's method and maximum of p-values. Moreover, we studying the behavior of these tests via the exact Bahadur slope. The limits of the ratios of every pair of these slopes are discussed as the parameter θ → 0 and θ → ∞. As θ → 0,, the logistic procedure is better than all other methods, followed in decreasing order by the inverse normal, the sum of p-values, Fisher, maximum of p-values and Tippett's procedure. Whereas, θ → ∞the logistic and the sum of p-values procedures are equivalent and better than all other methods, followed in decreasing order by Fisher, the inverse normal, maximum of p-values and Tippett's procedure.<hr/>Resumen Para hipótesis nulas simples, dado cualquier método de combinación no paramétrico que tenga una región de aceptación creciente monótona, existe un problema para el cual este método es más poderoso frente a alguna alternativa. Partiendo de esta perspectiva y reformulando cada método de combinación de valores p como una prueba de razón de verosimilitud, presentamos resultados teóricos para algunos de los combinadores estándar que brindan orientación sobre cómo se podría elegir un combinador poderoso en la práctica. En este artículo consideramos el problema de combinar pruebas independientes de n como n → ∞ para probar una hipótesis simple en el caso de una distribución de valor extremo (EV (θ, 1)). Estudiamos los seis productores de prueba de combinación de distribución gratuita, a saber; Fisher, logística, suma de valores p, normal inversa, método de Tippett y máximo de valores p. Además, estudiamos el comportamiento de estas pruebas a través de la pendiente exacta de Bahadur. Los límites de las razones de cada par de estas pendientes se analizan como el parámetro θ → 0 y θ → ∞. Como θ → 0,, la logística El procedimiento es mejor que todos los demás métodos, seguido en orden decreciente por el inverso normal, la suma de valores p, Fisher, el máximo de valores p y el procedimiento de Tippett. Considerando que, θ → ∞ la logística y la suma de los procedimientos de valores p so equivalentes y mejores que todos los demás métodos, seguidos en orden decreciente por Fisher, la inversa normal, máxima de valores p y procedimiento de Tippett. <![CDATA[Some Inferential Problems from Log Student's T-distribution and its Multivariate Extension]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512022000100209&lng=en&nrm=iso&tlng=en Abstract Assumption of normality in statistical analysis had been a common practice in many literature, but in the event where small sample is obtainable, then normality assumption will lead to erroneous conclusion in the statistical analysis. Taking a large sample had been a serious concern in practice due to various factors. In this paper, we further derived some inferential properties for log student's t-distribution (simply log-t distribution) which makes it more suitable as substitute to log-normal when carrying out analysis on right-skewed small sample data. Mathematical and Statistical properties such as the moments, cumulative distribution function, survival function, hazard function and log-concavity are derived. We further extend the results to case of multivariate log-t distribution; we obtained the marginal and conditional distributions. The parameters estimation was done via maximum likelihood estimation method, consequently its best critical region and information matrix were derived in order to obtain the asymptotic confidence interval. The applications of log-t distribution and goodness-of-fit test was carried out on two dataset from literature to show when the model is most appropriate.<hr/>Resumen La suposicion de normalidad en el analisis estadistico habia sido una pratica comun en mucha literatura, pero en el caso de que se pueda obtener una muestra pequena, la suposicion de normalidad conducira a conclusions erroneas en el analisis estadistico. En la practica, la toma de una muestra grande habia sido una gran preocupacion debido a varios factores. En este articulo, obtuvimos ademas algunas propiedades inferenciales para la distribucion t de log student (simplemente distribucion log-t) que la hace mas adecuada como sustituto de log-norma al realizar analisis en datos de muestras pequenas con sesgo a la derecha. Se derivan propiedades matematicas y estadisticas como los momentos, la funcion de supervivencia, la funcion de riesgo y la concavidad logaritmica. ampliamos aun mas el resultado al caso de distribucion log-t multivariante; obtuvimos las distribuciones marginales y condicionales. La estimacion de los parametros se realizo mediante el metodo de estimacion de maxima verosimilitud, por lo que se derivo su mejor region critica y matriz de informacion para obtener el intervalo de confianza asintotico. Las aplicaciones de la distribucion log-t y la prueba de bondad de ajuste se llevaron a cabo en dos conjuntos de datos de la literatura para mostrar cuando el modelo es mas apropiado. <![CDATA[Variable Selection in Switching Dynamic Regression Models]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512022000100231&lng=en&nrm=iso&tlng=en Abstract Complex dynamic phenomena in which dynamics is related to events (modes) that cause structural changes over time, are well described by the switching linear dynamical system (SLDS). We extend the SLDS by allowing the measurement noise to be mode-specific, a flexible way to model non stationary data. Additionally, for models that are functions of explanatory variables, we adapt a variable selection method to identify which of them are significant in each mode. Our proposed model is a flexible Bayesian nonparametric model that allows to learn about the number of modes and their location, and within each mode, it identifies the significant variables and estimates the regression coefficients. The model performance is evaluated by simulation and two application examples from a dataset of meteorological time series of Barranquilla, Colombia are presented.<hr/>Resumen Fenómenos dinámicos complejos en los que la dinámica está relacionada con eventos (modos) que provocan cambios estructurales a lo largo del tiempo, se aproximan mediante un sistema dinámico lineal de cambio de régimen (SDLR). Extendemos el SDLR al permitir que el error de medición sea específico del modo, una forma flexible de modelar datos no estacionarios. Además, para los modelos que son funciones de variables explicativas, adaptamos un método de selección de variables para identificar cuáles de ellas son significativas en cada modo. El modelo propuesto es un modelo bayesiano no paramétrico flexible que permite conocer el número de modos y su ubicación, y dentro de cada modo, identifica las variables significativas y estima los coeficientes de regresión. El desempeño del modelo se evalúa mediante simulación y se presentan dos ejemplos de aplicación de un conjunto de datos de series de tiempo meteorológicas de Barranquilla, Colombia.