Scielo RSS <![CDATA[Revista Colombiana de Estadística]]> http://www.scielo.org.co/rss.php?pid=0120-175120200002&lang=en vol. 43 num. 2 lang. en <![CDATA[SciELO Logo]]> http://www.scielo.org.co/img/en/fbpelogp.gif http://www.scielo.org.co <![CDATA[An Optimal Design Criterion for Within-Individual Covariance Matrices Discrimination and Parameter Estimation in Nonlinear Mixed Effects Models]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512020000200127&lng=en&nrm=iso&tlng=en Abstract In this paper, we consider the problem of finding optimal population designs for within-individual covariance matrices discrimination and parameter estimation in nonlinear mixed effects models. A compound optimality criterion is provided, which combines an estimation criterion and a discrimination criterion. We used the D-optimality criterion for parameter estimation, which maximizes the determinant of the Fisher information matrix. For discrimination, we propose a generalization of the T-optimality criterion for fixed-effects models. Equivalence theorems are provided for these criteria. We illustrated the application of compound criteria with an example in a pharmacokinetic experiment.<hr/>Resumen En este artículo se considera el problema de encontrar diseños óptimos poblacionales para discriminación entre matrices de covarianza intra-individual y estimación de parámetros en modelos de efectos mixtos no lineales. Se propone un criterio compuesto que combina un criterio para estimación y otro para discriminación. Para estimación se usa el criterio de D-optimalidad el cual maximiza el determinante de la matriz de información de Fisher. Para discriminación se propone una generalización del criterio de T-optimalidad para modelos de efectos fijos. Para estos criterios se proporcionan los respectivos teoremas de equivalencia. La aplicación del criterio compuesto se ilustra con un ejemplo en un experimento de farmacocinética. <![CDATA[Optimal Detection of Bilinear Dependence in Short Panels of Regression Data]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512020000200143&lng=en&nrm=iso&tlng=en Abstract In this paper, we propose parametric and nonparametric locally and asymptotically optimal tests for regression models with superdiagonal bilinear time series errors in short panel data (large n, small T). We establish a local asymptotic normality property- with respect to intercept µ, regression coefficient β, the scale parameter σ of the error, and the parameter b of panel superdiagonal bilinear model (which is the parameter of interest)- for a given density f 1 of the error terms. Rank-based versions of optimal parametric tests are provided. This result, which allows, by Hájek's representation theorem, the construction of locally asymptotically optimal rank-based tests for the null hypothesis b = 0 (absence of panel superdiagonal bilinear model). These tests -at specified innovation densities f 1- are optimal (most stringent), but remain valid under any actual underlying density. From contiguity, we obtain the limiting distribution of our test statistics under the null and local sequences of alternatives. The asymptotic relative efficiencies, with respect to the pseudo-Gaussian parametric tests, are derived. A Monte Carlo study confirms the good performance of the proposed tests.<hr/>Resumen En este artículo, se proponen pruebas paramétricas y no paramétricas locales y asintóticamente óptimas para modelos de regresión con errores de series temporales bilineales superdiagonales en datos de panel cortos (n grande, T pequeño). Se establece una propiedad de normalidad asintótica local con respecto a la intercepción µ, el coeficiente de regresión β, el parámetro de escala σ del error y el parámetro b del modelo bilineal superdiagonal con datos de panel (que es el parámetro de interés) para una densidad determinada f 1 de los términos de error. Se proporcionan versiones basadas en rangos de pruebas paramétricas óptimas. Este resultado permite, por el teorema de representación de Hájek, la construcción de pruebas locales basadas en rangos asintóticamente óptimas para la hipótesis nula b = 0 (ausencia del modelo bilineal superdiagonal con datos de panel). Estas pruebas, en densidades de innovación especicadas f 1 , son óptimas (más estrictas), pero siguen siendo válidas en cualquier densidad subyacente. A partir de la contigüidad, se obtiene la distribución limitante de las estadísticas de prueba, bajo la hipótesis nula y una secuencia de alternativas locales. Se deriva eficiencia relativa asintótica de las pruebas, con respecto a las pruebas paramétricas pseudo-Gaussianas. Un análisis basado en simulaciones de Monte Carlo confirma el buen desempeño de las pruebas propuestas. <![CDATA[On Predictive Distribution of <em>K</em>-Inflated Poisson Models with and Without Additional Information]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512020000200173&lng=en&nrm=iso&tlng=en Abstract This paper addresses different approaches in finding the Bayesian predictive distribution of a random variable from a Poisson model that can handle count data with an inflated value of K Є ℕ, known as the KIP model. We explore how we can use other source of additional information to find such an estimator. More specifically, we find a Bayesian estimator of future density of random variable Y 1 , based on observable X 1 from the K1IP(p1 , λ 1 ) model, with and without assuming that there exists another random variable X 2 , from the K2IP(p 2 , λ 2 ) model, independent of X1, provided λ 1 ≥ λ 2, and compare their performance using simulation method.<hr/>Resumen Este artículo presenta diferentes enfoques para buscar la distribución bayesiana predictiva de una variable aleatoria con un valor inflado K Є ℕ conocido como el modelo KIP. Se explora como usar una fuente de información adicional para encontrar el estimador. Específicamente, se busca un estimador Bayesiano de la densidad futura de una variable aleatoria Y 1 , basada en una variable observable X 1 a partir del modelo K1IP(p 1, λ 1), con y sin el supuesto de que existe otra variable aleatoria X 2 del modelo K2IP(p2, λ2), independiente de X 1 , si λ1 ≥ λ2, y se compara su desempeño usando un método de simulación. <![CDATA[Method to Obtain a Vector of Hyperparameters: Application in Bernoulli Trials]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512020000200183&lng=en&nrm=iso&tlng=en Abstract The main difficulties when using the Bayesian approach are obtaining information from the specialist and obtaining hyperparameters values of the assumed probability distribution as representative of knowledge external to the data. In addition to the fact that a large part of the literature on this subject is characterized by considering prior conjugated distributions for the parameter of interest. An method is proposed to find the hyperparameters of a nonconjugated prior distribution. The following scenarios were considered for Bernoulli trials: four prior distributions (Beta, Kumaraswamy, Truncated Gamma and Truncated Weibull) and four scenarios for the generating process. Two necessary, but not sufficient conditions were identified to ensure the existence of a vector of values for the hyperparameter. The Truncated Weibull prior distribution performed the worst. The methodology was used to estimate the prevalence of two transmitted sexually infections in an Colombian indigenous community.<hr/>Resumen Las principales dificultades cuando se utiliza el enfoque Bayesiano son la obtención de información del especialista y la obtención de valores de los hiperparámetros de la distribución de probabilidad asumida como representante del conocimiento a priori. Adicionalmente, gran parte de la literatura sobre este tema considera distribuciones a priori conjugadas para el parámetro de interés. Un método es propuesto para encontrar los valores de los hiperparámetros de una distribución a priori no conjugada. Los siguientes escenarios son considerados para ensayos Bernoulli: cuatro distribuciones a priori (Beta, Kumaraswamy, Gamma Truncada y Weibull Truncada) y cuatro escenarios para el proceso generador. Dos condiciones necesarias, pero no suficientes fueron identificadas para asegurar la existencia de un vector de valores para los hiperparámetros. La distribución a priori Weibull Truncada fue la que peor desempeño presentó. La metodología fue utilizada para estimar la prevalencia de dos infecciones de transmisión sexual en una comunidad indígena de Colombia. <![CDATA[Convergence Theorems in Multinomial Saturated and Logistic Models]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512020000200211&lng=en&nrm=iso&tlng=en Abstract In this paper, we develop a theoretical study about the logistic and saturated multinomial models when the response variable takes one of R ≥ 2 levels. Several theorems on the existence and calculations of the maximum likelihood (ML) estimates of the parameters of both models are presented and demonstrated. Furthermore, properties are identified and, based on an asymptotic theory, convergence theorems are tested for score vectors and information matrices of both models. Finally, an application of this theory is presented and assessed using data from the R statistical program.<hr/>Resumen En este artículo se desarrolla un estudio teórico de los modelos logísticos y saturados multinomiales cuando la variable de respuesta toma uno de R ≥ 2 niveles. Se presentan y demuestran teoremas sobre la existencia y cálculos de las estimaciones de máxima verosimilitud (ML-estimaciones) de los parámetros de ambos modelos. Se encuentran sus propiedades y, usando teoría asintótica, se prueban teoremas de convergencia para los vectores de puntajes y para las matrices de información. Se presenta y analiza una aplicación de esta teoría con datos tomados de la librería aplore3 del programa R. <![CDATA[PLS Generalized Linear Regression and Kernel Multilogit Algorithm (KMA) for Microarray Data Classification Problem]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512020000200233&lng=en&nrm=iso&tlng=en Abstract This study involves the implentation of the extensions of the partial least squares generalized linear regression (PLSGLR) by combining it with logistic regression and linear discriminant analysis, to get a partial least squares generalized linear regression-logistic regression model (PLSGLR-log), and a partial least squares generalized linear regression-linear discriminant analysis model (PLSGLRDA). A comparative study of the obtained classifiers with the classical methodologies like the fc-nearest neighbours (KNN), linear discriminant analysis (LDA), partial least squares discriminant analysis (PLSDA), ridge partial least squares (RPLS), and support vector machines(SVM) is then carried out. Furthermore, a new methodology known as kernel multilogit algorithm (KMA) is also implemented and its performance compared with those of the other classifiers. The KMA emerged as the best classifier based on the lowest classification error rates compared to the others when applied to the types of data are considered; the un-preprocessed and preprocessed.<hr/>Resumen Este estudio combina el modelo de regresión lineal generalizado por mínimos cuadrado parciales (RLGMCP), con regresión logística y análisis discriminante lineal, para obtener los modelos de regresión logística generalizada por mínimos cuadrados parciales, (RLGMCP) y regresión logística generalizada-discriminante por mínimos cuadrados parciales (RLGDMCP). Se realiza un estudio comparativo con clasificadores clásicos como, fc-vecinos más cercanos (KVC), análisis discriminante lineal (ADL), análisis discriminante de por mínimos cuadrados parciales (ADMCP), regresión por mínimos cuadrados parciales (RMCP) y máquinas de vectores de soporte de soporte vectorial (MSV). Además, se implementa una nueva metodología conocida como algoritmo de kernel multilogit (AKM). Su desempeño es comparado con los de los otros clasificadores. De acuerdo con las tasas de error de clasificación obtenidas a partir de los diferentes tipos de datos, el KMA es el de mejor resultado. <![CDATA[Bayesian Analysis of Multiplicative Seasonal Threshold Autoregressive Processes]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512020000200251&lng=en&nrm=iso&tlng=en Abstract Seasonal fluctuations are often found in many time series. In addition, non-linearity and the relationship with other time series are prominent behaviors of several, of such series. In this paper, we consider the modeling of multiplicative seasonal threshold autoregressive processes with exogenous input (TSARX), which explicitly and simultaneously incorporate multiplicative seasonality and threshold nonlinearity. Seasonality is modeled to be stochastic and regime dependent. The proposed model is a special case of a threshold autoregressive process with exogenous input (TARX). We develop a procedure based on Bayesian methods to identify the model, estimate parameters, validate the model and calculate forecasts. In the identification stage of the model, we present a statistical test of regime dependent multiplicative seasonality. The proposed methodology is illustrated with a simulated example and applied to economic empirical data.<hr/>Resumen Las fluctuaciones estacionales son frecuentes en series de tiempo. En adición, la no linealidad y la relación con otras series de tiempo son comportamientos prominentes de muchas series. En este artículo, se considera el modelamiento de procesos autorregresivos de umbrales estacionales multiplicativos con entrada exógena (TSARX), los cuales incorporan en forma explícita y simultánea estacionalidad multiplicativa y no linealidad de umbrales. La estacionalidad es estocástica y dependiente del régimen. Se desarrolla un procedimiento basado en métodos Bayesianos para identificar el modelo, estimar sus parámetros, validarlo y calcular pronósticos. En la etapa de identificación del modelo, se presenta una prueba estadística de estacionalidad multiplicativa por regímenes. La metodología propuesta es ilustrada con un ejemplo simulado y aplicada a datos empíricos económicos. <![CDATA[On the Alpha Power Kumaraswamy Distribution: Properties, Simulation and Application]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512020000200285&lng=en&nrm=iso&tlng=en Abstract Adding new parameters to classical distributions becomes one of the most important methods for increasing distributions flexibility, especially, in simulation studies and real data sets. In this paper, alpha power transformation (APT) is used and applied to the Kumaraswamy (K) distribution and a proposed distribution, so called the alpha power Kumaraswamy (AK) distribution, is presented. Some important mathematical properties are derived, parameters estimation of the AK distribution using maximum likelihood method is considered. A simulation study and a real data set are used to illustrate the flexibility of the AK distribution compared with other distributions.<hr/>Resumen Agregar nuevos parámetros a las distribuciones clásicas se convierte en uno de los métodos más importantes para aumentar la flexibilidad de las distribuciones, especialmente en estudios de simulación y conjuntos de datos reales. En este documento, se utiliza la transformación de potencia alfa (TPA) y es aplicada a la distribución de Kumaraswamy (K) y a una distribución propuesta, denominada distribución de energía alfa de Kumaraswamy (AK). Se derivan algunas propiedades matemáticas, y se muestra la estimación de parámetros de la distribución AK utilizando el método de máxima verosimilitud. Un estudio de simulación y un conjunto de datos reales se utilizan para ilustrar la flexibilidad de la distribución AK en comparación con otras distribuciones. <![CDATA[Using Copula Functions to Estimate The AUC for Two Dependent Diagnostic Tests]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512020000200315&lng=en&nrm=iso&tlng=en Abstract When performing validation studies on diagnostic classification procedures, one or more biomarkers are typically measured in individuals. Some of these biomarkers may provide better information; moreover, more than one biomarker may be significant and may exhibit dependence between them. This proposal intends to estimate the Area Under the Receiver Operating Characteristic Curve (AUC) for classifying individuals in a screening study. We analyze the dependence between the results of the tests by means of copula-type dependence (using FGM and Gumbel-Barnett copula functions), and studying the respective AUC under this type of dependence. Three different dependence-level values were evaluated for each copula function considered. In most of the reviewed literature, the authors assume a normal model to represent the performance of the biomarkers used for clinical diagnosis. There are situations in which assuming normality is not possible because that model is not suitable for one or both biomarkers. The proposed statistical model does not depend on some distributional assumption for the biomarkers used for diagnosis procedure, and additionally, it is not necessary to observe a strong or moderate linear dependence between them.<hr/>Resumen Cuando se realizan estudios de validación en procedimientos de clasificación diagnóstica, normalmente se miden uno o más biomarcadores en los individuos. Algunos biomarcadores pueden proporcionar mejor información que otros y en muchos casos, más de uno puede ser necesario. Cuando se utilizan varios biomarcadores para hacer clasificación, se presenta dependencia entre ellos. En este trabajo se estima el área bajo la curva característica de operación (ABCOR) para establecer la capacidad clasificadora de dos biomarcadores en un procedimiento para diagnóstico clínico. Se estudia mediante copulas (FGM y Gumbel-Barnett) la dependencia entre pruebas y se estima la respectiva área bajo la curva, asumiendo tres niveles para cada estructura de dependencia. En la literatura revisada los autores asumen un modelo normal para representar el comportamiento de los biomarcadores utilizados para el diagnóstico clínico. Hay situaciones en las que no es posible asumir este modelo porque no es adecuado para uno o ambos biomarcadores. El método estadístico propuesto no depende de un supuesto distribucional para los biomarcadores utilizados en el procedimiento de diagnóstico y tampoco es necesario considerar una dependencia lineal fuerte o moderada entre ellos. <![CDATA[Corrigendum to "Descriptive Measures of Poisson-Lomax Distribution"]]> http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-17512020000200345&lng=en&nrm=iso&tlng=en Abstract This corrigendum focuses on the correction of numerical results derived from Poisson-Lomax Distribution (PLD) originally proposed by Al-Zahrani &amp; Sagor (2014). Though the mathematical properties and derivations by Al-Zahrani &amp; Sagor (2014) were immaculate but during the execution of the R codes using Monte Carlo simulation some anomalies occurred in the calculation of the mean values. The same anomalies are addressed in the present corrigendum. The outcome of the corrigendum will provide basic guidelines for the academia and reviewers of various journals to match the numerical results with the shape of the probability distribution under study. The results will also emphasize the fact that code writing is a cumbersome process and due diligence be exercised in executing the codes using any programming language. Relevant R codes are appended in Appendix 'A'.<hr/>Resumen Esta corrección se centra en la corrección de los resultados numéricos derivados de la Distribución Poisson-Lomax (PLD) propuesta originalmente por Al-Zahrani &amp; Sagor (2014). Aunque las propiedades matemáticas y las derivaciones de Al-Zahrani &amp; Sagor (2014) son correctas, durante la ejecución de los códigos R utilizando la simulación de Montecarlo se produjeron algunas anomalías en el cálculo de los valores medios. La corrección proporciona directrices para que académicos y revisores hagan coincidir los resultados numéricos con la forma de la distribución de probabilidad objeto de estudio. Los resultados también ponen de relieve el hecho de que la escritura y ejecución de los códigos, en cualquier lenguaje de programación, es un proceso engorroso que requiere precaución. Los códigos R relevantes se adjuntan en el Apéndice 'A'.