Revista Colombiana de Estadística

The Bayesian Predictive Distribution in Life Testing Models via MCMC

En el estudio de la confiabilidad es muy frecuente el desconocimiento de parámetros poblacionales; por tanto, es necesario recoger información muestral relevante para la estimación de estos a través de distribuciones de probabilidad, conocidas como distribución a priori. Los métodos bayesianos permiten incorporar opiniones subjetivas acerca de incertidumbres con respecto al parámetro o vector de parámetros de interés. La incertidumbre acerca del verdadero valor de un parámetro de interés θ en la población es modelada por la función de densidad a priori π(θ), (θ \in Θ). Para obtener las distribuciones predictivas bayesianas, se implementará la metodología MCMC, la cual exige calibración, diseño, implementación y validación de algoritmos apropiados.

In reliability studies it is common to not know the population parameters, therefore, it becomes necessary to collect a sample in order to estimate the parameters of the assumed probability distribution. Bayesian methods allow to incorporate subjective information about uncertainties regarding the parameter or parameters of interest. From the bayesian point of view, the uncertainty about the true value of a parameter of interest θ in the population, is modeled by the prior density function π(θ), (θ\inΘ). We will implement the methodology MCMC to obtain the predictive bayesian distributions, which requires the calibration, design, implementation, in addition to the validation of appropriate algorithms.

Studying the Bandwidth Effects in Non Parametric k--Sample Tests

Una de las principales limitaciones de las técnicas de suavizamiento es la necesidad de elegir un parámetro de suavizado o ventana. La influencia de este parámetro sobre los resultados obtenidos obliga a que el uso de estos métodos en inferencia sea delicado, ya que la decisión final puede verse determinada por la elección del parámetro. El objetivo principal de este trabajo es el estudio de algunos algoritmos para el cálculo automático del parámetro ventana en problemas de contrastes de hipótesis para la igualdad de k poblaciones independientes.

The election of the smoothing parameter or bandwidth is, probably, the most important concern in the statistical smoothed techniques. The relevance of this parameter, on the obtained results difficult, the use of these methods in statistical inference, because the final decision could be determined for the used bandwidth. The main goal of this paper is discussing and studying some algorithms for the automatic computation of the bandwidth in k--sample problems.

Generation of Weibull Bivariate Dependent Failure Times Using Copulas

La distribución Weibull bivariada es muy importante en confiabilidad y en análisis de supervivencia. La dependencia para este tipo de problemas ha venido cobrando gran importancia en años recientes. En la literatura, se conocen algoritmos para generar una distribución Weibull univariada y distribuciones bivariadas con marginales independientes. En este artículo, se presenta un algoritmo para generar tiempos de falla Weibull bivariados dependientes, usando una representación cópula para la función de confiabilidad Weibull bivariada. Tal representación se obtiene utilizando modelos cópula arquimedianos. En particular, se utilizó la familia Gumbel. Se realizó una aplicación del algoritmo cópula, cuyos resultados fueron validados exitosamente.

The bivariate Weibull distribution is very important in both reliability and survival analysis. The dependence for these kind of problems has been gaining great importance in recent years. In the literature, there are algorithms to generate univariate Weibull distributions and bivariate Weibull distributions with independent marginal distributions. In this paper, we present an algorithm to generate dependent bivariate Weibull failure times using a copula representation for the bivariate Weibull reliability function. Such representation is obtained using archimedean copula models. In particular, we used the Gumbels family. An application of the copula algorithm was done and the results were successfully validated.

Threshold Dynamic Factor Model

En este artículo se introduce el modelo factorial dinámico threshold, el cual permite analizar sistemas de series temporales que presenten comportamientos no lineales del tipo umbral. Se propone un método de estimación que combina el algoritmo EM con un procedimiento de búsqueda directa utilizando los algoritmos del filtro y de suavización de Kalman. El procedimiento estima factores comunes con comportamientos que cambian de régimen de acuerdo con una variable umbral.

This paper introduces a threshold dynamic factor model for the analysis of vector time series which shows non-linear behavior of threshold type. We propose an estimation procedure combining an EM algorithm with a grid search procedure by the ways of the Kalman filter and smoothing recursions. We estimate common latent threshold factors that may explain the dynamic relationships within the group of variables.

Optimization Process of Growth Curves Through Univariate Analysis

En este artículo se propone una metodología de modelamiento conjunto de tratamientos con niveles cuantitativos medidos en el tiempo, a través de la combinación de las metodologías de superficie de respuesta y curvas de crecimiento. Se realiza la estimación de los parámetros del modelo propuesto, los cuales miden el efecto de los factores asociados al modelo de superficie de respuesta de segundo orden a lo largo del tiempo. Se plantea y juzga las diferentes hipótesis de interés y, finalmente, con el modelo ajustado se encuentran las condiciones de optimización de un conjunto de tratamientos a través del tiempo. Por último, se presenta una aplicación, analizada mediante curvas de crecimiento por .

A methodology is suggested to jointly model treatments with quantitative levels measured in time, by combining the response surface and the growth curve techniques. The models parameters are estimated; these measure the effect through time of the factors related to the second order response surface model. The hypothesis of interest are formulated and tested. Additionally, by means of the fitted model, the optimality conditions throughout time are established for a set of specific treatments. As a final step, an application previously analyzed with growth curves by is now assessed with the proposed model.

Confidence Intervals and Credibility Intervals for a Proportion

En este artículo se evalúa y se compara el comportamiento de diferentes metodologías empleadas para la obtención de intervalos de confianza de credibilidad, analizando sus probabilidades de cobertura estimada, su longitud esperada y la varianza de su longitud. Definidos estos tres conceptos, la comparación entre los intervalos considerados se desarrolla mediante procesos computacionales utilizando el paquete estadístico R. En este proceso, además de la verificación de conclusiones conocidas, como el mal comportamiento del intervalo de Wald y la sobrecobertura del intervalo exacto, se determinan, entre otros aspectos, características de los intervalos relacionadas con la variabilidad de su longitud.

Different methodologies for obtaining confidence and credibility intervals for a proportion are studied in this paper. Expected coverage, length and length variance of the interval are defined and used as a means for comparing the intervals produced by each methodology presented. These indicators were calculated using the statistical package R, used to characterize each interval; furthermore, some known properties, such as Wald intervals proportion undercoverage and Exact intervals overcoverage are verified in this study.

Identificação de classes rítmicas de língua: modelagem de cadeias categorizadas da sonoridade usando árvores probabilísticas

Recentemente, vários autores sugerem métodos para discriminar classes rítmicas de língua (Ramus et al. 1999, Duarte et al. 2001, Galves et al. 2002). Baseado no conceito de sonoridade, definido em Galves et al. (2002) e Cassandro et al. (2007), é proposto um modelo paramétrico para a família de processos estocásticos dos tempos de evolução da sonoridade para diferentes línguas, denotada por família de cadeias categorizadas ligadas. O objetivo do presente trabalho é modelar, para as diferentes línguas, as correspondentes cadeias categorizadas via cadeias de Markov de alcance variável (VLMC) e avaliar a conjectura de que estas resumem toda informação relevante dada pela sonoridade.

Recently, several authors suggest methods to discriminate rhythmic classes of language (Ramus et al. 1999, Duarte et al. 2001, Galves et al. 2002). Based on sonority concept, defined in Galves et al. (2002), and Cassandro et al. (2007), a parametric model for the family of stochastic processes of sonority time evolution for different languages is proposed, denoted by family of tied quantized chains. The objective of this paper is to model, for the different languages, the correspondent quantized chains using Variable Length Markov Chains (VLMC) and evaluate the conjectures that summarize all relevant information given by the sonority.

Modificações e alternativas aos testes de Levene e de Brown e Forsythe para igualdade de variâncias e médias

Os testes usuais para comparar variâncias e médias, teste de Bartlett e teste F, supõem que as amostras sejam provenientes de populações com distribuições normais. Para o teste de igualdade de médias, a suposição de homogeneidade de variâncias também é necessária. Alguns problemas se destacam quando tais suposições básicas são violadas, como tamanho excessivo e baixo poder. Neste trabalho descrevemos inicialmente o teste de Levene para igualdade de variâncias, que é robusto à não normalidade, e o teste de Brown e Forsythe para igualdade de médias quando existe desigualdade de variâncias. Apresentamos várias modificações do teste de Levene e do teste de Brown e Forsythe, propostas por diferentes autores. Analisamos e aplicamos uma forma do teste modificado de Brown e Forsythe a um conjunto de dados reais. Este teste é uma alternativa robusta com relação a desvios de normalidade e homocedasticidade e também na presença de observações discrepantes. Na comparação de variâncias, destaca-se o teste de Levene com centralização na mediana.

The usual tests to compare variances and means (e.g. Bartletts test and F-test) assume that the sample comes from a normal distribution. In addition, the test for equality of means requires the assumption of homogeneity of variances. In some situation those assumptions are not satisfied, hence we may face problems like excessive size and low power. In this paper, we describe two tests, namely the Levenes test for equality of variances, which is robust under nonnormality; and the Brown and Forsythes test for equality of means. We also present some modifications of the Levenes test and Brown and Forsythes test, proposed by different authors. We analyzed and applied one modified form of Brown and Forsythes test to a real data set. This test is a robust alternative under nonnormality, heteroscedasticity and also when the data set has influential observations. The equality of variance can be well tested by Levenes test with centering at the sample median.

Experimental Sequential Designs for Logistic Regression Models

When the usual hypotheses of normality and constant variance do not hold (e.g. in binomial or Bernoulli processes), the problem of choosing appropriate designs creates problems to researches when pursuing a sequential exploration of process. This paper is based on De Zan (2006), where the author proposes two criteria to evaluate design strategies, that take the amount of information as the main evaluation tool. One into account the information of the fitted model, and the other explores the information that is contained on the approximation of a set of the best conditions of factors found on a fitted model. An example of how these strategies work is also given through a simulation using R software.

Cuando los supuestos habituales de normalidad y varianza constante no se cumplen (e.g. en procesos de Bernoulli o binomiales), el problema de la elección de diseños adecuados ocasiona cierta dificultad a los experimentadores, especialmente cuando lo que se persigue es una exploración secuencial del proceso. Este artículo está basado en De Zan (2006), en donde se proponen dos criterios para evaluar estrategias de diseño. Una de ellas toma en cuenta la cantidad de información contenida en el modelo ajustado, mientras que la otra explora la información contenida en las mejores condiciones de experimentación encontradas en el modelo ajustado. Se desarrolla un ejemplo simulado con el paquete R acerca de cómo funcionan estas estrategias.

Use of the Crosscorrelation Function in the Identification of ARMA Models

La función de correlación cruzada muestral (FCCM) ha sido empleada para estudiar la fortaleza y la dirección de la relación lineal entre dos procesos estocásticos conjuntamente estacionarios. Rosales (2004) y Castaño (2005) muestran que dicha función, calculada entre el proceso estacionario y los residuales de un modelo preliminar estimado, puede ser empleada como un diagnóstico adicional en la identificación de un modelo apropiado ARMA(p,q) para este proceso. El propósito de este trabajo es mostrar que la FCCM entre los residuales de un modelo preliminar, aunque no sea correcto, y la serie de tiempo estacionaria, contiene información relevante del modelo adecuado y, por tanto, puede ser usado como un diagnóstico adicional en la formulación y construcción de modelos ARMA (Autoregressive-Moving Average). El procedimiento propuesto se ilustra con series reales y simuladas.

The sample cross-correlation function (SCCF) has been used to study the strength and direction of the linear relation between two jointly stationary stochastic processes. Rosales (2004) and Castaño (2005) show that the cross-correlation function between a stationary process and the residuals of an estimated preliminary model can be used as an additional diagnostic tool, for the identification of an appropriate ARMA(p,q) model, for the generating process of the series. The purpose of this article is to show that the FCCM between a series and the residual of a preliminary model to describe it, not necessarily correct, contains relevant information of the correct model and for this reason it can be used as a diagnostic tool for the construction of ARMA models. The procedure is ilustrated with real and simulated series.

Linking the Negative Binomial and Logarithmic Series Distributions via their Associated Series

The negative binomial distribution is associated to the series obtained by taking derivatives of the logarithmic series. Conversely, the logarithmic series distribution is associated to the series found by integrating the series associated to the negative binomial distribution. The parameter of the number of failures of the negative binomial distribution is the number of derivatives needed to obtain the negative binomial series from the logarithmic series. The reasoning in this article could be used as an alternative method to prove that the probability mass function of the negative binomial distribution sums to one. Finally, an interpretation of the logarithmic series distribution is given by using the presented reasoning.

La distribución binomial negativa está asociada a la serie obtenida de derivar la serie logarítmica. Recíprocamente, la distribución logarítmica está asociada a la serie obtenida de integrar la serie asociada a la distribución binomial negativa. El parámetro del número de fallas de la distribución binomial negativa es el número de derivadas necesarias para obtener la serie binomial negativa de la serie logarítmica. El razonamiento presentado puede emplearse como un método alternativo para probar que la función de masa de probabilidad de la distribución binomial negativa suma uno. Finalmente, se presenta una interpretación de la distribución logarítmica usando el razonamiento planteado.

Analysis of Time Evolution for Group Structured Data: Canonical Dual STATIS and Doubly Multivariate Repeated Measures Model

En este trabajo proponemos dos soluciones al problema que se plantea cuando se pretende analizar datos multivariantes, para un conjunto de individuos con estructura de grupos, que además han sido replicados bien sea en ocasiones o en situaciones experimentales diferentes. La primera solución se obtiene aplicando la versión dual del STATIS canónico propuesto por Vallejo-Arboleda et al. (2007); la segunda, aplicando el modelo de medidas repetidas doblemente multivariantes. Usamos los datos del proyecto SWALE (Stephen et al. 2004) para una selección de 7 variables físico-químicas medidas para 4 tratamientos, cada uno con 9 réplicas, durante 4 semanas (elegidas entre las 10 iniciales del proyecto) para comparar las dos soluciones.

In this work we propose two solutions to the problem we consider when we have multivariate experimental data of individuals with structure of groups that have been repeated at different occasions or experimental situations. We obtain the first solution applying dual version of canonical STATIS proposed by Vallejo-Arboleda et al. (2007), and the second with doubly multivariate repeated measures model. We use the data of SWALE project (Stephen et al. 2004), with 7 physical-chemical variables, measured in 4 treatments, each one with 9 repetitions and during 4 weeks (selected between 10 original weeks in the project) to compare these solutions.