CNR BEA | Evaluation of Inter-Observer Reliability of Animal Welfare Indicators: Which Is the Best Index to Use?

Type de document : Article scientifique publié dans Animals

Auteurs : Mauro Giammarino, Silvana Mattiello, Monica Battini, Piero Quatto, Luca Maria Battaglini, Ana C. L. Vieira, George Stilwell, Manuela Renna

Résumé en français (traduction) : Évaluation de la fiabilité inter-observateurs des indicateurs de bien-être animal : Quel est le meilleur incice à utiliser ?

Cette étude se concentre sur le problème de l’évaluation de la fiabilité inter-observateur (FIO) dans le cas d’indicateurs de bien-être animal catégoriques dichotomiques et la présence de deux observateurs. Sur la base d’observations obtenues à partir d’enquêtes menées dans le cadre du projet Animal Welfare Indicators (AWIN) dans neuf élevages de chèvres laitières, et en utilisant l’asymétrie des mamelles comme indicateur, nous avons comparé les performances des indices de concordance les plus populaires disponibles dans la littérature : π de Scott, k de Cohen, kPABAK, H de Holsti, α de Krippendorff, Γ de Hubert, J de Janson et Vegelius, B de Bangdiwala, Δ d’Andrés et Marzo, et γ de Gwet(AC1). Les intervalles de confiance ont été calculés à l’aide de formules fermées d’estimations de la variance pour π, k, kPABAK, H, α, Γ, J, Δ et γ(AC1), tandis que les méthodes bootstrap et bootstrap exact ont été utilisées pour tous les indices. Tous les indices et les formules fermées des estimations de variance ont été calculés à l’aide de Microsoft Excel. La méthode bootstrap a été réalisée avec le logiciel R, tandis que la méthode bootstrap exact a été réalisée avec le logiciel SAS. k, π et α ont présenté un comportement paradoxal, montrant des valeurs trop faibles même en présence de taux de concordance très élevés. B et γ(AC1) ont montré des valeurs très proches du taux de concordance, indépendamment de sa valeur. Les méthodes de bootstrap et de bootstrap exact se sont révélées plus simples par rapport à la mise en œuvre de formules de variance fermées et ont fourni des intervalles de confiance efficaces pour tous les indices considérés. La meilleure approche pour mesurer la FIO dans ces cas est l’utilisation de B ou γ(AC1), avec les méthodes bootstrap ou bootstrap exact pour le calcul de l’intervalle de confiance.

Résumé en anglais (original) : This study focuses on the problem of assessing inter-observer reliability (IOR) in the case of dichotomous categorical animal-based welfare indicators and the presence of two observers. Based on observations obtained from Animal Welfare Indicators (AWIN) project surveys conducted on nine dairy goat farms, and using udder asymmetry as an indicator, we compared the performance of the most popular agreement indexes available in the literature: Scott’s π, Cohen’s k, kPABAK, Holsti’s H, Krippendorff’s α, Hubert’s Γ, Janson and Vegelius’ J, Bangdiwala’s B, Andrés and Marzo’s Δ, and Gwet’s γ(AC1). Confidence intervals were calculated using closed formulas of variance estimates for π, k, kPABAK, H, α, Γ, J, Δ, and γ(AC1), while the bootstrap and exact bootstrap methods were used for all the indexes. All the indexes and closed formulas of variance estimates were calculated using Microsoft Excel. The bootstrap method was performed with R software, while the exact bootstrap method was performed with SAS software. k, π, and α exhibited a paradoxical behavior, showing unacceptably low values even in the presence of very high concordance rates. B and γ(AC1) showed values very close to the concordance rate, independently of its value. Both bootstrap and exact bootstrap methods turned out to be simpler compared to the implementation of closed variance formulas and provided effective confidence intervals for all the considered indexes. The best approach for measuring IOR in these cases is the use of B or γ(AC1), with bootstrap or exact bootstrap methods for confidence interval calculation.