1 Comparison of \(g\) groups

Extend \(F\)-test from a one-way ANOVA to non-parametric alternatives.

2 DMH example

Assess genotoxicity of 1,2-dimethylhydrazine dihydrochloride (DMH) (EU directive)

24 rats
four groups with daily DMH dose
- control
- low
- medium
- high
Genotoxicity in liver using comet assay on 150 liver cells per rat.
Are there differences in DNA damage due to DMH dose?

2.1 Comet Assay:

Visualise DNA strand breaks
Length comet tail is a proxy for strand breaks.

Comet assay

dna <- read_delim("https://raw.githubusercontent.com/GTPB/PSLS20/master/data/dna.txt", delim = " ")
dna$dose <- as.factor(dna$dose)
dna

dna %>%
  ggplot(aes(x = dose, y = length, fill = dose)) +
  geom_boxplot() +
  geom_point(position = "jitter")

dna %>%
  ggplot(aes(sample = length)) +
  geom_qq() +
  geom_qq_line() +
  facet_wrap(~dose)

Strong indication that data in control group has a lower variance.
6 observations per group are too few to check the assumptions

plot(lm(length ~ dose, data = dna))

3 Kruskal-Wallis Rank Test

The Kruskal-Wallis Rank Test (KW-test) is a non-parameteric alternative for ANOVA F-test.
Classical \(F\)-teststatistic can be written as \[ F = \frac{\text{SST}/(g-1)}{\text{SSE}/(n-g)} = \frac{\text{SST}/(g-1)}{(\text{SSTot}-\text{SST})/(n-g)} , \]
with \(g\) the number of groups.
SSTot depends only on outcomes \(\mathbf{y}\) and will not vary in permutation test.
SST can be used as statistic \[\text{SST}=\sum_{j=1}^t n_j(\bar{Y}_j-\bar{Y})^2\]
The KW test statistic is based on SST on rank-transformed outcomes¹, \[ \text{SST} = \sum_{j=1}^g n_j \left(\bar{R}_j - \bar{R}\right)^2 = \sum_{j=1}^t n_j \left(\bar{R}_j - \frac{n+1}{2}\right)^2 , \]
with \(\bar{R}_j\) the mean of the ranks in group \(j\), and \(\bar{R}\) the mean of all ranks, \[ \bar{R} = \frac{1}{n}(1+2+\cdots + n) = \frac{1}{n}\frac{1}{2}n(n+1) = \frac{n+1}{2}. \]
The KW teststatistic is given by \[ KW = \frac{12}{n(n+1)} \sum_{j=1}^g n_j \left(\bar{R}_j - \frac{n+1}{2}\right)^2. \]
The factor \(\frac{12}{n(n+1)}\) is used so that \(KW\) has a simple asymptotic null distribution. In particular under \(H_0\), given thart \(\min(n_1,\ldots, n_g)\rightarrow \infty\), \[ KW \rightarrow \chi^2_{t-1}. \]
The exact KW-test can be executed by calculating the permutation null distribution (that only depends on \(n_1, \ldots, n_g\)) to test \[H_0: f_1=\ldots=f_g \text{ vs } H_1: \text{ at least two means are different}.\]
In order to allow \(H_1\) to be formulated in terms of means, the assumption of locations shift should be valid.
For DMH example this is not the case.
If location-shift is invalid, we have to formulate \(H_1\) in terms of probabilistic indices: \[H_0: f_1=\ldots=f_g \text{ vs } H_1: \exists\ j,k \in \{1,\ldots,g\} : \text{P}\left[Y_j\geq Y_k\right]\neq 0.5\]

3.1 DNA Damage Example

kruskal.test(length ~ dose, data = dna)


    Kruskal-Wallis rank sum test

data:  length by dose
Kruskal-Wallis chi-squared = 14, df = 3, p-value = 0.002905

On the \(5\%\) level of significance we can reject the null hypothesis.
R-functie kruskal.test only returns the asymptotic approximation for \(p\)-values.
With only 6 observaties per groep, this is not a good approximation of the \(p\)-value
With the coin R package we can calculate the exacte \(p\)-value

library(coin)
kwPerm <- kruskal_test(length ~ dose,
  data = dna,
  distribution = approximate(B = 100000)
)
kwPerm


    Approximative Kruskal-Wallis Test

data:  length by dose (0, 1.25, 2.5, 5)
chi-squared = 14, p-value = 0.00043

We conclude that the difference in the distribution of the DNA damages due to the DMH dose is extremely significantly different.
Posthoc analysis with WMW tests.

pairwise.wilcox.test(dna$length, dna$dose)


    Pairwise comparisons using Wilcoxon rank sum exact test 

data:  dna$length and dna$dose 

     0     1.25  2.5  
1.25 0.013 -     -    
2.5  0.013 0.818 -    
5    0.013 0.721 0.788

P value adjustment method: holm

All DMH behandelingen are significantly different from the control.
The DMH are not significantly different from one another.
U1 does not occur in the pairwise.wilcox.test output. Point estimate on probability on higher DNA-damage?

nGroup <- table(dna$dose)
probInd <- combn(levels(dna$dose), 2, function(x) {
  test <- wilcox.test(length ~ dose, subset(dna, dose %in% x))
  return(test$statistic / prod(nGroup[x]))
})
names(probInd) <- combn(levels(dna$dose), 2, paste, collapse = "vs")
probInd

  0vs1.25    0vs2.5      0vs5 1.25vs2.5   1.25vs5    2.5vs5 
0.0000000 0.0000000 0.0000000 0.4444444 0.2777778 0.3333333

Because there are doubts on the location-shift model we draw our conclusions in terms of the probabilistic index.

3.1.1 Conclusion

There is an extremely significant difference in in the distribution of the DNA-damage measurements due to the treatment with DMH (\(p<0.001\) KW-test).
DNA-damage is more likely upon DMH treatment than in the control treatment (all p=0.013, WMW-testen).
The probability on higher DNA-damage upon exposure to DMH is 100% (Calculation of a CI on the probabilistic index is beyond the scope of the course)
There are no significant differences in the distributions of the comit-lengths among the treatment with the different DMH concentrations (\(p=\) 0.72-0.82).
DMH shows already genotoxic effects at low dose.
(Alle paarswise tests are gecorrected for multiple testing using Holm’s methode).

we assume that no ties are available↩︎

LS0tCnRpdGxlOiAiOS4gTm9uLXBhcmFtZXRyaWMgc3RhdGlzdGljcyAtIEtydXNrYWwgV2FsbGlzIgphdXRob3I6ICJMaWV2ZW4gQ2xlbWVudCIKZGF0ZTogInN0YXRPbWljcywgR2hlbnQgVW5pdmVyc2l0eSAoaHR0cHM6Ly9zdGF0b21pY3MuZ2l0aHViLmlvKSIKLS0tCgo8YSByZWw9ImxpY2Vuc2UiIGhyZWY9Imh0dHBzOi8vY3JlYXRpdmVjb21tb25zLm9yZy9saWNlbnNlcy9ieS1uYy1zYS80LjAiPjxpbWcgYWx0PSJDcmVhdGl2ZSBDb21tb25zIExpY2Vuc2UiIHN0eWxlPSJib3JkZXItd2lkdGg6MCIgc3JjPSJodHRwczovL2kuY3JlYXRpdmVjb21tb25zLm9yZy9sL2J5LW5jLXNhLzQuMC84OHgzMS5wbmciIC8+PC9hPgoKYGBge3Igc2V0dXAsIGluY2x1ZGU9RkFMU0UsIGNhY2hlPUZBTFNFfQprbml0cjo6b3B0c19jaHVuayRzZXQoCiAgaW5jbHVkZSA9IFRSVUUsIGNvbW1lbnQgPSBOQSwgZWNobyA9IFRSVUUsCiAgbWVzc2FnZSA9IEZBTFNFLCB3YXJuaW5nID0gRkFMU0UsIGNhY2hlID0gVFJVRQopCmxpYnJhcnkodGlkeXZlcnNlKQpzZXQuc2VlZCgxNDApCmBgYAoKCiMgQ29tcGFyaXNvbiBvZiAkZyQgZ3JvdXBzCgotIEV4dGVuZCAgJEYkLXRlc3QgZnJvbSBhIG9uZS13YXkgQU5PVkEgdG8gbm9uLXBhcmFtZXRyaWMgYWx0ZXJuYXRpdmVzLgoKIyBETUggZXhhbXBsZQoKQXNzZXNzIGdlbm90b3hpY2l0eSBvZiAxLDItZGltZXRoeWxoeWRyYXppbmUgZGloeWRyb2NobG9yaWRlIChETUgpICAoRVUgZGlyZWN0aXZlKQoKLSAyNCByYXRzCi0gZm91ciBncm91cHMgd2l0aCBkYWlseSBETUggZG9zZQogIC0gY29udHJvbAogIC0gbG93CiAgLSBtZWRpdW0KICAtIGhpZ2gKCi0gR2Vub3RveGljaXR5IGluIGxpdmVyIHVzaW5nIGNvbWV0IGFzc2F5IG9uIDE1MCBsaXZlciBjZWxscyBwZXIgcmF0LgotIEFyZSB0aGVyZSBkaWZmZXJlbmNlcyBpbiBETkEgZGFtYWdlIGR1ZSB0byBETUggZG9zZT8KCiMjIENvbWV0IEFzc2F5OgoKLSBWaXN1YWxpc2UgRE5BIHN0cmFuZCBicmVha3MKLSBMZW5ndGggY29tZXQgdGFpbCBpcyBhIHByb3h5IGZvciBzdHJhbmQgYnJlYWtzLgoKIVtDb21ldCBhc3NheV0oaHR0cHM6Ly9yYXcuZ2l0aHVidXNlcmNvbnRlbnQuY29tL0dUUEIvUFNMUzIwL2doLXBhZ2VzL2Fzc2V0cy9maWdzL2NvbWV0LmpwZyl7IHdpZHRoPTUwJSB9CgoKYGBge3J9CmRuYSA8LSByZWFkX2RlbGltKCJodHRwczovL3Jhdy5naXRodWJ1c2VyY29udGVudC5jb20vR1RQQi9QU0xTMjAvbWFzdGVyL2RhdGEvZG5hLnR4dCIsIGRlbGltID0gIiAiKQpkbmEkZG9zZSA8LSBhcy5mYWN0b3IoZG5hJGRvc2UpCmRuYQpgYGAKCgpgYGB7cn0KZG5hICU+JQogIGdncGxvdChhZXMoeCA9IGRvc2UsIHkgPSBsZW5ndGgsIGZpbGwgPSBkb3NlKSkgKwogIGdlb21fYm94cGxvdCgpICsKICBnZW9tX3BvaW50KHBvc2l0aW9uID0gImppdHRlciIpCgpkbmEgJT4lCiAgZ2dwbG90KGFlcyhzYW1wbGUgPSBsZW5ndGgpKSArCiAgZ2VvbV9xcSgpICsKICBnZW9tX3FxX2xpbmUoKSArCiAgZmFjZXRfd3JhcCh+ZG9zZSkKYGBgCgotIFN0cm9uZyBpbmRpY2F0aW9uIHRoYXQgZGF0YSBpbiBjb250cm9sIGdyb3VwIGhhcyBhIGxvd2VyIHZhcmlhbmNlLgotIDYgb2JzZXJ2YXRpb25zIHBlciBncm91cCBhcmUgdG9vIGZldyB0byBjaGVjayB0aGUgYXNzdW1wdGlvbnMKCmBgYHtyfQpwbG90KGxtKGxlbmd0aCB+IGRvc2UsIGRhdGEgPSBkbmEpKQpgYGAKCiMgS3J1c2thbC1XYWxsaXMgUmFuayBUZXN0CgotIFRoZSBLcnVza2FsLVdhbGxpcyBSYW5rIFRlc3QgKEtXLXRlc3QpIGlzIGEgIG5vbi1wYXJhbWV0ZXJpYyBhbHRlcm5hdGl2ZSAgZm9yIEFOT1ZBIEYtdGVzdC4KCi0gIENsYXNzaWNhbCAkRiQtdGVzdHN0YXRpc3RpYyBjYW4gYmUgd3JpdHRlbiBhcwogIFxbCiAgICBGID0gXGZyYWN7XHRleHR7U1NUfS8oZy0xKX17XHRleHR7U1NFfS8obi1nKX0gPSBcZnJhY3tcdGV4dHtTU1R9LyhnLTEpfXsoXHRleHR7U1NUb3R9LVx0ZXh0e1NTVH0pLyhuLWcpfSAsCiAgXF0KLSAgd2l0aCAkZyQgdGhlIG51bWJlciBvZiBncm91cHMuCgotIFNTVG90IGRlcGVuZHMgb25seSBvbiAgb3V0Y29tZXMgJFxtYXRoYmZ7eX0kIGFuZCB3aWxsIG5vdCB2YXJ5IGluIHBlcm11dGF0aW9uIHRlc3QuCgotIFNTVCBjYW4gYmUgdXNlZCBhcyBzdGF0aXN0aWMKICQkXHRleHR7U1NUfT1cc3VtX3tqPTF9XnQgbl9qKFxiYXJ7WX1fai1cYmFye1l9KV4yJCQKCgotICBUaGUgS1cgdGVzdCBzdGF0aXN0aWMgaXMgYmFzZWQgb24gU1NUIG9uIHJhbmstdHJhbnNmb3JtZWQgb3V0Y29tZXNeW3dlIGFzc3VtZSB0aGF0IG5vICp0aWVzKiBhcmUgYXZhaWxhYmxlXSwKICBcWwogICAgIFx0ZXh0e1NTVH0gPSBcc3VtX3tqPTF9Xmcgbl9qIFxsZWZ0KFxiYXJ7Un1faiAtIFxiYXJ7Un1ccmlnaHQpXjIgPSBcc3VtX3tqPTF9XnQgbl9qIFxsZWZ0KFxiYXJ7Un1faiAtIFxmcmFje24rMX17Mn1ccmlnaHQpXjIgLAogIFxdCi0gIHdpdGggJFxiYXJ7Un1faiQgdGhlIG1lYW4gb2YgdGhlIHJhbmtzIGluIGdyb3VwICRqJCwgYW5kICRcYmFye1J9JCB0aGUgbWVhbiBvZiBhbGwgcmFua3MsCiAgXFsKICAgIFxiYXJ7Un0gPSBcZnJhY3sxfXtufSgxKzIrXGNkb3RzICsgbikgPSBcZnJhY3sxfXtufVxmcmFjezF9ezJ9bihuKzEpID0gXGZyYWN7bisxfXsyfS4KICBcXQotICBUaGUgS1cgdGVzdHN0YXRpc3RpYyBpcyBnaXZlbiBieQogIFxbCiAgICBLVyA9IFxmcmFjezEyfXtuKG4rMSl9ICBcc3VtX3tqPTF9Xmcgbl9qIFxsZWZ0KFxiYXJ7Un1faiAtIFxmcmFje24rMX17Mn1ccmlnaHQpXjIuCiAgXF0KLSAgVGhlIGZhY3RvciAkXGZyYWN7MTJ9e24obisxKX0kIGlzIHVzZWQgc28gdGhhdCAkS1ckIGhhcyBhIHNpbXBsZSBhc3ltcHRvdGljIG51bGwgZGlzdHJpYnV0aW9uLiBJbiBwYXJ0aWN1bGFyIHVuZGVyICRIXzAkLCBnaXZlbiB0aGFydCAkXG1pbihuXzEsXGxkb3RzLCBuX2cpXHJpZ2h0YXJyb3cgXGluZnR5JCwKICBcWwogICAgS1cgIFxyaWdodGFycm93IFxjaGleMl97dC0xfS4KICBcXQoKLSAgVGhlIGV4YWN0IEtXLXRlc3QgY2FuIGJlIGV4ZWN1dGVkIGJ5IGNhbGN1bGF0aW5nIHRoZSBwZXJtdXRhdGlvbiBudWxsIGRpc3RyaWJ1dGlvbiAodGhhdCBvbmx5IGRlcGVuZHMgb24gJG5fMSwgXGxkb3RzLCBuX2ckKSB0byB0ZXN0CiAgJCRIXzA6IGZfMT1cbGRvdHM9Zl9nIFx0ZXh0eyB2cyB9IEhfMTogXHRleHR7IGF0IGxlYXN0IHR3byBtZWFucyBhcmUgZGlmZmVyZW50fS4kJAoKLSBJbiBvcmRlciB0byBhbGxvdyAkSF8xJCB0byBiZSBmb3JtdWxhdGVkIGluIHRlcm1zIG9mIG1lYW5zLCB0aGUgYXNzdW1wdGlvbiBvZiBsb2NhdGlvbnMgc2hpZnQgc2hvdWxkIGJlIHZhbGlkLgotIEZvciBETUggZXhhbXBsZSB0aGlzIGlzIG5vdCB0aGUgY2FzZS4KLSBJZiBsb2NhdGlvbi1zaGlmdCBpcyBpbnZhbGlkLCB3ZSBoYXZlIHRvIGZvcm11bGF0ZSAkSF8xJCBpbiB0ZXJtcyBvZiBwcm9iYWJpbGlzdGljIGluZGljZXM6CiAgJCRIXzA6IGZfMT1cbGRvdHM9Zl9nIFx0ZXh0eyB2cyB9IEhfMTogXGV4aXN0c1wgaixrIFxpbiBcezEsXGxkb3RzLGdcfSA6IFx0ZXh0e1B9XGxlZnRbWV9qXGdlcSBZX2tccmlnaHRdXG5lcSAwLjUkJAoKCiMjIEROQSBEYW1hZ2UgRXhhbXBsZQoKYGBge3J9CmtydXNrYWwudGVzdChsZW5ndGggfiBkb3NlLCBkYXRhID0gZG5hKQpgYGAKCi0gT24gdGhlICQ1XCUkIGxldmVsIG9mIHNpZ25pZmljYW5jZSB3ZSBjYW4gcmVqZWN0IHRoZSBudWxsIGh5cG90aGVzaXMuCgotIFItZnVuY3RpZSBga3J1c2thbC50ZXN0YCBvbmx5IHJldHVybnMgdGhlIGFzeW1wdG90aWMgYXBwcm94aW1hdGlvbiBmb3IgJHAkLXZhbHVlcy4KCi0gV2l0aCBvbmx5IDYgb2JzZXJ2YXRpZXMgcGVyIGdyb2VwLCB0aGlzIGlzIG5vdCBhIGdvb2QgYXBwcm94aW1hdGlvbiBvZiB0aGUgJHAkLXZhbHVlCgotICBXaXRoIHRoZSBgY29pbmAgUiBwYWNrYWdlIHdlIGNhbiBjYWxjdWxhdGUgdGhlIGV4YWN0ZSAkcCQtdmFsdWUKCmBgYHtyLHdhcm5pbmc9RkFMU0UsbWVzc2FnZT1GQUxTRX0KbGlicmFyeShjb2luKQprd1Blcm0gPC0ga3J1c2thbF90ZXN0KGxlbmd0aCB+IGRvc2UsCiAgZGF0YSA9IGRuYSwKICBkaXN0cmlidXRpb24gPSBhcHByb3hpbWF0ZShCID0gMTAwMDAwKQopCmt3UGVybQpgYGAKCi0gV2UgY29uY2x1ZGUgdGhhdCB0aGUgZGlmZmVyZW5jZSBpbiB0aGUgZGlzdHJpYnV0aW9uIG9mIHRoZSBETkEgZGFtYWdlcyBkdWUgdG8gdGhlIERNSCBkb3NlIGlzIGV4dHJlbWVseSBzaWduaWZpY2FudGx5IGRpZmZlcmVudC4KCi0gUG9zdGhvYyBhbmFseXNpcyB3aXRoIFdNVyB0ZXN0cy4KCmBgYHtyfQpwYWlyd2lzZS53aWxjb3gudGVzdChkbmEkbGVuZ3RoLCBkbmEkZG9zZSkKYGBgCgotIEFsbCBETUggYmVoYW5kZWxpbmdlbiBhcmUgc2lnbmlmaWNhbnRseSBkaWZmZXJlbnQgZnJvbSB0aGUgY29udHJvbC4KLSBUaGUgRE1IIGFyZSBub3Qgc2lnbmlmaWNhbnRseSBkaWZmZXJlbnQgZnJvbSBvbmUgYW5vdGhlci4KLSBVMSBkb2VzIG5vdCBvY2N1ciBpbiB0aGUgYHBhaXJ3aXNlLndpbGNveC50ZXN0YCBvdXRwdXQuIFBvaW50IGVzdGltYXRlIG9uIHByb2JhYmlsaXR5IG9uIGhpZ2hlciBETkEtZGFtYWdlPwoKYGBge3IsIGVjaG89RkFMU0V9CnBhaXJXaWxjb3ggPC0gcGFpcndpc2Uud2lsY294LnRlc3QoZG5hJGxlbmd0aCwgZG5hJGRvc2UpCmBgYAoKYGBge3J9Cm5Hcm91cCA8LSB0YWJsZShkbmEkZG9zZSkKcHJvYkluZCA8LSBjb21ibihsZXZlbHMoZG5hJGRvc2UpLCAyLCBmdW5jdGlvbih4KSB7CiAgdGVzdCA8LSB3aWxjb3gudGVzdChsZW5ndGggfiBkb3NlLCBzdWJzZXQoZG5hLCBkb3NlICVpbiUgeCkpCiAgcmV0dXJuKHRlc3Qkc3RhdGlzdGljIC8gcHJvZChuR3JvdXBbeF0pKQp9KQpuYW1lcyhwcm9iSW5kKSA8LSBjb21ibihsZXZlbHMoZG5hJGRvc2UpLCAyLCBwYXN0ZSwgY29sbGFwc2UgPSAidnMiKQpwcm9iSW5kCmBgYAoKQmVjYXVzZSB0aGVyZSBhcmUgZG91YnRzIG9uIHRoZSBsb2NhdGlvbi1zaGlmdCBtb2RlbCB3ZSBkcmF3IG91ciBjb25jbHVzaW9ucyBpbiB0ZXJtcyBvZiB0aGUgcHJvYmFiaWxpc3RpYyBpbmRleC4KCiMjIyBDb25jbHVzaW9uCgotIFRoZXJlIGlzIGFuIGV4dHJlbWVseSBzaWduaWZpY2FudCBkaWZmZXJlbmNlIGluIGluIHRoZSBkaXN0cmlidXRpb24gb2YgdGhlIEROQS1kYW1hZ2UgbWVhc3VyZW1lbnRzIGR1ZSB0byB0aGUgdHJlYXRtZW50IHdpdGggRE1IICAoJHA8MC4wMDEkIEtXLXRlc3QpLgotIEROQS1kYW1hZ2UgaXMgbW9yZSBsaWtlbHkgdXBvbiBETUggdHJlYXRtZW50IHRoYW4gaW4gdGhlIGNvbnRyb2wgdHJlYXRtZW50IChhbGwgcD0wLjAxMywgV01XLXRlc3RlbikuCi0gVGhlIHByb2JhYmlsaXR5IG9uIGhpZ2hlciBETkEtZGFtYWdlIHVwb24gZXhwb3N1cmUgdG8gRE1IIGlzIDEwMCUgKENhbGN1bGF0aW9uIG9mIGEgQ0kgb24gdGhlIHByb2JhYmlsaXN0aWMgaW5kZXggaXMgYmV5b25kIHRoZSBzY29wZSBvZiB0aGUgY291cnNlKQotIFRoZXJlIGFyZSBubyBzaWduaWZpY2FudCBkaWZmZXJlbmNlcyBpbiB0aGUgZGlzdHJpYnV0aW9ucyBvZiB0aGUgY29taXQtbGVuZ3RocyBhbW9uZyB0aGUgdHJlYXRtZW50IHdpdGggdGhlIGRpZmZlcmVudCBETUggY29uY2VudHJhdGlvbnMgKCRwPSQgYHIgcGFzdGUoZm9ybWF0KHJhbmdlKHBhaXJXaWxjb3gkcC52YWx1ZVssLTFdLG5hLnJtPVRSVUUpLGRpZ2l0PTIpLGNvbGxhcHNlPSItIilgKS4KLSBETUggc2hvd3MgYWxyZWFkeSBnZW5vdG94aWMgZWZmZWN0cyBhdCBsb3cgZG9zZS4KLSAoQWxsZSBwYWFyc3dpc2UgdGVzdHMgYXJlIGdlY29ycmVjdGVkIGZvciBtdWx0aXBsZSB0ZXN0aW5nIHVzaW5nIEhvbG0ncyBtZXRob2RlKS4K

9. Non-parametric statistics - Kruskal Wallis

Lieven Clement

statOmics, Ghent University (https://statomics.github.io)