O formato original é a listagem bruta do programa nsp, tal qual fornecida por ele. Abaixo vai a explicação, conforme retirada do README do programa.
Lista de freqüências:
line<>of<>text<>2 3 2 2 2 2 2 and<>a<>third<>1 1 1 1 1 1 1 third<>line<>of<>1 1 3 2 1 1 2 second<>line<>and<>1 1 3 1 1 1 1 line<>and<>a<>1 3 1 1 1 1 1 a<>third<>line<>1 1 1 2 1 1 1 text<>second<>line<>1 1 1 2 1 1 1 of<>text<>second<>1 1 1 1 1 1 1 first<>line<>of<>1 1 3 2 1 1 2
Lista de estatísticas:
11 of<>text<>1 1.0000 2 2 2 and<>a<>1 1.0000 1 1 1 a<>third<>1 1.0000 1 1 1 text<>second<>1 1.0000 1 1 1 line<>of<>2 0.8000 2 3 2 third<>line<>3 0.5000 1 1 3 line<>and<>3 0.5000 1 3 1 second<>line<>3 0.5000 1 1 3 first<>line<>3 0.5000 1 1 3
"Once again, the first number is the total number of bigrams - 11. On the next line is the highest ranked bigram "of<>text<>". The first number following this bigram, 1, is its rank. The next number, 1.0000, is its value computed using the dice statistic. The final three numbers are exactly the numbers associated with this ngram in the test.cnt file" (source: README).
Para maiores informações sobre o programa nsp, clique aqui.
A versão 0.5, instalada aqui, é de 4 de junho de 2002 e não é a mais recente do programa nsp.
Tamanho dos n-gramas: 2 3 4 5
Incluir estatísticas de associação? Disponível para bigramas, somente. Não Sim
Qual estatística de associação? Mutual Information Dice Log-Likelihood The Chi-Squared Test The Left-Fisher Test of Associativity
Código do corpus (seis dígitos):