Segmentador online para português (JTextTile)

CEPRIL, LAEL, PUC/SP


Instruções:

  1. Este segmentador online funciona a partir do segmentador JTextTile, de Freddy Choi, que por sua vez é uma implementação em Java do algoritmo TextTile de Marti Hearst
  2. O segmentador tem a função de identificar porções de texto tematicamente coerentes.
  3. Nesta versão online, ele agrupa períodos ('sentenças') em unidades temáticas.
  4. Para usar, basta colar o texto no espaço abaixo e clicar em Segmentar. O texto não precisa estar especialmente preparado para análise.
  5. O texto aparecerá segmentado, com as divisões identificadas por '======';
  6. Se preferir, ajuste os parâmetros nos campos 'Window' e 'Step'. Quanto menores os valores, menores os segmentos e vice-versa. Os valores recomendados são window = 60* e step = 5.
    (*Choi recomenda 120, mas isso se refere à segmentação em parágrafos, ao passo que a feita aqui é com base em períodos, que são muitas vezes menores do que o parágrafo, mas nunca maiores.)
  7. Caso não obtenha resultado: (1) O servidor pode estar sobrecarregado, então por favor tente mais tarde; (2) Modifique os valores de Window (e Step).
  8. Esta versão está ajustada para o português, pois utiliza 'stopwords' portuguesas. Mas ele funcionará com texto em qualquer língua, porém com menos exatidão.
  9. Leia mais sobre segmentação:
    Choi, F (2000) Advances in domain independent linear text segmentation. In Proceedings of NAACL'00, Seattle, USA. [Postscript]
    Berber Sardinha, A P (1997) Automatic Identification of Segments in Written Text. PhD Thesis. Liverpool University, UK. [pdf]

Window:

Step:

Stopwords: lista de palavras desconsideradas na análise.

Texto para segmentar:


cgi, html: Tony Berber Sardinha.