OntoLP

Portal de Ontologias

Recursos

Projeto - Ontolp Lista de Termos



Um dos trabalhos desenvolvidos no contexto do projeto OntoLP foi a realização de experimentos de extração de termos compostos, candidatos a conceitos, a partir de um corpus da área da pediatria. Esse corpus é composto por 283 textos (785.448 palavras) em português extraídos do Jornal de Pediatria . O corpus foi organizado por Coulthard para estudar padrões de tradução português-inglês (COULTHARD, 2005).
No contexto do projeto TEXTQUIM/TEXTECC da Universidade Federal do Rio Grande do Sul, duas listas de termos compostos foram construída a partir desse corpus. As listas constituem um catálogo e um dicionário de termos. O propósito do dicionário (disponível em www.ufrgs.br/textecc) é dar apoio aos estudantes de tradução nesse domínio.
No contexto do projeto OntoLP, essas listas iniciais foram unidas e revisadas. O resultado final deste processo foi uma lista com 4181 termos compostos, sendo 1534 bigramas e 2647 trigramas. Termos de composição maior que 3 palavras não foram incluídos. Essa lista revisada(fevereiro/2011) tem sido utilizada como lista de referência em experimentos de extração de termos.

Nome Descrição Língua Arquivo Tamanho Licença
OntoLP Lista de Termos Lista de bi-gramas e tri-gramas do corpus de pediatria Português(br) zip 15 KB *Creative Commons License


Equipe:


COULTHARD, R. James. The application of Corpus Methodology to Translation: the JPED parallel corpus and the Pediatrics comparable corpus. Dissertação de Mestrado, Programa de Pós Graduação em Estudos da Tradução, Universidade Federal de Santa Catarina, 2005.

*Ontolp Lista de Termos by Grupo PLN-BR is licensed under a Creative Commons Atribuição-Uso Não-Comercial-Compartilhamento pela mesma Licença 2.5 Brasil License