Pesquisa de site

Nova ferramenta de código aberto cataloga recursos linguísticos africanos


Lanfrica permite a pesquisa em qualquer uma das línguas atuais e extintas do continente africano.

Os últimos meses foram repletos de atividades na Lanfrica e temos o prazer de anunciar que a Lanfrica foi oficialmente lançada.

O que é Lanfrica?

Lanfrica pretende mitigar a dificuldade encontrada na procura de recursos linguísticos africanos, criando um catálogo centralizado que prioriza a língua.

Por exemplo, se você estiver procurando recursos como conjuntos de dados linguísticos ou artigos de pesquisa em um determinado idioma africano, a Lanfrica indicará fontes na web com recursos no idioma desejado. Se esses recursos não existirem, adotamos uma abordagem participativa, permitindo que você contribua com documentos ou conjuntos de dados.

(Chris Emezue, CC BY-SA 4.0)

Na Lanfrica, empregamos uma abordagem focada no idioma. Com 2.199 línguas africanas contabilizadas, a nossa secção linguística orgulha-se de todas as línguas africanas – sim, todas elas, incluindo as extintas! Criámos algoritmos que conseguem identificar, com muita eficácia, a(s) língua(s) africana(s) envolvida(s) num recurso, permitindo-nos fazer a curadoria até de trabalhos que não especificam explicitamente as línguas africanas em que trabalharam (e há muitas).

A Lanfrica oferece um enorme potencial para uma melhor descoberta e representação das línguas africanas na web. A Lanfrica pode fornecer estatísticas úteis sobre o progresso das línguas africanas. A título de ilustração simples, a secção do filtro de idioma oferece uma visão geral imediata do número de recursos de processamento de linguagem natural (PNL) existentes para cada língua africana.

(Chris Emezue, CC BY-SA 4.0)

A partir deste resultado da pesquisa, você pode ver facilmente que entre as línguas sul-africanas, o Afrikaans tem 28 recursos de PNL, enquanto o Swati tem apenas oito. Ou, para dar outro exemplo, as línguas do cluster Gbe do Benin têm muito menos recursos de PNL do que algumas das línguas sul-africanas.

(Chris Emezue, CC BY-SA 4.0)

Essa percepção pode levar a uma melhor afectação de fundos e esforços para fazer avançar as línguas menos investigadas na PNL, promovendo assim o progresso igual das línguas africanas.

Lanfrica v1 é apenas o começo. Temos atualizações importantes chegando no futuro:

  • Planejamos permitir que nossos usuários se inscrevam e adicionem ou editem recursos no Lanfrica.

  • Nossos recursos atuais consistem atualmente em conjuntos de dados de PNL. A seguir, planejamos trabalhar em publicações em linguística computacional e publicações linguísticas. Veja o infográfico acima para todos os tipos de recursos planejados para inclusão.

  • Estamos a explorar várias técnicas para simplificar o processo através do qual os recursos relevantes são identificados e ligados à Lanfrica.

Para obter mais atualizações à medida que avançamos, torne-se parte da comunidade Lanfrica juntando-se ao nosso Slack ou seguindo-nos no Twitter.

Este artigo apareceu originalmente no blog Lanfrica e foi republicado com permissão.

Artigos relacionados: