Lar de cerca de 35 mil volumes e contando com mais de 80 km de prateleiras cheias de livros e documentos, os Arquivos Secretos do Vaticano abrigam uma das coleções históricas mais importantes da humanidade, com o manuscrito mais antigo datando do final do século 8. O problema é que ele não pode ser acessado virtualmente, estando disponível apenas para acadêmicos com condições de se locomover até a sede da Igreja Católica.
Um grupo de pesquisadores da Universidade Roma Tre e da Universidade La Sapienza, ambas na capital da Itália, quer mudar isso. Eles estão desenvolvendo um projeto chamado de In Codice Ratio, que tem como objetivo transcrever automaticamente todo o conteúdo dos Arquivos que pode ser acessado pelo público.
Para isso, a equipe trabalha com uma combinação de inteligência artificial e reconhecimento óptico de caracteres (OCR). Eles utilizam uma técnica nova para conseguir aplicar os conhecimentos atuais de OCR aos textos escritos à mão, dividindo as palavras em pequenos pedaços que dependem da quantidade de tinta utilizada na região. Com isso, é possível separar cada letra individualmente e transformar o papel em um documento digital.
À esquerda, o texto manuscrito; no meio, a palavra correta; e à direita, o que o programa identificou.
O treinamento da inteligência artificial responsável por reconhecer esses pedaços de texto como letras do alfabeto latino foi feito por estudantes do ensino médio italiano. Eles responderam a diversos questionários e identificaram quais imagens representavam as letras desejadas.
O resultado disso tudo foi colocado à prova quando a equipe fez os testes utilizando cerca de 18 mil páginas de cartas armazenadas nos Arquivos. De acordo com os pesquisadores, o programa conseguiu identificar corretamente 96% das cartas, com um terço das palavras contendo pelo menos um caractere errado. Como essa tecnologia aprende sempre que seus erros são identificados, a tendência é que esses números só melhorem nas próximas tentativas.
No site do In Codice Raio, você pode ver todos os artigos publicados com os resultados da pesquisa.
Fontes
Categorias