Quem já escreveu no Word, o processador de textos da
Microsoft, com certeza usou o corretor ortográfico do programa - aquele que
sublinha palavras erradas e sugere suas versões corretas. Diante da palavra
"coreta", por exemplo, ele vai indicar, por meio de uma linha
vermelha embaixo dela que está errada, e quando o corretor for acionado para
corrigir todo o texto, ele vai sugerir, para essa palavra, pela ordem:
"correta", "corveta", "corta",
"coreto", "corretas" e "careta".
O que poucos sabem é que esta tecnologia de correção de
texto para o português tem sotaque caipira - no bom sentido, é claro. Ela foi
desenvolvida no interior paulista, no Instituto de Ciências Matemáticas e de
Computação (ICMC), da Universidade de São Paulo, em São Carlos, a 241 quilômetros
da capital.
É uma longa história, que começou em 1993, quando a
Itautec, uma fábrica brasileira de computadores hoje extinta, procurou o ICMC,
por causa de seus pesquisadores com formação em computação com alguma ligação
com linguagem natural, para que desenvolvessem um sistema de correção
ortográfica - que depois evoluiu para gramatical e estilística.
Na época, a internet ainda era novidade. "A ideia era
vender o sistema na forma de um CD, principalmente para uso em escritórios, no
auxílio à redação de cartas e memorandos, ou seja, para usuários com ensino
fundamental ou médio", lembra a cientista da Maria das Graças Volpe Nunes,
do ICMC, coordenadora do projeto. "Aceitamos o desafio e, em pouco mais de
um ano, já tínhamos a primeira versão do revisor, que, como projeto científico,
ficou conhecido como ReGra."
Maria das Graças conta que, para desenvolver a tecnologia
do corretor, foi formada uma grande equipe de pesquisadores, estudantes de
computação e linguística. O projeto teve apoio da Fundação de Amparo à Pesquisa
do Estado de São Paulo (Fapesp), durante um certo período, num programa de
parceria com a Itautec. Essa empresa, por sua vez, financiou a equipe durante
15 anos seguidos.
Em 2000, a Microsoft adquiriu uma licença da Itautec para
incluir o revisor desenvolvido no ICMC nos seus programas do pacote Office. Mas
a equipe continuou a dar assessoria para a Microsoft: novas regras de correção
eram implementadas, adaptações eram feitas, como à nova ortografia do
português, entre outras coisas. "Em 2008, a Itautec vendeu definitivamente
os direitos do produto à Microsoft, e, portanto, o projeto chegou ao final, com
bastante sucesso, por sinal", diz Maria das Graças.
Em 1993, uma fábrica brasileira de computadores procurou
cientistas para eles desenvolverem um corretor de texto (Foto: Getty Images).
Em 1993, uma fábrica brasileira de computadores procurou cientistas para eles
desenvolverem um corretor de texto (Foto: Getty Images)
Em 1993, uma fábrica brasileira de computadores procurou
cientistas para eles desenvolverem um corretor de texto (Foto: Getty Images)
Seu colega no projeto, o físico Osvaldo Novais de Oliveira
Junior, do Instituto de Física da Universidade Federal de São Carlos (UFSCar),
diz que o ReGra foi o primeiro revisor gramatical desenvolvido para o
português.
"No nosso caso, com o léxico da versão brasileira da
nossa língua", explica. "Quase na mesma época, uma empresa em
Portugal, ativa até hoje, desenvolveu um revisor para a versão do idioma como é
falado lá. O lançamento do deles deve ter ocorrido pouco depois do nosso."
Segundo Oliveira, o ReGra faz revisão com base em regras -
algumas de análise sintática e algumas empíricas, de maneira semelhante ao
revisor do inglês disponível no Word da Microsoft. "Ao que eu saiba, a
Microsoft nunca desenvolveu revisor para o português", diz.
Procurada pela BBC Brasil a empresa se manifestou por meio
de uma nota: "Inicialmente, a Microsoft realizou acordos para a utilização
de licenças de corretores ortográficos de terceiros para muitos idiomas ao
redor do mundo, mas gradativamente todos eles foram migrados para a plataforma
da empresa. A ferramenta brasileira fez essa migração na versão do Office 2010,
o que significa que a tecnologia presente no produto já é 100% Microsoft."
De acordo com Oliveira, pode-se dizer que houve pouquíssimo
avanço em revisão gramatical automática nos últimos anos, pois aparentemente as
empresas não estão dispostas a fazer grandes investimentos. "Isso seria
necessário, pois hoje um revisor gramatical poderia ser muito mais eficiente se
combinasse regras com métodos estatísticos e de aprendizado de máquina",
complementa.
Oliveira diz que a Itautec "apostou muito numa equipe
de jovens pesquisadores, sem garantia de retorno. Apenas para ilustrar, a
Itautec investiu o equivalente a cerca de US$ 2 milhões (tínhamos que memorizar
valores em dólares, pois a inflação em 1993 ainda era muito alta) nos primeiros
anos do trabalho. Não prometemos fazer o revisor, mas apenas um estudo sobre o
que era necessário e como criá-lo."
O físico Osvaldo Novais de Oliveira Junior, da Universidade
Federal de São Carlos, também participou da criação do programa (Foto:
IFSC/USP) O físico Osvaldo Novais de Oliveira Junior, da Universidade Federal
de São Carlos, também participou da criação do programa (Foto: IFSC/USP)
O físico Osvaldo Novais de Oliveira Junior, da Universidade
Federal de São Carlos, também participou da criação do programa (Foto:
IFSC/USP)
O investimento da Itautec tornou possível a formação de uma
equipe multidisciplinar, e multi-institucional, que congregava professores das
universidades de São Paulo (USP), Federal de São Carlos (UFSCar), e Estadual
Paulista (Unesp) do câmpus Araraquara, para realizar pesquisas na área de
Processamento de Linguagem Natural (PLN).
"Acho que ainda em 1993 decidimos que o grupo deveria
ganhar um nome, que é o mesmo até hoje: Núcleo Insterinstitucional de
Linguística Computacional (NILC)", lembra Oliveira. "A meu ver, a
criação dele é o maior legado do Projeto ReGra."
De acordo com ele, o NILC é hoje um dos maiores centros de
geração de tecnologia para o processamento automático do português.
"Certamente é o que mais disponibilizou gratuitamente recursos lingüísticos
computacionais para o nossa idioma", diz.
"Isso foi possível porque, desde o início, adotamos a
política de franquear os recursos, como léxicos, corpus (base de textos,
escritos ou falados, organizada e anotada, que possa servir como recurso linguístico-computacional)
e ferramentas de processamento a colegas de todo o mundo. Mesmo aqueles
recursos acessórios para o desenvolvimento do ReGra foram disponibilizados, com
a autorização da Itautec."
Mas o NILC não parou por aí. Oliveira destaca os projetos
que o núcleo desenvolveu e vem desenvolvendo nas áreas de tradução automática,
terminologia, simplificação de texto, reconhecimento de autoria, identificação
de fake news (notícias falsas), sistemas de busca, uso de linguagem para
detecção de doenças e reconhecimento de fala, por exemplo.
"Ressalto que o processamento automático de língua
natural está presente em muitos produtos, como os assistentes inteligentes que
reconhecem voz e obedecem a comandos, os tradutores automáticos e os sistemas
de busca na internet", explica.
Segundo ele, são tantos os produtos que muitos dos
desenvolvedores já não se referem ao trabalho como sendo de Processamento de
Linguagem Natural. "Como hoje uma das tarefas mais relevantes na
tecnologia é ensinar uma máquina a ler (e compreender), o PLN é uma das áreas
mais importantes de ciência e tecnologia", diz.
"Ninguém fala nisso, mas uma análise detalhada dos
sistemas inteligentes (cerne da Inteligência Artificial) indica claramente que
essa afirmação é irrefutável."
Por G1
Por G1
Nenhum comentário:
Postar um comentário