Por IBM Developer Staff
Visão Geral
Este modelo gera legendas a partir de um vocabulário fixo que descreve o conteúdo das imagens no COCO Dataset. Consiste em um modelo codificador – uma rede profunda e complexa que utiliza a arquitetura Inception-v3 treinada em dados do ImageNet-2012 – e um decodificador – uma rede LSTM treinada e condicionada à codificação a partir do codificador de imagens. A entrada para o modelo é uma imagem, enquanto a saída consiste em uma frase que descreve o conteúdo da imagem.
O modelo é baseado no algoritmo gerador de legendas descritivas Show and Tell.
Metadados do Modelo
Referências
- O. Vinyals, A. Toshev, S. Bengio, D. Erhan, "Show and Tell: Lessons learned from the 2015 MSCOCO Image Captioning Challenge", IEEE transactions on Pattern Analysis and Machine Intelligence, 2016.
Licenças
Componente – Licença – Link
Este repositório – Apache 2.0 – LICENÇA
Pesos dos Modelos – MIT – Modelo Pré-treinado Show and Tell
Código do Modelo (Terceiros) – Apache 2.0 – im2txt
Ativos de Teste – Diversos – LEIA-ME do ativo
Opções disponíveis para a implementação deste modelo
Este modelo pode ser implementado por meio dos seguintes mecanismos:
- Implementação a partir do Dockerhub:
docker run -it -p 5000:5000 codait/max-image-caption-generator
- Implementação no Red Hat OpenShift:
Siga as instruções para o console web do OpenShift ou para a OpenShift Container Platform CLI neste tutorial e especifique codait/max-image-caption-generator como o nome da imagem.
- Implementação no Kubernetes:
kubectl apply -f https://raw.githubusercontent.com/IBM/MAX-Image-Caption-Generator/master/max-image-caption-generator.yaml
Um tutorial mais elaborado sobre como implementar este modelo MAX para produção na IBM Cloud pode ser encontrado aqui.
- Localmente: siga as instruções no modelo LEIA-ME no GitHub
Exemplo de uso
Você pode testar ou usar este modelo
- usando cURL
- em um fluxo Node-RED
- no CodePen
- em um aplicativo sem servidor
Teste o modelo usando o cURL
Uma vez implementado, você pode testar o modelo a partir da linha de comando. Por exemplo, se estiver rodando localmente:
curl -F "image=@assets/surfing.jpg" -X POST http://127.0.0.1:5000/model/predict
{
"status": "ok",
"predictions": [
{
"index": "0",
"caption": "a man riding a wave on top of a surfboard .",
"probability": 0.038827644239537
},
{
"index": "1",
"caption": "a person riding a surf board on a wave",
"probability": 0.017933410519265
},
{
"index": "2",
"caption": "a man riding a wave on a surfboard in the ocean .",
"probability": 0.0056628732021868
}
]
}
Teste o modelo em um fluxo Node-RED
Complete as instruções de configuração do módulo node-red-contrib-model-asset-exchange e importe o gerador de captura de imagens image-caption-generator para iniciar o fluxo.
Teste o modelo no CodePen
Aprenda a enviar uma imagem para o modelo e como renderizar os resultados no CodePen.
Teste o modelo em um aplicativo sem servidor
Você pode utilizar este modelo em uma aplicação sem servidor seguindo as instruções no tutorial Potencialize o deep learning no IBM Cloud Functions.
Links
- Aplicação Web Image Caption Generator: Uma aplicação de referência criada pela equipe do IBM CODAIT que utiliza o Gerador de Legendas de Imagem
Recursos e Contribuições
Se você estiver interessado em contribuir para o projeto da Model Asset Exchange ou tiver qualquer dúvida, por favor siga as instruções presentes aqui.
...
Quer ler mais conteúdo especializado de programação? Conheça a IBM Blue Profile e tenha acesso a matérias exclusivas, novas jornadas de conhecimento e testes personalizados. Confira agora mesmo, consiga as badges e dê um upgrade na sua carreira!
Categorias