La reproducibilidad es un requisito esencial para muchos campos relacionados con la investigación. También incluye áreas que se basan en técnicas de aprendizaje automático . Pero también es cierto que la mayoría de las publicaciones de investigación basadas en ML no son reproducibles o son demasiado difíciles de reproducir.

PyTorch Hub anunciado para mejorar la reproducibilidad de la investigación de aprendizaje automático


El equipo PyTorch anunció ayer el lanzamiento de PyTorch Hub . Es una API y un flujo de trabajo simples que ofrecen los componentes básicos para la mejora de la reproducibilidad de la investigación de aprendizaje automático.
Si no lo sabes, PyTorch es básicamente una biblioteca de aprendizaje automático para Python. Se basa en la biblioteca Torch y se usa en aplicaciones de procesamiento de lenguaje natural y otras.
PyTorch Hub viene con un repositorio de modelos pre-entrenado que está diseñado para facilitar la reproducibilidad de la investigación y la nueva investigación. Proporciona soporte integrado para Colab, integración con Papers With Code. PyTorch también viene con un conjunto de modelos que incluyen clasificación y segmentación, transformadores, generativos, etc.
Además, puede agregar un archivo hubconf.py simple para hacer que el hub sea compatible con la publicación de modelos pre-entrenados en un repositorio de GitHub, que tiene toda la información sobre los modelos admitidos y la lista de dependencias necesarias para ejecutarlos.
Por ejemplo, puede consultar depósitos como torchvision, huggingface-bert y gan-model-zoo. Ahora, en el caso de torchvision hubconf.py, cada uno de los archivos de modelo en el repositorio puede funcionar y ejecutarse de forma independiente. No necesitan puntos de entrada separados ni requieren ningún paquete excepto PyTorch. El hubconf.py puede ayudar a los usuarios a enviar una solicitud de extracción basada en la plantilla especificada en la página de GitHub.
De acuerdo con la publicación oficial del blog , "Nuestro objetivo es crear modelos de alta calidad, fácilmente reproducibles y de máxima utilidad para la reproducibilidad de la investigación. Por lo tanto, podemos trabajar con usted para refinar su solicitud de extracción y, en algunos casos, rechazar la publicación de algunos modelos de baja calidad. Una vez que aceptemos su solicitud de extracción, su modelo pronto aparecerá en la página web de Pytorch hub para que todos los usuarios la exploren ".
PyTorch Hub permite a los usuarios explorar modelos disponibles, cargar un modelo y comprender el tipo de modelos disponibles para cualquier modelo dado. Echa un vistazo a los pocos ejemplos mencionados a continuación:

Explora los entrypoints disponibles

Puede usar la API torch.hub.list () para enumerar todos los puntos de entrada disponibles en un repositorio. Además de los modelos pre-entrenados, el Hub también permite puntos de entrada auxiliares como bertTokenizer para preprocesar los modelos BERT y hacer que el flujo de trabajo del usuario sea más suave.

Cargando un modelo

Puede usar la API torch.hub.load () para cargar un punto de entrada modelo. Esta API también proporciona información útil sobre la creación de instancias del modelo cargado.
Si está interesado, puede conocer más sobre PyTorch Hub aquí .