BETO — Clasificador de Noticias en Español

Descripción

Modelo BERT entrenado en español (BETO) ajustado mediante fine-tuning para clasificar noticias en 12 categorías temáticas: alimentation, astronomy, economy, fashion, medicine, military, motor, play, politics, religion, sport y tech.

Creado como proyecto del seminario de HF Mirror.

Uso

from transformers import pipeline

clasificador = pipeline("text-classification", model="mmarchante/beto-clasificacion-noticias-es")
resultado = clasificador("El Barça gana la Champions League")
print(resultado)  # [{'label': 'sport', 'score': 0.97}]

Modelo base

  • Modelo: dccuchile/bert-base-spanish-wwm-cased (BETO)
  • Arquitectura: BERT encoder + cabeza de clasificación lineal (12 clases)

Dataset

  • Fuente: MarcOrfilaCarreras/spanish-news
  • Descripción: Noticias de medios españoles clasificadas en 12 categorías temáticas (850 por categoría)
  • Preprocesamiento: Eliminación de noticias de periódicos con menos de 50 artículos en el dataset; balanceo a 500 ejemplos por categoría
  • División: 70% train / 15% validación / 15% test
  • Texto de entrada: Cuerpo de la noticia (max. 128 tokens)

Hiperparámetros de entrenamiento

  • Learning rate: 2e-5
  • Épocas: 3
  • Batch size: 16
  • Weight decay: 0.01

Métricas

Métrica Validación Test
Accuracy 0.9467 0.9367
F1 (weighted) 0.9467 0.9372
Precision (weighted) 0.9472 0.9386
Recall (weighted) 0.9467 0.9367

Limitaciones

  • Categorías temáticamente próximas como politics y economy pueden generar confusión en el modelo
  • El truncado a 128 tokens puede perder información en noticias largas
  • Entrenado con un subset de 500 noticias por categoría; un entrenamiento con el dataset completo podría mejorar los resultados
  • Posibles sesgos según la distribución de fuentes periodísticas del dataset original
Downloads last month
67
Safetensors
Model size
0.1B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for mmarchante/beto-clasificacion-noticias-es

Finetuned
(159)
this model

Dataset used to train mmarchante/beto-clasificacion-noticias-es

Space using mmarchante/beto-clasificacion-noticias-es 1