## Preparaci√≥n de un dataset

Descargamos el dataset y lo preparamos para el entrenamiento. En el caso de ejemplo, usaremos toxic-teenage-relationships, que son frases que describen si un comporamiento es t√≥xico o sano. Tienen una campo de texto y un campo de etiqueta, que vale 1 si es t√≥xico y 0 si no lo es. Acumula 267 ejemplos de entrenamiento y 66 para testear.

In [1]:
from datasets import load_dataset
data_files = {"train": "train.csv", "test": "test.csv"}
dataset = load_dataset("toxic-teenage-relationships", data_files=data_files, sep=";")
dataset['train'][100]

{'label': 1,
 'text': 'Mi amiga no puede subir videos a tik tok porque su pareja no le deja'}

Una vez cargado el dataset, se crea un tokenizador para procesar el texto e incluir una estrategia para el padding y el truncamiento. Par poder procesar el dataset en un solo paso, se utiliza el m√©todo dataset.map para preprocesar todo el dataset.



In [2]:

from transformers import AutoTokenizer
#el modelo a utilizar es BERT multilingual cased
tokenizer = AutoTokenizer.from_pretrained('bert-base-multilingual-cased')


def tokenize_function(examples):
    return tokenizer(examples["text"], padding="max_length", truncation=True)


tokenized_datasets = dataset.map(tokenize_function, batched=True)


In [3]:
train_dataset = tokenized_datasets["train"]
eval_dataset = tokenized_datasets["test"]

## Fine-tuning usando Trainer

La clase trainer de Transformers permite entrenar modelos de transformers. La API del Trainer soporta varias opciones de entrenamiento y caracter√≠sticas como logging, gradient accumulation y mixed preccision

In [4]:
from transformers import AutoModelForSequenceClassification

#Hay dos categor√≠as, as√≠ que ponemos 2 etiquetas (0 sano 1 t√≥xico)
model = AutoModelForSequenceClassification.from_pretrained('bert-base-multilingual-cased', num_labels=2)


Some weights of BertForSequenceClassification were not initialized from the model checkpoint at bert-base-multilingual-cased and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


## Hiperpar√°metros de entrenamiento

Ahora se crea una clase TrainingArguments que contiene todos los hiperpar√°metros que se pueden ajustar. 
Empezamos con los hiperpar√°metros de entrenamiento por defecto, pero tendremos que ajustarlos para encontrar la configuraci√≥n √≥ptima.


In [5]:
#Para poder evitar el overfitting, voy a a√±adir la clase earlystopping en el momento que se observe
#que la p√©rdida se incrementa en dos epoch
from transformers import EarlyStoppingCallback
early_stop=EarlyStoppingCallback(early_stopping_patience=2)

In [6]:
from transformers import TrainingArguments
from transformers import DataCollatorWithPadding
from transformers import AdamW
# para controlar las m√©tricas de evaluaci√≥n durante el fine-tuning
# vamos a a√±adir que elija el mejor modelo al final, usamos load_best_model_at_end que coger√° eval_loss para evaluar
# para que se fije en el valor de loss como la mejor m√©trica, hay que poner greater_is_better a false.
#vamos a poner el n√∫mero de epoch a 10 y el del batch a 8

training_args = TrainingArguments(output_dir="BERT-mULT-t-MMG",
                                  num_train_epochs=10,
                                  per_device_train_batch_size=8,
                                  per_device_eval_batch_size=8,
                                 load_best_model_at_end=True,
                                 greater_is_better=False,
                                 evaluation_strategy="epoch",
                                 save_strategy="epoch",
                                )
#Para el optimizador, tengo que cargarlo en Trainer, as√≠ que lo creo y a√±ado el learning rate
optimizer=AdamW(model.parameters(), lr=5e-5)

#a√±ado el data Collator, que en este caso va a ser parte del trainer.
#este es el indicado espec√≠ficamente para tareas de clasificaci√≥n de texto, agrupa y preprocesa
#para que todos los ejemplos de entrada en lotes tengan la misma longitud adem√°s del tokenizdor
#agrupaci√≥n en lotes y creaci√≥n de mapas de atenci√≥n.
#usando la funci√≥n .map, no es estrictamente necesario pero as√≠ se combinan las caracter√≠sticas
#adicionales del texto antes de pasarle el datacollator.
data_collator = DataCollatorWithPadding(tokenizer)



## M√©tricas

El Trainer no eval√∫a autom√°tiamentee el rendimiento, hay que pasarle una funci√≥n para calcular y hacer un reporte de las m√©tricas. En Datasets hay una funci√≥n, accuracy, que se puede cargar con load_metric. 
Antes hay que instalar scikit-learn

In [7]:
pip install scikit-learn

Note: you may need to restart the kernel to use updated packages.


In [8]:
import numpy as np
from datasets import load_metric

metric = load_metric("accuracy")

  metric = load_metric("accuracy")


Se define la funci√≥n compute_metrics para calcular el accuracy de las predicciones hechas. Antes de pasar las predicciones a compute, hay que convertir las predicciones a logits (los modelos de Transformers devuelven logits).

In [9]:
def compute_metrics(eval_pred):
    logits, labels = eval_pred
    predictions = np.argmax(logits, axis=-1)
    return metric.compute(predictions=predictions, references=labels)

## Trainer

Ahora es el momento de crear el objeto Trainer con el modelo, argumentos de entrenamiento, datasets de entrenamiento y de prueba, y funci√≥n de evaluaci√≥n:

In [11]:
from transformers import Trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset,
    data_collator=data_collator,
    optimizers=(optimizer, None),
    compute_metrics=compute_metrics,
    callbacks=[early_stop],
)

Y se aplica fine-tunning con train

In [12]:
trainer.train()

You're using a BertTokenizerFast tokenizer. Please note that with a fast tokenizer, using the `__call__` method is faster than using a method to encode the text followed by a call to the `pad` method to get a padded encoding.


Epoch,Training Loss,Validation Loss,Accuracy
1,No log,0.720169,0.545455
2,No log,0.585052,0.651515
3,No log,0.745457,0.742424
4,No log,0.674149,0.69697


TrainOutput(global_step=136, training_loss=0.5572038538315717, metrics={'train_runtime': 186.6491, 'train_samples_per_second': 14.358, 'train_steps_per_second': 1.822, 'total_flos': 282055051345920.0, 'train_loss': 0.5572038538315717, 'epoch': 4.0})

Imprimo el loss y el accuracy tanto del conjunto de train como el conjunto de test

In [13]:
#creo una funci√≥n para imprimir los resultados de una form√° m√°s visual
def print_results(title, results):
    print(title)
    for key, value in results.items():
        print(f"{key}. {value}")
        
train_result = trainer.evaluate(train_dataset)
print_results("Resultados del conjunto de train",train_result)
eval_result = trainer.evaluate(eval_dataset)
print_results("Resultados del conjunto de test",eval_result)



Resultados del conjunto de train
eval_loss. 0.44578275084495544
eval_accuracy. 0.8246268656716418
eval_runtime. 9.9218
eval_samples_per_second. 27.011
eval_steps_per_second. 3.427
epoch. 4.0
Resultados del conjunto de test
eval_loss. 0.5850518345832825
eval_accuracy. 0.6515151515151515
eval_runtime. 2.4444
eval_samples_per_second. 27.0
eval_steps_per_second. 3.682
epoch. 4.0


# Guardando el modelo

Para Guardarlo, utilizamos esl m√©todo save_model

In [14]:
trainer.save_model()

In [15]:
trainer.create_model_card()