vonexel
/

smog

kolmogorov-arnold-networks

motion-synthesis

Model card Files Files and versions Metrics Training metrics Community

smog / src /utils /action_classifier.py

vonexel's picture

add: src

fe64bad verified 5 days ago

history blame contribute delete

3.5 kB

	import sys
	sys.path.append('.')
	import os
	import torch
	from src.utils.get_model_and_data import get_model_and_data
	from src.parser.visualize import parser
	from src.utils.misc import load_model_wo_clip
	from tqdm import tqdm
	from torch.utils.data import DataLoader
	from src.utils.tensors import collate
	import clip
	from src.visualize.visualize import get_gpu_device
	from src.utils.action_label_to_idx import action_label_to_idx

	if __name__ == '__main__':
	parameters, folder, checkpointname, epoch = parser(checkpoint=True)
	gpu_device = get_gpu_device()
	parameters["device"] = f"cuda:{gpu_device}"
	data_split = 'vald' # Hardcoded
	parameters['use_action_cat_as_text_labels'] = True
	parameters['only_60_classes'] = True

	TOP_K_METRIC = 5

	model, datasets = get_model_and_data(parameters, split=data_split)
	dataset = datasets["train"]

	print("Restore weights..")
	checkpointpath = os.path.join(folder, checkpointname)
	state_dict = torch.load(checkpointpath, map_location=parameters["device"])
	load_model_wo_clip(model, state_dict)
	model.eval()

	iterator = DataLoader(dataset, batch_size=parameters["batch_size"],
	shuffle=False, num_workers=8, collate_fn=collate)

	action_text_labels = list(action_label_to_idx.keys())
	action_text_labels.sort(key=lambda x: action_label_to_idx[x])

	texts = clip.tokenize(action_text_labels[:60]).to(model.device)
	classes_text_emb = model.clip_model.encode_text(texts).float()

	correct_preds_top_5, correct_preds_top_1 = 0,0
	total_samples = 0
	with torch.no_grad():
	for i, batch in tqdm(enumerate(iterator), desc="Computing batch"):
	if isinstance(batch['x'], list):
	continue
	for key in batch.keys():
	if torch.is_tensor(batch[key]):
	batch[key] = batch[key].to(parameters['device'])
	batch = model(batch)
	texts = clip.tokenize(batch['clip_text']).to(model.device)
	batch['clip_text_embed'] = model.clip_model.encode_text(texts).float()
	labels = list(map(lambda x: [action_label_to_idx[cat] for cat in x], batch['all_categories']))
	classes_text_emb_norm = classes_text_emb / classes_text_emb.norm(dim=-1, keepdim=True)
	motion_features_norm = batch['z'] / batch['z'].norm(dim=-1, keepdim=True)
	scores = motion_features_norm @ classes_text_emb_norm.t()
	similarity = (100.0 * motion_features_norm @ classes_text_emb_norm.t()).softmax(dim=-1)

	total_samples += similarity.shape[0]
	for i in range(similarity.shape[0]):
	values, indices = similarity[i].topk(5)

	# TOP-5 CHECK
	if any([gt_cat_idx in indices for gt_cat_idx in labels[i]]):
	correct_preds_top_5 += 1

	# TOP-1 CHECK
	values = values[:1]
	indices = indices[:1]
	if any([gt_cat_idx in indices for gt_cat_idx in labels[i]]):
	correct_preds_top_1 += 1

	# print(f"Current Top-5 Acc. : {100 * correct_preds_top_5 / total_samples:.2f}%")

	print(f"Top-5 Acc. : {100 * correct_preds_top_5 / total_samples:.2f}% ({correct_preds_top_5}/{total_samples})")
	print(f"Top-1 Acc. : {100 * correct_preds_top_1 / total_samples:.2f}% ({correct_preds_top_1}/{total_samples})")