Antho24
/

VERCINGETORIX

Reinforcement Learning

Not-For-All-Audiences

text-generation-inference

Model card Files Files and versions

VERCINGETORIX / README.md

Antho24's picture

Update README.md

4ccae8a verified 5 months ago

|

history blame contribute delete

545 Bytes

	---
	license: mit
	datasets:
	- nvidia/OpenCodeReasoning
	- nvidia/OpenMathReasoning
	- nvidia/Llama-Nemotron-Post-Training-Dataset
	language:
	- fr
	metrics:
	- bleu
	base_model:
	- meta-llama/Llama-4-Scout-17B-16E-Instruct
	- deepseek-ai/DeepSeek-V3-0324
	- Qwen/Qwen2.5-Omni-7B
	- agentica-org/DeepCoder-14B-Preview
	new_version: deepseek-ai/DeepSeek-Prover-V2-671B
	pipeline_tag: reinforcement-learning
	library_name: adapter-transformers
	tags:
	- not-for-all-audiences
	- chemistry
	- biology
	- music
	- climate
	- medical
	- text-generation-inference
	- merge
	---