Upload folder using huggingface_hub

ce2c393 verified 23 days ago

16 kB

	2025-08-30 01:43:03 - pico-train - INFO - Step 32000 -- 📊 Evaluation Results
	2025-08-30 01:43:03 - pico-train - INFO - └── paloma: 2.977755235898109e+26
	2025-08-30 01:43:05 - pico-train - INFO - ==================================================
	2025-08-30 01:43:05 - pico-train - INFO - ✨ Training Configuration
	2025-08-30 01:43:05 - pico-train - INFO - ==================================================
	2025-08-30 01:43:05 - pico-train - INFO - ╭─────────────────────────────────────────────────────╮
	2025-08-30 01:43:05 - pico-train - INFO - │ checkpointing: │
	2025-08-30 01:43:05 - pico-train - INFO - │ checkpoints_dir: checkpoints │
	2025-08-30 01:43:05 - pico-train - INFO - │ evaluation: │
	2025-08-30 01:43:05 - pico-train - INFO - │ eval_results_dir: eval_results │
	2025-08-30 01:43:05 - pico-train - INFO - │ fabric_checkpoint_dir: fabric_state │
	2025-08-30 01:43:05 - pico-train - INFO - │ fabric_checkpoint_filename: checkpoint.pt │
	2025-08-30 01:43:05 - pico-train - INFO - │ hf_checkpoint: │
	2025-08-30 01:43:05 - pico-train - INFO - │ collection_slug: null │
	2025-08-30 01:43:05 - pico-train - INFO - │ repo_id: ThomasTheMaker/pico-decoder-tiny │
	2025-08-30 01:43:05 - pico-train - INFO - │ learning_dynamics: │
	2025-08-30 01:43:05 - pico-train - INFO - │ batch_size: 1 │
	2025-08-30 01:43:05 - pico-train - INFO - │ eval_data: null │
	2025-08-30 01:43:05 - pico-train - INFO - │ layer_suffixes: │
	2025-08-30 01:43:05 - pico-train - INFO - │ - attention.v_proj │
	2025-08-30 01:43:05 - pico-train - INFO - │ - attention.o_proj │
	2025-08-30 01:43:05 - pico-train - INFO - │ - swiglu.w_2 │
	2025-08-30 01:43:05 - pico-train - INFO - │ sequence_idx: -1 │
	2025-08-30 01:43:05 - pico-train - INFO - │ learning_dynamics_dir: learning_dynamics │
	2025-08-30 01:43:05 - pico-train - INFO - │ logs_dir: logs │
	2025-08-30 01:43:05 - pico-train - INFO - │ run_name: pico-decoder-tiny-dolma5M-v1 │
	2025-08-30 01:43:05 - pico-train - INFO - │ runs_dir: runs │
	2025-08-30 01:43:05 - pico-train - INFO - │ save_every_n_steps: 500 │
	2025-08-30 01:43:05 - pico-train - INFO - │ save_to_hf: true │
	2025-08-30 01:43:05 - pico-train - INFO - │ training: │
	2025-08-30 01:43:05 - pico-train - INFO - │ auto_resume: true │
	2025-08-30 01:43:05 - pico-train - INFO - │ data: │
	2025-08-30 01:43:05 - pico-train - INFO - │ dataloader: │
	2025-08-30 01:43:05 - pico-train - INFO - │ batch_size: 4 │
	2025-08-30 01:43:05 - pico-train - INFO - │ dataset: │
	2025-08-30 01:43:05 - pico-train - INFO - │ name: ThomasTheMaker/pretokenized-dolma-5M │
	2025-08-30 01:43:05 - pico-train - INFO - │ tokenizer: │
	2025-08-30 01:43:05 - pico-train - INFO - │ name: allenai/OLMo-7B-0724-hf │
	2025-08-30 01:43:05 - pico-train - INFO - │ vocab_size: 50304 │
	2025-08-30 01:43:05 - pico-train - INFO - │ evaluation: │
	2025-08-30 01:43:05 - pico-train - INFO - │ metrics: │
	2025-08-30 01:43:05 - pico-train - INFO - │ - paloma │
	2025-08-30 01:43:05 - pico-train - INFO - │ paloma: │
	2025-08-30 01:43:05 - pico-train - INFO - │ batch_size: 1 │
	2025-08-30 01:43:05 - pico-train - INFO - │ dataset_name: pico-lm/pretokenized-paloma-tinsy │
	2025-08-30 01:43:05 - pico-train - INFO - │ dataset_split: val │
	2025-08-30 01:43:05 - pico-train - INFO - │ max_length: 2048 │
	2025-08-30 01:43:05 - pico-train - INFO - │ model: │
	2025-08-30 01:43:05 - pico-train - INFO - │ activation_hidden_dim: 384 │
	2025-08-30 01:43:05 - pico-train - INFO - │ attention_n_heads: 12 │
	2025-08-30 01:43:05 - pico-train - INFO - │ attention_n_kv_heads: 4 │
	2025-08-30 01:43:05 - pico-train - INFO - │ batch_size: 1024 │
	2025-08-30 01:43:05 - pico-train - INFO - │ d_model: 96 │
	2025-08-30 01:43:05 - pico-train - INFO - │ max_seq_len: 2048 │
	2025-08-30 01:43:05 - pico-train - INFO - │ model_type: pico_decoder │
	2025-08-30 01:43:05 - pico-train - INFO - │ n_layers: 12 │
	2025-08-30 01:43:05 - pico-train - INFO - │ norm_eps: 1.0e-06 │
	2025-08-30 01:43:05 - pico-train - INFO - │ position_emb_theta: 10000.0 │
	2025-08-30 01:43:05 - pico-train - INFO - │ vocab_size: 50304 │
	2025-08-30 01:43:05 - pico-train - INFO - │ monitoring: │
	2025-08-30 01:43:05 - pico-train - INFO - │ logging: │
	2025-08-30 01:43:05 - pico-train - INFO - │ log_every_n_steps: 25 │
	2025-08-30 01:43:05 - pico-train - INFO - │ log_level: INFO │
	2025-08-30 01:43:05 - pico-train - INFO - │ save_to_wandb: false │
	2025-08-30 01:43:05 - pico-train - INFO - │ wandb: │
	2025-08-30 01:43:05 - pico-train - INFO - │ entity: boymyc │
	2025-08-30 01:43:05 - pico-train - INFO - │ project: pico-decoder-tiny │
	2025-08-30 01:43:05 - pico-train - INFO - │ training: │
	2025-08-30 01:43:05 - pico-train - INFO - │ fabric: │
	2025-08-30 01:43:05 - pico-train - INFO - │ accelerator: cuda │
	2025-08-30 01:43:05 - pico-train - INFO - │ num_devices: 1 │
	2025-08-30 01:43:05 - pico-train - INFO - │ num_nodes: 1 │
	2025-08-30 01:43:05 - pico-train - INFO - │ precision: bf16-mixed │
	2025-08-30 01:43:05 - pico-train - INFO - │ max_steps: 20000 │
	2025-08-30 01:43:05 - pico-train - INFO - │ optimization: │
	2025-08-30 01:43:05 - pico-train - INFO - │ gradient_accumulation_steps: 4 │
	2025-08-30 01:43:05 - pico-train - INFO - │ lr: 5.0e-05 │
	2025-08-30 01:43:05 - pico-train - INFO - │ lr_scheduler: cosine │
	2025-08-30 01:43:05 - pico-train - INFO - │ lr_warmup_steps: 8000 │
	2025-08-30 01:43:05 - pico-train - INFO - │ optimizer: adamw │
	2025-08-30 01:43:05 - pico-train - INFO - │ │
	2025-08-30 01:43:05 - pico-train - INFO - ╰─────────────────────────────────────────────────────╯
	2025-08-30 01:43:05 - pico-train - INFO - ==================================================
	2025-08-30 01:43:05 - pico-train - INFO - ⛭ Runtime Summary:
	2025-08-30 01:43:05 - pico-train - INFO - ==================================================
	2025-08-30 01:43:05 - pico-train - INFO - Starting from step: 32000
	2025-08-30 01:43:05 - pico-train - INFO - Model Setup:
	2025-08-30 01:43:05 - pico-train - INFO - └─ Total Parameters: 11,282,784
	2025-08-30 01:43:05 - pico-train - INFO - └─ Trainable Parameters: 11,282,784
	2025-08-30 01:43:05 - pico-train - INFO - Distributed Setup:
	2025-08-30 01:43:05 - pico-train - INFO - └─ Number of Devices: 1
	2025-08-30 01:43:05 - pico-train - INFO - └─ Device Type: NVIDIA GeForce RTX 5090
	2025-08-30 01:43:05 - pico-train - INFO - └─ Available Memory: 33.68 GB
	2025-08-30 01:43:05 - pico-train - INFO - Software Setup:
	2025-08-30 01:43:05 - pico-train - INFO - └─ Python Version: 3.10.12
	2025-08-30 01:43:05 - pico-train - INFO - └─ PyTorch Version: 2.8.0+cu128
	2025-08-30 01:43:05 - pico-train - INFO - └─ CUDA Version: 12.8
	2025-08-30 01:43:05 - pico-train - INFO - └─ Operating System: Linux 6.8.0-63-generic
	2025-08-30 01:43:05 - pico-train - INFO - Batch Size Configuration:
	2025-08-30 01:43:05 - pico-train - INFO - └─ Global Batch Size: 4
	2025-08-30 01:43:05 - pico-train - INFO - └─ Per Device Batch Size: 1
	2025-08-30 01:43:05 - pico-train - INFO - └─ Gradient Accumulation Steps: 4
	2025-08-30 01:43:05 - pico-train - INFO - ==================================================
	2025-08-30 01:43:06 - pico-train - INFO - Step 32000 -- 🔄 Training Metrics
	2025-08-30 01:43:06 - pico-train - INFO - ├── Loss: 6.3376
	2025-08-30 01:43:06 - pico-train - INFO - ├── Learning Rate: 7.32e-06
	2025-08-30 01:43:06 - pico-train - INFO - └── Inf/NaN count: 0
	2025-08-30 01:43:06 - pico-train - INFO - Step 32000 -- 📈 Saving Learning Dynamics
	2025-08-30 01:43:20 - pico-train - INFO - Step 32025 -- 🔄 Training Metrics
	2025-08-30 01:43:20 - pico-train - INFO - ├── Loss: 6.1999
	2025-08-30 01:43:20 - pico-train - INFO - ├── Learning Rate: 7.28e-06
	2025-08-30 01:43:20 - pico-train - INFO - └── Inf/NaN count: 0
	2025-08-30 01:43:33 - pico-train - INFO - Step 32050 -- 🔄 Training Metrics
	2025-08-30 01:43:33 - pico-train - INFO - ├── Loss: 6.1488
	2025-08-30 01:43:33 - pico-train - INFO - ├── Learning Rate: 7.24e-06
	2025-08-30 01:43:33 - pico-train - INFO - └── Inf/NaN count: 0
	2025-08-30 01:43:45 - pico-train - INFO - Step 32075 -- 🔄 Training Metrics
	2025-08-30 01:43:45 - pico-train - INFO - ├── Loss: 6.0460
	2025-08-30 01:43:45 - pico-train - INFO - ├── Learning Rate: 7.19e-06
	2025-08-30 01:43:45 - pico-train - INFO - └── Inf/NaN count: 0
	2025-08-30 01:43:58 - pico-train - INFO - Step 32100 -- 🔄 Training Metrics
	2025-08-30 01:43:58 - pico-train - INFO - ├── Loss: 6.1627
	2025-08-30 01:43:58 - pico-train - INFO - ├── Learning Rate: 7.15e-06
	2025-08-30 01:43:58 - pico-train - INFO - └── Inf/NaN count: 0
	2025-08-30 01:44:11 - pico-train - INFO - Step 32125 -- 🔄 Training Metrics
	2025-08-30 01:44:11 - pico-train - INFO - ├── Loss: 6.2085
	2025-08-30 01:44:11 - pico-train - INFO - ├── Learning Rate: 7.11e-06
	2025-08-30 01:44:11 - pico-train - INFO - └── Inf/NaN count: 0
	2025-08-30 01:44:23 - pico-train - INFO - Step 32150 -- 🔄 Training Metrics
	2025-08-30 01:44:23 - pico-train - INFO - ├── Loss: 6.1659
	2025-08-30 01:44:23 - pico-train - INFO - ├── Learning Rate: 7.06e-06
	2025-08-30 01:44:23 - pico-train - INFO - └── Inf/NaN count: 0
	2025-08-30 01:44:36 - pico-train - INFO - Step 32175 -- 🔄 Training Metrics
	2025-08-30 01:44:36 - pico-train - INFO - ├── Loss: 6.1719
	2025-08-30 01:44:36 - pico-train - INFO - ├── Learning Rate: 7.02e-06
	2025-08-30 01:44:36 - pico-train - INFO - └── Inf/NaN count: 0
	2025-08-30 01:44:48 - pico-train - INFO - Step 32200 -- 🔄 Training Metrics
	2025-08-30 01:44:48 - pico-train - INFO - ├── Loss: 6.2081
	2025-08-30 01:44:48 - pico-train - INFO - ├── Learning Rate: 6.98e-06
	2025-08-30 01:44:48 - pico-train - INFO - └── Inf/NaN count: 0
	2025-08-30 01:45:01 - pico-train - INFO - Step 32225 -- 🔄 Training Metrics
	2025-08-30 01:45:01 - pico-train - INFO - ├── Loss: 6.1955
	2025-08-30 01:45:01 - pico-train - INFO - ├── Learning Rate: 6.94e-06
	2025-08-30 01:45:01 - pico-train - INFO - └── Inf/NaN count: 0
	2025-08-30 01:45:14 - pico-train - INFO - Step 32250 -- 🔄 Training Metrics
	2025-08-30 01:45:14 - pico-train - INFO - ├── Loss: 6.1139
	2025-08-30 01:45:14 - pico-train - INFO - ├── Learning Rate: 6.89e-06
	2025-08-30 01:45:14 - pico-train - INFO - └── Inf/NaN count: 0
	2025-08-30 01:45:26 - pico-train - INFO - Step 32275 -- 🔄 Training Metrics
	2025-08-30 01:45:26 - pico-train - INFO - ├── Loss: 6.1075
	2025-08-30 01:45:26 - pico-train - INFO - ├── Learning Rate: 6.85e-06
	2025-08-30 01:45:26 - pico-train - INFO - └── Inf/NaN count: 0
	2025-08-30 01:45:39 - pico-train - INFO - Step 32300 -- 🔄 Training Metrics
	2025-08-30 01:45:39 - pico-train - INFO - ├── Loss: 6.0814
	2025-08-30 01:45:39 - pico-train - INFO - ├── Learning Rate: 6.81e-06
	2025-08-30 01:45:39 - pico-train - INFO - └── Inf/NaN count: 0
	2025-08-30 01:45:51 - pico-train - INFO - Step 32325 -- 🔄 Training Metrics
	2025-08-30 01:45:51 - pico-train - INFO - ├── Loss: 6.0880
	2025-08-30 01:45:51 - pico-train - INFO - ├── Learning Rate: 6.77e-06
	2025-08-30 01:45:51 - pico-train - INFO - └── Inf/NaN count: 0
	2025-08-30 01:46:04 - pico-train - INFO - Step 32350 -- 🔄 Training Metrics
	2025-08-30 01:46:04 - pico-train - INFO - ├── Loss: 6.1997
	2025-08-30 01:46:04 - pico-train - INFO - ├── Learning Rate: 6.73e-06
	2025-08-30 01:46:04 - pico-train - INFO - └── Inf/NaN count: 0
	2025-08-30 01:46:16 - pico-train - INFO - Step 32375 -- 🔄 Training Metrics
	2025-08-30 01:46:16 - pico-train - INFO - ├── Loss: 6.1376
	2025-08-30 01:46:16 - pico-train - INFO - ├── Learning Rate: 6.68e-06
	2025-08-30 01:46:16 - pico-train - INFO - └── Inf/NaN count: 0
	2025-08-30 01:46:29 - pico-train - INFO - Step 32400 -- 🔄 Training Metrics
	2025-08-30 01:46:29 - pico-train - INFO - ├── Loss: 6.1077
	2025-08-30 01:46:29 - pico-train - INFO - ├── Learning Rate: 6.64e-06
	2025-08-30 01:46:29 - pico-train - INFO - └── Inf/NaN count: 0
	2025-08-30 01:46:42 - pico-train - INFO - Step 32425 -- 🔄 Training Metrics
	2025-08-30 01:46:42 - pico-train - INFO - ├── Loss: 6.2641
	2025-08-30 01:46:42 - pico-train - INFO - ├── Learning Rate: 6.60e-06
	2025-08-30 01:46:42 - pico-train - INFO - └── Inf/NaN count: 0
	2025-08-30 01:46:54 - pico-train - INFO - Step 32450 -- 🔄 Training Metrics
	2025-08-30 01:46:54 - pico-train - INFO - ├── Loss: 6.1020
	2025-08-30 01:46:54 - pico-train - INFO - ├── Learning Rate: 6.56e-06
	2025-08-30 01:46:54 - pico-train - INFO - └── Inf/NaN count: 0
	2025-08-30 01:47:07 - pico-train - INFO - Step 32475 -- 🔄 Training Metrics
	2025-08-30 01:47:07 - pico-train - INFO - ├── Loss: 6.2170
	2025-08-30 01:47:07 - pico-train - INFO - ├── Learning Rate: 6.52e-06
	2025-08-30 01:47:07 - pico-train - INFO - └── Inf/NaN count: 0
	2025-08-30 01:47:19 - pico-train - INFO - Step 32500 -- 💾 Saving Checkpoint