Spaces:

whitecircle-ai
/

circle-guard-bench

Running

App Files Files Community

circle-guard-bench / logs /guardbench_20250331_214118_0da0491f.log

apsys

works

b1cb07d 4 months ago

raw

history blame

5.8 kB

	2025-03-31 21:41:19,264 - __main__ - INFO - Initializing leaderboard data...
	2025-03-31 21:41:19,411 - __main__ - INFO - Loaded leaderboard with 1 entries
	2025-03-31 21:41:20,492 - apscheduler.scheduler - INFO - Adding job tentatively -- it will be properly scheduled when the scheduler starts
	2025-03-31 21:41:20,492 - apscheduler.scheduler - INFO - Added job "<lambda>" to job store "default"
	2025-03-31 21:41:20,492 - apscheduler.scheduler - INFO - Scheduler started
	2025-03-31 21:44:25,074 - __main__ - INFO - Received submission for model gpt-4o-mini (CoT): /tmp/gradio/35fc6ab7ba3af1e1b210ed2851ec70f52004490c3534b64bfd8e4830f5cccea0/gpt-4o-mini CoT.jsonl
	2025-03-31 21:44:25,100 - guardbench.context - INFO - Loading dataset from: whitecircle-ai/guardbench_dataset_1k_public
	2025-03-31 21:44:26,183 - guardbench.context - INFO - Successfully loaded dataset with 980 examples
	2025-03-31 21:44:26,183 - guardbench.evaluator - INFO - Starting evaluation for model: gpt-4o-mini_(CoT)
	2025-03-31 21:44:26,183 - guardbench.evaluator - INFO - Using cached results for model: gpt-4o-mini_(CoT)
	2025-03-31 21:44:26,214 - guardbench.evaluator - INFO - Processing cached results for category: Manipulation, Deception, and Misinformation
	2025-03-31 21:44:26,218 - guardbench.evaluator - INFO - Length Manipulation, Deception, and Misinformation - 30
	2025-03-31 21:44:26,486 - guardbench.evaluator - INFO - Processing cached results for category: Financial Fraud and Unethical Business
	2025-03-31 21:44:26,490 - guardbench.evaluator - INFO - Length Financial Fraud and Unethical Business - 30
	2025-03-31 21:44:26,594 - guardbench.evaluator - INFO - Processing cached results for category: Criminal, Violent, and Terrorist Activity
	2025-03-31 21:44:26,597 - guardbench.evaluator - INFO - Length Criminal, Violent, and Terrorist Activity - 30
	2025-03-31 21:44:26,700 - guardbench.evaluator - INFO - Processing cached results for category: Cybercrime, Hacking, and Digital Exploits
	2025-03-31 21:44:26,703 - guardbench.evaluator - INFO - Length Cybercrime, Hacking, and Digital Exploits - 30
	2025-03-31 21:44:26,806 - guardbench.evaluator - INFO - Processing cached results for category: Academic Dishonesty and Cheating
	2025-03-31 21:44:26,810 - guardbench.evaluator - INFO - Length Academic Dishonesty and Cheating - 29
	2025-03-31 21:44:26,908 - guardbench.evaluator - INFO - Processing cached results for category: Animal Cruelty and Exploitation
	2025-03-31 21:44:26,912 - guardbench.evaluator - INFO - Length Animal Cruelty and Exploitation - 30
	2025-03-31 21:44:27,015 - guardbench.evaluator - INFO - Processing cached results for category: Environmental and Industrial Harm
	2025-03-31 21:44:27,018 - guardbench.evaluator - INFO - Length Environmental and Industrial Harm - 30
	2025-03-31 21:44:27,130 - guardbench.evaluator - INFO - Processing cached results for category: Self–Harm and Suicidal Ideation
	2025-03-31 21:44:27,134 - guardbench.evaluator - INFO - Length Self–Harm and Suicidal Ideation - 13
	2025-03-31 21:44:27,201 - guardbench.evaluator - INFO - Processing cached results for category: Child Exploitation and Abuse
	2025-03-31 21:44:27,205 - guardbench.evaluator - INFO - Length Child Exploitation and Abuse - 30
	2025-03-31 21:44:27,326 - guardbench.evaluator - INFO - Processing cached results for category: Safe Prompts
	2025-03-31 21:44:27,330 - guardbench.evaluator - INFO - Length Safe Prompts - 490
	2025-03-31 21:44:27,962 - guardbench.evaluator - INFO - Processing cached results for category: Weapon, Explosives, and Hazardous Materials
	2025-03-31 21:44:27,966 - guardbench.evaluator - INFO - Length Weapon, Explosives, and Hazardous Materials - 30
	2025-03-31 21:44:28,070 - guardbench.evaluator - INFO - Processing cached results for category: Labor Exploitation and Human Trafficking
	2025-03-31 21:44:28,074 - guardbench.evaluator - INFO - Length Labor Exploitation and Human Trafficking - 30
	2025-03-31 21:44:28,175 - guardbench.evaluator - INFO - Processing cached results for category: Drug– and Substance–Related Activities
	2025-03-31 21:44:28,179 - guardbench.evaluator - INFO - Length Drug– and Substance–Related Activities - 30
	2025-03-31 21:44:28,282 - guardbench.evaluator - INFO - Processing cached results for category: Sexual Content and Violence
	2025-03-31 21:44:28,286 - guardbench.evaluator - INFO - Length Sexual Content and Violence - 29
	2025-03-31 21:44:28,386 - guardbench.evaluator - INFO - Processing cached results for category: Hate Speech, Extremism, and Discrimination
	2025-03-31 21:44:28,390 - guardbench.evaluator - INFO - Length Hate Speech, Extremism, and Discrimination - 29
	2025-03-31 21:44:28,489 - guardbench.evaluator - INFO - Processing cached results for category: Political Corruption and Legal Evasion
	2025-03-31 21:44:28,493 - guardbench.evaluator - INFO - Length Political Corruption and Legal Evasion - 30
	2025-03-31 21:44:28,594 - guardbench.evaluator - INFO - Processing cached results for category: AI Manipulation and Jailbreaking
	2025-03-31 21:44:28,598 - guardbench.evaluator - INFO - Length AI Manipulation and Jailbreaking - 30
	2025-03-31 21:44:28,702 - guardbench.evaluator - INFO - Processing cached results for category: Creative Content Involving Illicit Themes
	2025-03-31 21:44:28,705 - guardbench.evaluator - INFO - Length Creative Content Involving Illicit Themes - 30
	2025-03-31 21:44:28,813 - guardbench.evaluator - INFO - Updated leaderboard for model: gpt-4o-mini_(CoT) from cached results
	2025-03-31 21:44:28,815 - guardbench.evaluator - INFO - Evaluation from cached results completed for model: gpt-4o-mini_(CoT)
	2025-03-31 21:44:30,083 - __main__ - INFO - Refreshing leaderboard data after submission for version v0...
	2025-03-31 21:44:30,284 - __main__ - INFO - Refreshed leaderboard data after submission