Spaces:

cksleigen
/

ScriptFromChat

Sleeping

App Files Files Community

ScriptFromChat / code.py

cksleigen

Create code.py

b30b7da verified 2 months ago

raw

history blame contribute delete

6.56 kB

	# code.py
	import re
	import torch
	import pandas as pd
	import anthropic
	import os
	from dotenv import load_dotenv
	from config import model, tokenizer, label_mapping, big5_dimensions, emotion_big5_priors

	# .env 파일 로드
	load_dotenv()

	def parse_speaker_text(text):
	"""대화 텍스트를 파싱하여 화자별 발화를 추출하는 함수"""
	speaker_dict = {}
	lines = text.strip().split('\n')

	print(f"📝 입력된 총 줄 수: {len(lines)}") # 디버그용

	for i, line in enumerate(lines):
	line = line.strip() # 앞뒤 공백 제거
	if not line: # 빈 줄 건너뛰기
	continue

	print(f"🔍 처리 중인 줄 {i+1}: '{line}'") # 디버그용

	# 다양한 패턴 지원
	patterns = [
	r'^(\d+)\s:\s(.+)', # "1: 안녕하세요"
	r'^(\d+)\s\.\s(.+)', # "1. 안녕하세요"
	r'^(\d+)\s+(.+)', # "1 안녕하세요"
	r'^화자\s(\d+)\s:\s*(.+)', # "화자1: 안녕하세요"
	]

	matched = False
	for pattern in patterns:
	match = re.match(pattern, line)
	if match:
	speaker_id = int(match.group(1))
	utterance = match.group(2).strip()

	if speaker_id not in speaker_dict:
	speaker_dict[speaker_id] = []

	speaker_dict[speaker_id].append(utterance)
	print(f"✅ 매칭 성공: 화자{speaker_id} -> '{utterance}'") # 디버그용
	matched = True
	break

	if not matched:
	print(f"❌ 매칭 실패: '{line}'") # 디버그용

	print(f"🎯 최종 결과: {len(speaker_dict)}명의 화자 발견") # 디버그용
	for speaker_id, utterances in speaker_dict.items():
	print(f" 화자{speaker_id}: {len(utterances)}개 발화")

	return speaker_dict

	def analyze_emotions(utterances, model, tokenizer, label_mapping):
	"""발화 리스트에 대해 감정 분석을 수행하는 함수"""
	results = {}

	for idx, text in enumerate(utterances):
	inputs = tokenizer(text, return_tensors="pt")
	with torch.no_grad():
	outputs = model(**inputs)
	emotions = torch.softmax(outputs.logits, dim=-1)

	values = emotions.cpu().detach().numpy()
	df = pd.DataFrame(values, columns=[label_mapping[i] for i in range(60)])
	df = df.T.reset_index()
	df.columns = ['Emotion', 'Probability']
	df = df.sort_values(by='Probability', ascending=False).head(5)

	results[f"utterance_{idx+1}"] = df

	# 열 방향으로 병합
	merged_df = None
	for key, df in results.items():
	df = df.set_index("Emotion")
	df.columns = [key]
	if merged_df is None:
	merged_df = df
	else:
	merged_df = merged_df.join(df, how='outer')

	return merged_df

	def calculate_probabilistic_mapping(merged_df, emotion_big5_priors):
	"""확률적 매핑을 통해 각 발화별 Big5 성향 점수를 계산하는 함수"""
	big5_results = {dim: [] for dim in big5_dimensions}
	utterance_names = []

	for utterance in merged_df.columns:
	utterance_names.append(utterance)
	observed_emotions = merged_df[utterance].dropna()

	if len(observed_emotions) == 0:
	for dim in big5_dimensions:
	big5_results[dim].append(0.0)
	continue

	big5_scores_utterance = {}
	total_weight = sum(observed_emotions.values)

	for dim in big5_dimensions:
	weighted_sum = 0.0
	for emotion, intensity in observed_emotions.items():
	if emotion in emotion_big5_priors:
	weighted_sum += emotion_big5_priors[emotion][dim] * intensity

	big5_scores_utterance[dim] = weighted_sum / total_weight if total_weight > 0 else 0.0
	big5_results[dim].append(big5_scores_utterance[dim])

	big5_df = pd.DataFrame(big5_results, index=utterance_names)
	return big5_df

	def analyze_emotion_patterns(big5_df):
	"""감정 패턴 분석"""
	display_df = big5_df.round(3)
	return display_df

	def run_probabilistic_mapping(merged_df):
	"""확률적 매핑 전체 프로세스 실행"""
	big5_df = calculate_probabilistic_mapping(merged_df, emotion_big5_priors)
	result_summary = analyze_emotion_patterns(big5_df)
	return big5_df, result_summary

	def calculate_big5_averages(df):
	"""Big5 성격특성 데이터프레임을 입력받아 각 특성의 평균을 계산하는 함수"""
	averages = {}
	for column in df.columns:
	averages[column] = df[column].mean()
	return averages

	def analyze_all_speakers(speaker_dict, model, tokenizer, label_mapping):
	"""모든 화자에 대해 Big5 분석을 수행하는 함수"""
	all_results = {}

	for speaker_id, utterances in speaker_dict.items():
	emotion_results = analyze_emotions(utterances, model, tokenizer, label_mapping)
	big5_scores, summary = run_probabilistic_mapping(emotion_results)
	big5_avg = calculate_big5_averages(big5_scores)
	all_results[speaker_id] = big5_avg

	return all_results

	def stream_response(user_content: str, api_key: str):
	"""Anthropic Claude API를 사용하여 시나리오를 생성하는 함수"""
	if not api_key or not api_key.strip():
	return "❌ API 키를 입력해주세요."

	if not api_key.startswith('sk-ant-'):
	return "❌ 올바른 Anthropic API 키 형식이 아닙니다. 'sk-ant-'로 시작해야 합니다."

	try:
	client = anthropic.Anthropic(api_key=api_key.strip())

	stream = client.messages.create(
	model="claude-sonnet-4-20250514",
	max_tokens=3000,
	system="당신은 몰입감 넘치는 드라마틱한 시나리오를 만드는 전문 작가입니다. 심리학적 성격 분석을 바탕으로 인물 간의 갈등과 화학작용이 생생하게 느껴지는 장면을 창조하세요.",
	messages=[
	{"role": "user", "content": user_content}
	],
	stream=True
	)

	result = ""
	for event in stream:
	if event.type == "content_block_delta":
	result += event.delta.text

	return result

	except Exception as e:
	return f"❌ API 호출 중 오류가 발생했습니다: {str(e)}"