Real-Time-Text-to-Image-SDXL-Lightning

Paused

App Files Files Community

Real-Time-Text-to-Image-SDXL-Lightning / app.py

radames

prompt PromptWeighting

ad6ae44 over 1 year ago

raw

history blame contribute delete

7.02 kB

	import spaces
	from diffusers import (
	StableDiffusionXLPipeline,
	EulerDiscreteScheduler,
	UNet2DConditionModel,
	AutoencoderTiny,
	)
	import torch
	import os
	from huggingface_hub import hf_hub_download
	from compel import Compel, ReturnedEmbeddingsType
	from gradio_promptweighting import PromptWeighting


	from PIL import Image
	import gradio as gr
	import time
	from safetensors.torch import load_file
	import time
	import tempfile
	from pathlib import Path

	# Constants
	BASE = "stabilityai/stable-diffusion-xl-base-1.0"
	REPO = "ByteDance/SDXL-Lightning"
	# 1-step
	CHECKPOINT = "sdxl_lightning_2step_unet.safetensors"
	taesd_model = "madebyollin/taesdxl"


	SFAST_COMPILE = os.environ.get("SFAST_COMPILE", "0") == "1"
	SAFETY_CHECKER = os.environ.get("SAFETY_CHECKER", "0") == "1"
	USE_TAESD = os.environ.get("USE_TAESD", "0") == "1"

	# check if MPS is available OSX only M1/M2/M3 chips

	device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
	torch_device = device
	torch_dtype = torch.float16

	print(f"SAFETY_CHECKER: {SAFETY_CHECKER}")
	print(f"SFAST_COMPILE: {SFAST_COMPILE}")
	print(f"USE_TAESD: {USE_TAESD}")
	print(f"device: {device}")


	unet = UNet2DConditionModel.from_config(BASE, subfolder="unet").to(
	"cuda", torch.float16
	)
	unet.load_state_dict(load_file(hf_hub_download(REPO, CHECKPOINT), device="cuda"))
	pipe = StableDiffusionXLPipeline.from_pretrained(
	BASE, unet=unet, torch_dtype=torch.float16, variant="fp16", safety_checker=False
	).to("cuda")
	unet = unet.to(dtype=torch.float16)

	compel = Compel(
	tokenizer=[pipe.tokenizer, pipe.tokenizer_2],
	text_encoder=[pipe.text_encoder, pipe.text_encoder_2],
	returned_embeddings_type=ReturnedEmbeddingsType.PENULTIMATE_HIDDEN_STATES_NON_NORMALIZED,
	requires_pooled=[False, True],
	)


	if USE_TAESD:
	pipe.vae = AutoencoderTiny.from_pretrained(
	taesd_model, torch_dtype=torch_dtype, use_safetensors=True
	).to(device)


	# Ensure sampler uses "trailing" timesteps.
	pipe.scheduler = EulerDiscreteScheduler.from_config(
	pipe.scheduler.config, timestep_spacing="trailing"
	)
	pipe.set_progress_bar_config(disable=True)
	if SAFETY_CHECKER:
	from safety_checker import StableDiffusionSafetyChecker
	from transformers import CLIPFeatureExtractor

	safety_checker = StableDiffusionSafetyChecker.from_pretrained(
	"CompVis/stable-diffusion-safety-checker"
	).to(device)
	feature_extractor = CLIPFeatureExtractor.from_pretrained(
	"openai/clip-vit-base-patch32"
	)

	def check_nsfw_images(
	images: list[Image.Image],
	) -> tuple[list[Image.Image], list[bool]]:
	safety_checker_input = feature_extractor(images, return_tensors="pt").to(device)
	has_nsfw_concepts = safety_checker(
	images=[images],
	clip_input=safety_checker_input.pixel_values.to(torch_device),
	)

	return images, has_nsfw_concepts


	if SFAST_COMPILE:
	from sfast.compilers.diffusion_pipeline_compiler import compile, CompilationConfig

	# sfast compilation
	config = CompilationConfig.Default()
	try:
	import xformers

	config.enable_xformers = True
	except ImportError:
	print("xformers not installed, skip")
	try:
	import triton

	config.enable_triton = True
	except ImportError:
	print("Triton not installed, skip")
	# CUDA Graph is suggested for small batch sizes and small resolutions to reduce CPU overhead.
	# But it can increase the amount of GPU memory used.
	# For StableVideoDiffusionPipeline it is not needed.
	config.enable_cuda_graph = True

	pipe = compile(pipe, config)


	@spaces.GPU
	def predict(prompt, prompt_w, guidance_scale, seed=1231231):
	generator = torch.manual_seed(seed)
	last_time = time.time()
	prompt_w = " ".join(
	[f"({p['prompt']}){p['scale']}" for p in prompt_w if p["prompt"]]
	)

	conditioning, pooled = compel([prompt + " " + prompt_w, ""])

	results = pipe(
	prompt_embeds=conditioning[0:1],
	pooled_prompt_embeds=pooled[0:1],
	negative_prompt_embeds=conditioning[1:2],
	negative_pooled_prompt_embeds=pooled[1:2],
	generator=generator,
	num_inference_steps=2,
	guidance_scale=guidance_scale,
	# width=768,
	# height=768,
	output_type="pil",
	)
	print(f"Pipe took {time.time() - last_time} seconds")
	if SAFETY_CHECKER:
	images, has_nsfw_concepts = check_nsfw_images(results.images)
	if any(has_nsfw_concepts):
	gr.Warning("NSFW content detected.")
	return Image.new("RGB", (512, 512))
	image = results.images[0]
	with tempfile.NamedTemporaryFile(suffix=".jpg", delete=False) as tmpfile:
	image.save(tmpfile, "JPEG", quality=80, optimize=True, progressive=True)
	return Path(tmpfile.name)


	css = """
	#container{
	margin: 0 auto;
	max-width: 80rem;
	}
	#intro{
	max-width: 100%;
	margin: 0 auto;
	}
	.generating {
	display: none
	}
	"""
	with gr.Blocks(css=css) as demo:
	with gr.Column(elem_id="container"):
	gr.Markdown(
	"""
	# SDXL-Lightning- Text To Image 2-Steps
	Model: https://huggingface.co/ByteDance/SDXL-Lightning
	""",
	elem_id="intro",
	)
	with gr.Row():
	with gr.Column():
	with gr.Group():
	prompt = gr.Textbox(
	placeholder="Insert your prompt here:",
	max_lines=1,
	label="Prompt",
	)
	prompt_w = PromptWeighting(
	min=0,
	max=3,
	step=0.005,
	show_label=False,
	)

	with gr.Accordion("Advanced options", open=True):
	seed = gr.Slider(
	minimum=0,
	maximum=12013012031030,
	label="Seed",
	step=1,
	)
	guidance_scale = gr.Slider(
	minimum=0.0,
	maximum=20.0,
	label="Guidance scale",
	value=0.0,
	step=0.1,
	)
	generate_bt = gr.Button("Generate")
	with gr.Column():
	image = gr.Image(type="filepath")

	inputs = [
	prompt,
	prompt_w,
	guidance_scale,
	seed,
	]
	outputs = [image]

	gr.on(
	triggers=[
	prompt.input,
	prompt_w.input,
	generate_bt.click,
	guidance_scale.input,
	seed.input,
	],
	fn=predict,
	inputs=inputs,
	outputs=outputs,
	show_progress="hidden",
	show_api=False,
	trigger_mode="always_last",
	)

	demo.queue(api_open=False)
	demo.launch()