Spaces:

Steven10429
/

apply_lora_and_quantize

Running

App Files Files Community

Steven10429 commited on 9 days ago

Commit

3a806f2

1 Parent(s): 0805af2

1

Browse files

Files changed (2) hide show

app.py +31 -34
convert.log +0 -0

app.py CHANGED Viewed

@@ -19,16 +19,13 @@ log.setLevel(logging.INFO)
 log.addHandler(logging.StreamHandler())
 log.addHandler(logging.FileHandler("convert.log"))
-def log(msg):
-    """追加并打印日志信息"""
-    log.info(msg)
 def timeit(func):
     def wrapper(*args, **kwargs):
         start_time = time.time()
         result = func(*args, **kwargs)
         end_time = time.time()
-        log(f"{func.__name__}: {end_time - start_time:.2f} s")
         return result
     return wrapper
@@ -41,35 +38,35 @@ def get_model_size_in_gb(model_name):
         # 使用 safetensors 大小（不假定文件扩展名）
         return model_info.safetensors.total / (1024 ** 3)
     except Exception as e:
-        log(f"Unable to estimate model size: {e}")
         return 1  # 默认值
 @timeit
 def check_system_resources(model_name):
     """检查系统资源，决定使用 CPU 或 GPU"""
-    log("Checking system resources...")
     system_memory = psutil.virtual_memory()
     total_memory_gb = system_memory.total / (1024 ** 3)
-    log(f"Total system memory: {total_memory_gb:.1f}GB")
     model_size_gb = get_model_size_in_gb(model_name)
     required_memory_gb = model_size_gb * 2.5  # 预留额外内存
-    log(f"Estimated required memory for model: {required_memory_gb:.1f}GB")
     if torch.cuda.is_available():
         gpu_name = torch.cuda.get_device_name(0)
         gpu_memory_gb = torch.cuda.get_device_properties(0).total_memory / (1024 ** 3)
-        log(f"Detected GPU: {gpu_name} with {gpu_memory_gb:.1f}GB memory")
         if gpu_memory_gb >= required_memory_gb:
-            log("✅ Sufficient GPU memory available; using GPU.")
             return "cuda", gpu_memory_gb
         else:
-            log(f"⚠️ Insufficient GPU memory (requires {required_memory_gb:.1f}GB, found {gpu_memory_gb:.1f}GB).")
     else:
-        log("❌ No GPU detected.")
     if total_memory_gb >= required_memory_gb:
-        log("✅ Sufficient CPU memory available; using CPU.")
         return "cpu", total_memory_gb
     else:
         raise MemoryError(f"❌ Insufficient system memory (requires {required_memory_gb:.1f}GB, available {available_memory_gb:.1f}GB).")
@@ -80,7 +77,7 @@ def setup_environment(model_name):
     try:
         device, _ = check_system_resources(model_name)
     except Exception as e:
-        log(f"Resource check failed: {e}. Defaulting to CPU.")
         device = "cpu"
     return device
@@ -95,14 +92,14 @@ def create_hf_repo(repo_name, private=True):
             repo_name_with_index = repo_name
             while api.repo_exists(repo_name_with_index):
                 retry_index += 1
-                log(f"Repository {repo_name_with_index} exists; trying {repo_name}_{retry_index}")
                 repo_name_with_index = f"{repo_name}_{retry_index}"
             repo_name = repo_name_with_index
         repo_url = create_repo(repo_name, private=private)
-        log(f"Repository created successfully: {repo_url}")
         return repo_name
     except Exception as e:
-        log(f"Failed to create repository: {e}")
         raise
 @timeit
@@ -115,18 +112,18 @@ def download_and_merge_model(base_model_name, lora_model_name, output_dir, devic
     5. 求 base 与 adapter tokenizer 的词表并取并集，扩展 tokenizer
     6. 调整合并模型嵌入层尺寸并保存
     """
-    log("Loading base model...")
     model = AutoModelForCausalLM.from_pretrained(base_model_name, low_cpu_mem_usage=True)
-    log("Loading adapter tokenizer...")
     adapter_tokenizer = AutoTokenizer.from_pretrained(lora_model_name)
-    log("Resizing token embeddings...")
     added_tokens_decoder = adapter_tokenizer.added_tokens_decoder
     model.resize_token_embeddings(adapter_tokenizer.vocab_size + len(added_tokens_decoder))
-    log("Loading LoRA adapter...")
     peft_model = PeftModel.from_pretrained(model, lora_model_name, low_cpu_mem_usage=True)
-    log("Merging and unloading model...")
     model = peft_model.merge_and_unload()
-    log("Saving model...")
     model.save_pretrained(output_dir)
     adapter_tokenizer.save_pretrained(output_dir)
     return output_dir
@@ -138,10 +135,10 @@ def clone_llamacpp_and_download_build():
     llamacpp_dir = os.path.join(os.getcwd(), "llama.cpp")
     if not os.path.exists(llamacpp_dir):
-        log(f"Cloning llama.cpp from {llamacpp_repo}...")
         os.system(f"git clone {llamacpp_repo} {llamacpp_dir}")
-    log("Building llama.cpp...")
     build_dir = os.path.join(llamacpp_dir, "build")
     os.makedirs(build_dir, exist_ok=True)
@@ -155,7 +152,7 @@ def clone_llamacpp_and_download_build():
     os.system("cmake -B build")
     os.system("cmake --build build --config Release")
-    log("llama.cpp build completed.")
     # 返回到原始目录
     os.chdir(os.path.dirname(llamacpp_dir))
@@ -186,17 +183,17 @@ def quantize(model_path, repo_id, quant_method=None):
     guff_16 = os.path.join(model_output_dir, f"{repo_id}-f16.gguf")
     if not os.path.exists(guff_16):
-        log(f"正在将模型转换为GGML格式")
         convert_script = os.path.join(llamacpp_dir, "convert_hf_to_gguf.py")
         convert_cmd = f"python {convert_script} {model_path} --outfile {guff_16}"
         print(f"syscall:[{convert_cmd}]")
         os.system(convert_cmd)
     else:
-        log(f"GGML中间文件已存在，跳过转换")
     # 最终文件保存在 model_output 目录下
     final_path = os.path.join(model_output_dir, f"{repo_id}-{quant_method}.gguf")
-    log(f"正在进行{quant_method}量化")
     quantize_bin = os.path.join(llamacpp_dir, "build", "bin", "llama-quantize")
     quant_cmd = f"{quantize_bin} {guff_16} {final_path} {quant_method}"
     print(f"syscall:[{quant_cmd}]")
@@ -204,7 +201,7 @@ def quantize(model_path, repo_id, quant_method=None):
     if not os.path.exists(final_path):
         os.system(quant_cmd)
     else:
-        log(f"{quant_method}量化文件已存在，跳过量化")
         return None
     return final_path
@@ -281,7 +278,7 @@ def process_model(base_model_name, lora_model_name, repo_name, quant_methods, hf
         repo_name = create_hf_repo(repo_name)
         output_dir = os.path.join(".", "output", repo_name)
-        log("Starting model merge process...")
         model_path = download_and_merge_model(base_model_name, lora_model_name, output_dir, device)
@@ -299,15 +296,15 @@ def process_model(base_model_name, lora_model_name, repo_name, quant_methods, hf
             num_workers=os.cpu_count() if os.cpu_count() > 4 else 4,
             print_report_every=10,
         )
-        log("Upload completed.")
         # rm -rf model_path
         shutil.rmtree(model_path)
-        log("Removed model from local")
     except Exception as e:
         error_message = f"Error during processing: {e}"
-        log(error_message)
         raise e

 log.addHandler(logging.StreamHandler())
 log.addHandler(logging.FileHandler("convert.log"))
 def timeit(func):
     def wrapper(*args, **kwargs):
         start_time = time.time()
         result = func(*args, **kwargs)
         end_time = time.time()
+        log.info(f"{func.__name__}: {end_time - start_time:.2f} s")
         return result
     return wrapper
         # 使用 safetensors 大小（不假定文件扩展名）
         return model_info.safetensors.total / (1024 ** 3)
     except Exception as e:
+        log.error(f"Unable to estimate model size: {e}")
         return 1  # 默认值
 @timeit
 def check_system_resources(model_name):
     """检查系统资源，决定使用 CPU 或 GPU"""
+    log.info("Checking system resources...")
     system_memory = psutil.virtual_memory()
     total_memory_gb = system_memory.total / (1024 ** 3)
+    log.info(f"Total system memory: {total_memory_gb:.1f}GB")
     model_size_gb = get_model_size_in_gb(model_name)
     required_memory_gb = model_size_gb * 2.5  # 预留额外内存
+    log.info(f"Estimated required memory for model: {required_memory_gb:.1f}GB")
     if torch.cuda.is_available():
         gpu_name = torch.cuda.get_device_name(0)
         gpu_memory_gb = torch.cuda.get_device_properties(0).total_memory / (1024 ** 3)
+        log.info(f"Detected GPU: {gpu_name} with {gpu_memory_gb:.1f}GB memory")
         if gpu_memory_gb >= required_memory_gb:
+            log.info("✅ Sufficient GPU memory available; using GPU.")
             return "cuda", gpu_memory_gb
         else:
+            log.warning(f"⚠️ Insufficient GPU memory (requires {required_memory_gb:.1f}GB, found {gpu_memory_gb:.1f}GB).")
     else:
+        log.error("❌ No GPU detected.")
     if total_memory_gb >= required_memory_gb:
+        log.info("✅ Sufficient CPU memory available; using CPU.")
         return "cpu", total_memory_gb
     else:
         raise MemoryError(f"❌ Insufficient system memory (requires {required_memory_gb:.1f}GB, available {available_memory_gb:.1f}GB).")
     try:
         device, _ = check_system_resources(model_name)
     except Exception as e:
+        log.error(f"Resource check failed: {e}. Defaulting to CPU.")
         device = "cpu"
     return device
             repo_name_with_index = repo_name
             while api.repo_exists(repo_name_with_index):
                 retry_index += 1
+                log.info(f"Repository {repo_name_with_index} exists; trying {repo_name}_{retry_index}")
                 repo_name_with_index = f"{repo_name}_{retry_index}"
             repo_name = repo_name_with_index
         repo_url = create_repo(repo_name, private=private)
+        log.info(f"Repository created successfully: {repo_url}")
         return repo_name
     except Exception as e:
+        log.error(f"Failed to create repository: {e}")
         raise
 @timeit
     5. 求 base 与 adapter tokenizer 的词表并取并集，扩展 tokenizer
     6. 调整合并模型嵌入层尺寸并保存
     """
+    log.info("Loading base model...")
     model = AutoModelForCausalLM.from_pretrained(base_model_name, low_cpu_mem_usage=True)
+    log.info("Loading adapter tokenizer...")
     adapter_tokenizer = AutoTokenizer.from_pretrained(lora_model_name)
+    log.info("Resizing token embeddings...")
     added_tokens_decoder = adapter_tokenizer.added_tokens_decoder
     model.resize_token_embeddings(adapter_tokenizer.vocab_size + len(added_tokens_decoder))
+    log.info("Loading LoRA adapter...")
     peft_model = PeftModel.from_pretrained(model, lora_model_name, low_cpu_mem_usage=True)
+    log.info("Merging and unloading model...")
     model = peft_model.merge_and_unload()
+    log.info("Saving model...")
     model.save_pretrained(output_dir)
     adapter_tokenizer.save_pretrained(output_dir)
     return output_dir
     llamacpp_dir = os.path.join(os.getcwd(), "llama.cpp")
     if not os.path.exists(llamacpp_dir):
+        log.info(f"Cloning llama.cpp from {llamacpp_repo}...")
         os.system(f"git clone {llamacpp_repo} {llamacpp_dir}")
+    log.info("Building llama.cpp...")
     build_dir = os.path.join(llamacpp_dir, "build")
     os.makedirs(build_dir, exist_ok=True)
     os.system("cmake -B build")
     os.system("cmake --build build --config Release")
+    log.info("llama.cpp build completed.")
     # 返回到原始目录
     os.chdir(os.path.dirname(llamacpp_dir))
     guff_16 = os.path.join(model_output_dir, f"{repo_id}-f16.gguf")
     if not os.path.exists(guff_16):
+        log.info(f"正在将模型转换为GGML格式")
         convert_script = os.path.join(llamacpp_dir, "convert_hf_to_gguf.py")
         convert_cmd = f"python {convert_script} {model_path} --outfile {guff_16}"
         print(f"syscall:[{convert_cmd}]")
         os.system(convert_cmd)
     else:
+        log.info(f"GGML中间文件已存在，跳过转换")
     # 最终文件保存在 model_output 目录下
     final_path = os.path.join(model_output_dir, f"{repo_id}-{quant_method}.gguf")
+    log.info(f"正在进行{quant_method}量化")
     quantize_bin = os.path.join(llamacpp_dir, "build", "bin", "llama-quantize")
     quant_cmd = f"{quantize_bin} {guff_16} {final_path} {quant_method}"
     print(f"syscall:[{quant_cmd}]")
     if not os.path.exists(final_path):
         os.system(quant_cmd)
     else:
+        log.info(f"{quant_method}量化文件已存在，跳过量化")
         return None
     return final_path
         repo_name = create_hf_repo(repo_name)
         output_dir = os.path.join(".", "output", repo_name)
+        log.info("Starting model merge process...")
         model_path = download_and_merge_model(base_model_name, lora_model_name, output_dir, device)
             num_workers=os.cpu_count() if os.cpu_count() > 4 else 4,
             print_report_every=10,
         )
+        log.info("Upload completed.")
         # rm -rf model_path
         shutil.rmtree(model_path)
+        log.info("Removed model from local")
     except Exception as e:
         error_message = f"Error during processing: {e}"
+        log.error(error_message)
         raise e

convert.log ADDED Viewed

File without changes