rookiemango
/

auto-info

Model card Files Files and versions Community

auto-info / PSV /utils /models.py

rookiemango

Upload folder using huggingface_hub

da66274 verified 9 months ago

raw

history blame contribute delete

12.2 kB

	# from utils.flash_attn_monkey_patch import replace_llama_attn_with_flash_attn
	from utils.cached_models import build_transformers_mapping_to_cached_models, build_transformers_mapping_to_custom_tokenizers
	# replace_llama_attn_with_flash_attn()
	build_transformers_mapping_to_cached_models()
	build_transformers_mapping_to_custom_tokenizers()

	from typing import Optional, List, Dict, Set, Any, Union, Callable, Mapping
	from torch import nn
	import torch
	import pathlib
	from dataclasses import dataclass
	from accelerate import Accelerator
	import os
	import re
	import shutil
	from functools import wraps
	import transformers
	from utils.constants import DEFAULT_PAD_TOKEN, DEFAULT_BOS_TOKEN, DEFAULT_EOS_TOKEN, DEFAULT_UNK_TOKEN


	def smart_tokenizer_and_embedding_resize_for_pad(
	special_tokens_dict: Dict,
	tokenizer: transformers.PreTrainedTokenizer,
	model: transformers.PreTrainedModel,
	):
	"""Resize tokenizer and embedding.
	Note: This is the unoptimized version that may make your embedding size not be divisible by 64.
	"""
	num_new_tokens = tokenizer.add_special_tokens(special_tokens_dict)
	model.resize_token_embeddings(len(tokenizer))
	if num_new_tokens > 0:
	input_embeddings = model.get_input_embeddings().weight.data
	output_embeddings = model.get_output_embeddings().weight.data

	input_embeddings[-1] = torch.zeros_like(input_embeddings)[0]
	output_embeddings[-1] = torch.zeros_like(output_embeddings)[0]





	def build_model(model_args: dataclass, training_args: dataclass, accelerator ):

	# Step 1: Initialize LLM
	print(f"+ [Model] Initializing LM: {model_args.model_name_or_path}")
	if accelerator.mixed_precision == 'fp16':
	torch_dtype = torch.float16
	elif accelerator.mixed_precision == 'bf16':
	torch_dtype = torch.bfloat16
	else:
	torch_dtype = "auto"

	model = transformers.AutoModelForCausalLM.from_pretrained(
	model_args.model_name_or_path,
	device_map={"": accelerator.device},
	attn_implementation="flash_attention_2",
	cache_dir=training_args.cache_dir,
	torch_dtype=torch_dtype,
	)
	if training_args.gradient_checkpointing:
	model.gradient_checkpointing_enable()

	# Step 2: Initialize tokenizer
	print(f"+ [Model] Initializing Tokenizer: {model_args.model_name_or_path}")
	tokenizer = transformers.AutoTokenizer.from_pretrained(
	model_args.model_name_or_path,
	cache_dir=training_args.cache_dir,
	model_max_length=training_args.model_max_length,
	padding_side="right",
	use_fast=False,
	)

	# Step 3: Add special tokens
	if 'phi' in model_args.model_name_or_path:
	tokenizer.pad_token = tokenizer.unk_token
	else:
	if tokenizer.pad_token is None:
	smart_tokenizer_and_embedding_resize_for_pad(
	special_tokens_dict=dict(pad_token=DEFAULT_PAD_TOKEN),
	tokenizer=tokenizer,
	model=model,
	)
	tokenizer.add_special_tokens({
	"eos_token": DEFAULT_EOS_TOKEN,
	"bos_token": DEFAULT_BOS_TOKEN,
	"unk_token": DEFAULT_UNK_TOKEN,
	})
	#
	# Step 4: Align special token ids between tokenizer and model.config
	model.config.pad_token_id = tokenizer.pad_token_id
	model.config.bos_token_id = tokenizer.bos_token_id
	model.config.eos_token_id = tokenizer.eos_token_id

	return model, tokenizer

	def load_tokenizer(model_name_or_path):


	print(f"+ [Model] Initializing Tokenizer: {model_name_or_path}")
	tokenizer = transformers.AutoTokenizer.from_pretrained(
	model_name_or_path,
	padding_side="right",
	use_fast=False,
	)

	if 'phi' in model_name_or_path:
	tokenizer.pad_token = tokenizer.unk_token
	else:
	if tokenizer.pad_token is None:
	tokenizer.add_special_tokens({
	"eos_token": DEFAULT_EOS_TOKEN,
	"bos_token": DEFAULT_BOS_TOKEN,
	"unk_token": DEFAULT_UNK_TOKEN,
	})

	return tokenizer


	def load_model(model_args):
	# Step 1: Initialize LLM
	print(f"+ [Model] Initializing LM: {model_args.model_name_or_path}")
	model = transformers.AutoModelForCausalLM.from_pretrained(
	model_args.model_name_or_path,
	torch_dtype=torch.float16 if model_args.fp16 else torch.bfloat16,
	)

	# Step 2: Initialize tokenizer
	print(f"+ [Model] Initializing Tokenizer: {model_args.model_name_or_path}")
	tokenizer = transformers.AutoTokenizer.from_pretrained(
	model_args.model_name_or_path,
	padding_side="left",
	use_fast=False,
	)

	# Step 3: Add special tokens
	tokenizer.add_special_tokens({
	"eos_token": DEFAULT_EOS_TOKEN,
	"bos_token": DEFAULT_BOS_TOKEN,
	"unk_token": DEFAULT_UNK_TOKEN,
	})

	# Step 3: Add special tokens
	if 'phi' in model_args.model_name_or_path:
	tokenizer.pad_token = tokenizer.unk_token
	else:
	if tokenizer.pad_token is None:
	smart_tokenizer_and_embedding_resize_for_pad(
	special_tokens_dict=dict(pad_token=DEFAULT_PAD_TOKEN),
	tokenizer=tokenizer,
	model=model,
	)
	tokenizer.add_special_tokens({
	"eos_token": DEFAULT_EOS_TOKEN,
	"bos_token": DEFAULT_BOS_TOKEN,
	"unk_token": DEFAULT_UNK_TOKEN,
	})

	# Step 4: Align special token ids between tokenizer and model.config
	model.config.pad_token_id = tokenizer.pad_token_id
	model.config.bos_token_id = tokenizer.bos_token_id
	model.config.eos_token_id = tokenizer.eos_token_id

	return model, tokenizer









	def safe_delete_with_accelerator(accelerator: Accelerator, path: str):
	@accelerator.on_main_process
	def delete(path):
	shutil.rmtree(path, ignore_errors=True)

	delete(path)

	def safe_move_with_accelerator(accelerator: Accelerator, ori_path: str, new_path: str):
	@accelerator.on_main_process
	def move(ori_path, new_path):
	try:
	shutil.move(ori_path, new_path)
	except:
	...

	move(ori_path, new_path)



	def wrapper_safe_save_model_with_accelerator(save_model_func):
	@wraps(save_model_func)
	def wrapper(accelerator: Accelerator,
	model: nn.Module,
	tokenizer: transformers.AutoTokenizer,
	output_dir: str):
	@accelerator.on_main_process
	def save_model(cpu_state_dict, output_dir):
	save_model_func(accelerator=accelerator, model=model, cpu_state_dict=cpu_state_dict, output_dir=output_dir)
	@accelerator.on_main_process
	def save_tokenizer(output_dir):
	tokenizer.save_pretrained(output_dir)

	os.makedirs(output_dir, exist_ok=True)
	state_dict = accelerator.get_state_dict(model)
	cpu_state_dict = {
	key: value.cpu()
	for key, value in state_dict.items()
	}

	save_model(cpu_state_dict, output_dir)
	save_tokenizer(output_dir)

	print(f"+ [Save] Save model and tokenizer to: {output_dir}")
	return wrapper


	# refer to transformers.trainer._sorted_checkpoints "https://github.com/huggingface/transformers/blob/v4.31.0/src/transformers/trainer.py#L2848"
	def wrapper_save_checkpoint(save_func):
	@wraps(save_func)
	def outwrapper(func):
	def wrapper(accelerator: Accelerator,
	model: transformers.AutoModelForCausalLM,
	tokenizer: transformers.PreTrainedTokenizer,
	output_dir: str,
	global_step: int,
	save_total_limit: int=None):
	checkpoint_output_dir = os.path.join(output_dir, f'checkpoint-{global_step}')
	if os.path.exists(checkpoint_output_dir) or save_total_limit < 1:
	return
	save_func(accelerator=accelerator, model=model, tokenizer=tokenizer, output_dir=checkpoint_output_dir)

	ordering_and_checkpoint_path = []
	glob_checkpoints = [str(x) for x in pathlib.Path(output_dir).glob('checkpoint-')]
	for path in glob_checkpoints:
	regex_match = re.match(r".*checkpoint-([0-9]+)", path)
	if regex_match is not None:
	ordering_and_checkpoint_path.append((int(regex_match.group(1)), path))

	checkpoints_sorted = sorted(ordering_and_checkpoint_path)
	checkpoints_sorted = [checkpoint[1] for checkpoint in checkpoints_sorted]

	best_checkpoint = [str(x) for x in pathlib.Path(output_dir).glob('best-checkpoint-*')]
	if best_checkpoint:
	best_checkpoint = best_checkpoint[0]
	best_model_index = checkpoints_sorted.index(best_checkpoint)
	for i in range(best_model_index, len(checkpoints_sorted) - 2):
	checkpoints_sorted[i], checkpoints_sorted[i + 1] = checkpoints_sorted[i + 1], checkpoints_sorted[i]

	if save_total_limit:
	checkpoints_to_be_deleted = checkpoints_sorted[:-save_total_limit]
	for checkpoint in checkpoints_to_be_deleted:
	safe_delete_with_accelerator(accelerator, checkpoint)
	return wrapper
	return outwrapper


	def wrapper_save_best_checkpoint(save_checkpoint_func):
	@wraps(save_checkpoint_func)
	def outwrapper(func):
	def wrapper(accelerator: Accelerator,
	model: transformers.AutoModelForCausalLM,
	tokenizer: transformers.PreTrainedTokenizer,
	output_dir: str,
	global_step: int,
	save_total_limit: int=None):

	ori_best_checkpoint = [str(x) for x in pathlib.Path(output_dir).glob('best-checkpoint-*')]
	if ori_best_checkpoint:
	ori_best_checkpoint = ori_best_checkpoint[0]
	filename = os.path.basename(os.path.normpath(ori_best_checkpoint))[5:]
	safe_move_with_accelerator(accelerator, ori_best_checkpoint, os.path.join(output_dir, filename))

	save_checkpoint_func(accelerator=accelerator, model=model, tokenizer=tokenizer, output_dir=output_dir, global_step=global_step, save_total_limit=save_total_limit)
	checkpoint_dir = os.path.join(output_dir, f'checkpoint-{global_step}')
	best_checkpoint_dir = os.path.join(output_dir, f'best-checkpoint-{global_step}')
	safe_move_with_accelerator(accelerator, checkpoint_dir, best_checkpoint_dir)
	return wrapper
	return outwrapper





	@wrapper_safe_save_model_with_accelerator
	def save_llm(accelerator: Accelerator,
	model: transformers.AutoModelForCausalLM,
	cpu_state_dict: Mapping,
	output_dir: str):
	accelerator.unwrap_model(model).save_pretrained(
	output_dir,
	state_dict=cpu_state_dict,
	is_main_process=accelerator.is_main_process,
	save_function=accelerator.save,
	)


	@wrapper_save_checkpoint(save_func=save_llm)
	def save_llm_checkpoint(accelerator: Accelerator,
	model: transformers.AutoModelForCausalLM,
	tokenizer: transformers.PreTrainedTokenizer,
	checkpoint_output_dir: str):
	...


	@wrapper_save_best_checkpoint(save_checkpoint_func=save_llm_checkpoint)
	def save_best_llm_checkpoint(accelerator: Accelerator,
	model: transformers.AutoModelForCausalLM,
	tokenizer: transformers.PreTrainedTokenizer,
	output_dir: str,
	global_step: int,
	save_total_limit: int=None):
	...



	def save_training_args_with_accelerator(accelerator: Accelerator,
	training_args: dataclass,
	output_dir: str):
	output_file = os.path.join(output_dir, 'training_args.bin')
	accelerator.save(training_args, output_file)

	print(f"+ [Save] Save training_args to: {output_file}")