☁ 뭉게뭉게 클라우드/🚨 ERR

[AWS SageMaker / HuggingFace] NotImplementedError: Cannot copy out of meta tensor; no data! | 인턴

우주수첩 2023. 11. 7. 11:39
728x90

 

 

AWS SageMaker에서 모델을 돌리던 도중에 오류가 발생했다.

 

MarkAny Document Safer Warning! : The Contents copied from encrypted document can not be pasted to non-encrypted one!
Reason : AlorithmError: excuatreUserScriptError
ExitCode 1
ErroeMessage "NotImplementedError: Cannot copy out of meta tensor; no data!"
Command "\opt/conda/bin/python3.9 run_clm.py --dataset_path /opt/ml/input/data/training --epochs 3 --lr 0.0002 --model_id bigscience/bloomz-7b1 --per_devica_train_barch_size 1", exit code:1

 

 

bloomz-7b1이라는 모델을 hugginface에서 불러오는 과정에서 오류가 발생해따. 

 

오류 원인은 모델을 담기에 내가 사용하는 인스턴스 사이즈가 너무 작았던 이유이다!

 

 

해결 방법은 모델 인스턴스를 더 좋은 성능으로 바꿔주면 된다

 

기존에 사용하던 인스턴스는

ml.m5.2zlarge로 2 vCPU + 8GiB + 1 GPU의 성능을 가지고 있었다.

 

변경 후

ml.m5.12xlarge => 48 vCPU + 192 GiB + 4 GPU 로 변경하였다.

 

근데 그래도 용량 딸린다고 다른거로 바꾸라고 하더라...

 

이 AWS 내 계정 아닌뎅...

 

 

 

 

그...

 

 

 

저...

 

 

 

 

 

팀장님....

 

 

 

 

 

더 좋은 모델로...

 

 

 

돌려도 되나요....? *^_^*

 

 

728x90