728x90
AWS SageMaker에서 모델을 돌리던 도중에 오류가 발생했다.
MarkAny Document Safer Warning! : The Contents copied from encrypted document can not be pasted to non-encrypted one!
Reason : AlorithmError: excuatreUserScriptError
ExitCode 1
ErroeMessage "NotImplementedError: Cannot copy out of meta tensor; no data!"
Command "\opt/conda/bin/python3.9 run_clm.py --dataset_path /opt/ml/input/data/training --epochs 3 --lr 0.0002 --model_id bigscience/bloomz-7b1 --per_devica_train_barch_size 1", exit code:1
bloomz-7b1이라는 모델을 hugginface에서 불러오는 과정에서 오류가 발생해따.
오류 원인은 모델을 담기에 내가 사용하는 인스턴스 사이즈가 너무 작았던 이유이다!
해결 방법은 모델 인스턴스를 더 좋은 성능으로 바꿔주면 된다
기존에 사용하던 인스턴스는
ml.m5.2zlarge로 2 vCPU + 8GiB + 1 GPU의 성능을 가지고 있었다.
변경 후
ml.m5.12xlarge => 48 vCPU + 192 GiB + 4 GPU 로 변경하였다.
근데 그래도 용량 딸린다고 다른거로 바꾸라고 하더라...
이 AWS 내 계정 아닌뎅...
그...
저...
팀장님....
더 좋은 모델로...
돌려도 되나요....? *^_^*
728x90