
sagemaker 4

[AWS SageMaker / HuggingFace] 허깅페이스와 LoRA를 사용하여 단일 Amazon SageMaker GPU에서 대규모 언어 모델(LLM) 훈련하기 | 인턴

어짜피 이렇게 팽 당한 과제 아까우니까 공부한거라도 적어두려고 합니당 모르면 이전 포스트 슝: 2023.11.09 - [🏝️ 멋찐넘 AWS/🚨 ERR] - [슬기로운 인턴생활 | AWS SageMaker & HuggingFace] The requested resource studio ... is not available in this region 정확하게는 어떤걸 하고 싶었냐면 Fine tunning을 함으로써 모델의 성능과 정확도를 더 올리고 싶었다죠 그래서 AWS 기술 블로그에 나와있는 허깅페이스와 LoRA를 사용하여 단일 Amazon SageMaker GPU에서 대규모 언어 모델(LLM) 훈련하기 를 진행하였답니당 허깅페이스가 저는 좀 생소했는데 이 칭구가 말이죠 사람들이 만든 모델들을 올려서 무료..

[ AWS SageMaker & HuggingFace] The requested resource studio ... is not available in this region | 인턴

언제 또 이렇게 AWS를 마음대로 써 보겠는가!!! 기업체 최고다!!! 학생 신분에서 해 볼 수 없었던 마음 놓고 AWS 기능 쓰기를 진행하다 보면 **Failed to start kernel** Failed to launch app [sagemaker-data-scien-ml-g5-2xlarge-788bb6348367982dd036e22a2f37]. ResourceLimitExceeded: The requested resource studio/KernelGateway-ml.g5.2xlarge is not available in this region (Context: RequestId: 8c72bfde-4a66-44b2-9fd8-e05e5af45114, TimeStamp: 1698803755.498822..

[AWS SageMaker / HuggingFace] Training an 8-bit model is not supported yet. | 인턴

UnexpectedStatusException: Error for Training job huggingface-peft-2023-11-07-00-53-07-2023-11-07-02-17-27-231: Failed. Reason: AlgorithmError: ExecuteUserScriptError: ExitCode 1 ErrorMessage "raise ValueError( ValueError: The model you want to train is loaded in 8-bit precision. Training an 8-bit model is not supported yet." Command "/opt/conda/bin/python3.9 run_clm.py --dataset_path /opt/ml/in..

[AWS SageMaker / HuggingFace] NotImplementedError: Cannot copy out of meta tensor; no data! | 인턴

AWS SageMaker에서 모델을 돌리던 도중에 오류가 발생했다. MarkAny Document Safer Warning! : The Contents copied from encrypted document can not be pasted to non-encrypted one! Reason : AlorithmError: excuatreUserScriptError ExitCode 1 ErroeMessage "NotImplementedError: Cannot copy out of meta tensor; no data!" Command "\opt/conda/bin/python3.9 run_clm.py --dataset_path /opt/ml/input/data/training --epochs 3 --lr 0...
