728x90

😒 저 저 저 개념없는 나/⛓️ DL & ML 13

[NLP] Bow에 기반한 Tf-idf | 인턴

BOW (Bag of Words) 텍스트 데이터를 처리하는 기본적인 방법 중 하나 문서 내의 단어들의 등장 순서를 무시하고, 각 단어의 등장 빈도를 기반으로 문서를 표현 Tf-idf BOW의 확장된 형태로, 각 단어의 중요도를 나타내는 수치 Term Frequency-Inverse Document Frequency의 약자로, 각 단어의 TF와 IDF를 조합하여 계산 주로 텍스트 마이닝, 정보 검색, 문서 분류 등에서 활용 문서 간 단어의 중요도를 고려하여 효과적으로 텍스트를 표현하는 데 사용 Term Frequency (TF, 단어 빈도) 특정 단어가 문서 내에서 얼마나 자주 등장하는지를 표현 일반적으로는 해당 단어가 문서 내에서 등장한 횟수를 전체 단어 수로 나눈 값으로 계산 Inverse Docume..

[LLM] LLM Fine Tuning 공부 | 인턴

허깅페이스와 LoRA를 사용하여 단일 Amazon SageMaker GPU에서 대규모 언어 모델(LLM) 훈련하기 : aws 기술 블로그 파운데이션 모델 (foundation model) : 대규모 데이터셋과 여러 작업을 통해 훈련된 대규모 모델은 훈련되지 않은 특정 작업에도 일반화 성능이 높게 나타나는 모델. 파인 튜닝(Fine-Tunning) : 특정 도메인이나 작업에 대한 대규모 모델의 성능을 개선하기 위해 더 작은 작업별 데이터 셋으로 모델을 추가로 훈련하는 것. 단점 LLM의 정확도를 성공적으로 개선, 원본 모델의 모든 가중치 수정 필요 → 비용 부담 원본 모델과 동일한 크기의 모델을 생성 → 저장소 용량 부담 요약 파인 튜닝 데이터셋 크기가 훨씬 작기 때문에 사전 훈련 보다 빠르지만 여전히 상..

728x90