목록전체 글 (46)
Dende
위의 파인튜닝 파이프라인에 따라 코드 실습을 진행해보겠습니다.Topic은 금융상품 추천사유 생성입니다. 대형 언어 모델(LLM)을 통해 고객 개개인의 상황과 니즈를 고려한 맞춤형 추천 사유를 제공하는 것을 목표로 해보겠습니다. 파인튜닝 데이터 준비 - 파인튜닝은 사용 사례에 특화된 새로운 모델을 만드는 강력한 기술 - 사례학습을 위해 입력("prompt")과 해당하는 출력("completion")으로 구성된 일관성 있는 예제셋이 필요 ※ 문서를 그대로 파인튜닝에 활용하는 것은 비효율적인 학습을 야기 → QA셋으로 전처리 수행데이터 전처리① 프롬프트 템플릿 지정운영환경에서의 템플릿이 학습시의 템플릿과 일치하지 않을 경우, 정확도 및 일관성이 저하될 수 있음 ② 데이터 확보지식 증류(Knowledge ..
PEFT의 등장배경대규모 모델의 등장: GPT-3, BERT, T5와 같은 대규모 언어 모델들이 등장하면서, 이들 모델을 다양한 다운스트림 작업에 맞게 파인튜닝하는 필요성이 커졌습니다. 하지만 이 모델들은 수억에서 수천억 개의 파라미터를 가지고 있어, 모든 파라미터를 재학습하는 데 많은 계산 자원과 시간이 요구됩니다.모델 전이 학습의 효율성: 사전 학습된 대규모 모델은 이미 다양한 일반적인 언어 패턴과 지식을 학습한 상태입니다. 따라서 특정 작업에 맞춰 모델을 완전히 재학습할 필요 없이, 기존의 지식을 활용하면서 필요한 부분만 조정하는 것이 더 효율적일 수 있습니다.PEFT의 개념- PEFT는 모델 전체의 파라미터를 조정하지 않고, 일부 파라미터만 선택적으로 학습하거나 추가적인 작은 네트워크를 학습하는..
파인튜닝이란?사전 훈련된 모델에게 특정 작업이나 도메인에 높은 적합성 확보를 시키기 위해 데이터를 추가 학습시켜 맞춤형 모델로 업데이트하는 기법. ※ 파인튜닝에 앞서 다음 내용을 우선 고려. - 올바른 프롬프트를 사용하면 파인튜닝 없이 결과 개선이 가능 - 프롬프트 및 기타 전략을 반복하는 것이 파인튜닝을 반복하는 것보다 피드백 루프가 훨씬 빠름. - 반면, 파인튜닝을 반복하는 경우 학습 데이터셋을 만들고 학습 프로세스를 다시 수헹해야 함. - 일반적으로 파인튜닝과 함께 좋은 프롬프트를 결합할 때 최상의 결과를 낼 수 있음파인튜닝 절차순서단계명내용1사전 학습 모델 선택대상 작업의 성격과 데이터셋의 특성을 기반으로 적합한 사전 학습 모델을 선택합니다. 전이학습이라고도 함.2베이스모델에 대한 이해사용하는 언..
1. 고객특성별 데이터 탐색(성별) · 511,064명의 고객데이터 중 여성 고객은 233,267명, 남성은 277,797명 · 방문 편의점의 가지수는 *최대 5개 기준으로 여성이 남성보다 높은 수치를 보여주는 등, 여성이 더 다양한 프랜차이즈에 방문하는 것으로 나타남 *CU, 세븐일레븐, GS25, emart24, 미니스톱 · '여성'의 평균 편의점 방문횟수가 '남성'의 평균보다 높은 것으로 도출됨. · 한번 방문할 때마다 더 많은 금액을 결제하는 성별은 ‘여성’으로 도출됨. · 방문횟수 평균과 평균 구매총액은 비슷한 차이를 보여주었으나, 건별 결제액은 성별 간 큰 차이가 나오지 않음. 2. 고객특성별 데이터 탐색(충성고객) ■ 충성고객에 대한 기준 - 통계 기간 22.03.01 ~ 22.05.31(9..
1. 시간대별 매출데이터 탐색 현재 레코드는 업장들의 은행 입출금 데이터도 하나의 거래건수로 포함되어 있어 비정상적으로 높거나, 음수 값을 가진 데이터가 존재. => 결제금액이 200,000 이상이거나, 음수 값일 경우 Outlier로 판단하여 제거 outlier = (df['amount'] 200000) df.drop(df[outlier].index, inplace=True) ■ 시간대별 매출 및 거래건수 정보 ▶ EDA를 통해 도출된 인사이트 · 야간 시간대(22시~05시)가 그 이외의 시간(06~21시)보다 평균적으로 높은 건당 매출액 기록 · 세 항목 모두 가장 가파른 변화추세를 보이는 시간대는 06시~07시 · 거래건수와 매출총액은 양의 상관관계를 가지고..
1. 프로젝트 개요 - 편의점 고객정보와 고객카드결제 정보를 토대로 고객 특성 별 구매 습성 파악 - 고객 특성 별 구매 습성 파악으로 편의점 운영 개선 방향 수립 2. 원천데이터 - Ten_trans.csv : 고객 정보와 카드결제 정보 111,129,376건 3. 데이터 정제 및 Load ■ 프로젝트 목적에 맞는 컬럼 선정 - 거래ID, 거래월, 거래날짜, 거래시간, 금액, 고객ID, 성별, 생년월일, 나이, 카드종류, 업장, 결제주소, 프랜차이즈명 등 프로젝트 목적에 맞는 컬럼 선정 ■ 프로젝트 목적에 맞는 레코드 선정 - 원천데이터는 편의점 이외의 거래 건도 존재하며, 거래날짜가 대부분 2022.03 ~ 2022.05에 분포 → 편의점 관련 거래 건이며, 날짜는 2022.03 ~ 2022.05 이..
데이터를 구하는 가장 쉬운 방법은, 이미 누군가 만들어둔 데이터를 사용하는 것입니다. 대표적으로, 국가 기관에서는 공익 목적으로 여러 데이터를 공개합니다. 그 외에도 데이터를 검색하는 사이트나, 데이터를 공유하는 사이트들이 있죠. 국내 사이트 서울열린데이터광장 https://data.seoul.go.kr/ 공공데이터포털 https://www.data.go.kr e-나라지표 http://www.index.go.kr/ 국가통계포털 http://kosis.kr 서울특별시 빅데이터 캠퍼스 https://bigdata.seoul.go.kr/ 통계청 http://kostat.go.kr/ 각 사이트를 보면, 여러 분야의 데이터를 다운로드 받을 수 있습니다. 혹은 원하는 데이터를 신청하면 제공해주기도 합니다. 그 외에..
위와 같은 영화 메타데이터가 있습니다. 이번에는 예산이 높을 수록 평점이 높은가를 알아보고 싶습니다. df.plot(kind='scatter', x='budget', y='imdb_score') 몇 가지 아웃라이어 때문에 산점도로 파악하기가 매우 어려운 상황입니다. 보통은 IQR(Inter Quantile Range)을 통해서 아웃라이어를 제외합니다만, 이번에는 상위 15개를 모두 제외하는 조건으로 해보겠습니다. 먼저 예산(budget) 기준으로 상위 15개의 인덱스를 가져와보겠습니다. high = df.sort_values(by='budget', ascending = False).head(15).index Int64Index([2988, 3859, 3005, 2323, 2334, 3423, 4542, ..