전체 글
P-stage2 [Day5]
수업내용 한국어 자연어 이해 벤치마크(Korean Language Understanding Evaluation, KLUE) 정말 거의 모든 경우에 대비한 데이터셋들이 들어있다. 의존 구문 분석. 영어 문법시간에 배운 형용사 목적어 구분 그런거 같다. 복잡한 형태의 자연어를 그래프로 구조화해서 표현이 가능하고 각 대상의 정보추출이 가능해진다. 단일문장 구분 task는 여러 종류가 있음. 감정분석(Sentiment Analysis) 주제 라벨링(Topic Labeling) 언어감지(Language Detection) 의도 분류(Intent Classification) 자세한 설명은 pdf를 참조하자. 문장 분류를 위한 데이터 Kor_hate, Kor_sarcasm, Kor_sae, Kor_3i4k 단일 문장..
P-stage2 [Day4]
수업내용 도매인 특화 task의 경우, 도메인 특화된 학습 데이터만 사용하는 것이 더 좋다. NLP 특징인듯. 데이터로 넣을 때 데이터셋 만드는것과 데이터로더 만드는것을 확실하게 구분해서 생각하자. 데이터셋은 밥을 만드는거고 데이터로더는 모델한테 밥을 어떻게 먹일거냐.. 적절한 비유인듯. 위 사진은 다음 문장 예측 모델 실습 Day4_실습자료0BERT_MASK_Attack.ipynb의 사본 Google Colaboratory transformers에 내장되어 있는 fill-mask로 mask 채워서 개인정보 유출하기. Day4_실습자료1한국어_BERT_pre_training.ipynb의 사본 Google Colaboratory 데이터 만들고 데이터셋 만들고 로더 만들고 Bert넣고 config 설정하고 ..
P-stage2 [Day3]
수업내용 GPT-2는 다음문장 예측. BERT는 문장 사이에 mask가 씌워있을 때 맞추는 예측. 애초에 encoding과 decoding이 decoding은 encoding된 내용물을 완전히 원본으로 복구하는게 목적. 두 문장 두고 두 문장이 연관성이 있는가 없는가를 CLS에 넣어서 알려주고 그걸 학습함. 저게 기본이고 단일 문장 분류, 두 문장 관계 분류, 문장 토큰 분류, 기계 독해 정답 분류 등의 여러 NLP 실험들을 했다.. 하는데 질답이 가능한 이유는 질문을 입력, 답을 출력으로 놓고 계속 학습하다 보면 어디서부터 어디를 봐야할 지를 attention으로 알게되기 때문... NLP의 성능을 측정하는데 대표적으로 쓰이는 데이터셋들 GLUE dataset과 SQuAD 등등.. 한국어용 koBERT..
P-stage2 [Day2]
수업내용 자연어 처리도 일반 다른 문제 접근방법처럼 Task 설계, 필요 데이터 수집...의 과정을 거치는데 자연어 특성상 전처리, Tagging, Tokenizing의 전처리 과정 및 문제 정의가 필요함. 전처리는 개행문자 제거 특수문자 제거 공백 제거 중복 표현 제어 (ㅋㅋㅋㅋㅋ, ㅠㅠㅠㅠ, …) 이메일, 링크 제거 제목 제거 불용어 (의미가 없는 용어) 제거 조사 제거 띄어쓰기, 문장분리 보정 등의 과정을 거치고 Tagging은 얘는 비속어다! 얘는 아니다! 결정하는거고 Tokenizing은 문장을 쪼갤때 어디까지 쪼개느냐를 문제 정의에 따라 결정한다. 어절까지만 할지, 형태소까지만 할지, 아얘 자음모음까지 할지. 하지만 이렇게 해도 실제 악플 창의력은 대단하다. 그래서 반드시 우리가 이 실제로 T..
P-stage2 [Day1]
수업내용 (1강) 인공지능과 자연어 처리 (자연어처리 역사(현재까지)) http://vivekbardhan.blogspot.com/2007/06/communication-theory.html 애초에 encoding이 내가 어떤 물체를 설명할 때 그 물체를 설명할 수 있는 어떠한 형태로 가공해서 내보내는거고 decoding은 그 정보를 받아 본인의 정보로 복원하는 과정이다. 간단하게 할 수 있는건 단어에 벡터를 치환해서 사용하는 자연어 단어 임베딩. 학습할 때는 해당 단어가 나온 여러 문장들로 그 단어의 뜻을 유추하는 방식으로 한다. 간단하게 할 수 있는게 저 Word2Vec인데 같은 뜻을 가지고 뒤에 조사만 다른것도 서로 독립된 vocab으로 관리(잘못한, 잘못되어진,..)되어 한 글자씩 쪼개서 분석하는..
P-stage2대비 wandb
wandb 마스터님이 짜주신 baseline code로 이미 tensorboard가 사용되고 있었지만 더 편리하다고 하고, 또 sweep을 사용하면 AutoML도 지원한다고 해서 해봤다. sglee487/train_01 확실히 좋은 것 같다. 전엔 훈련만 하느라 급해서 통제변인 실험변인을 제대로 확인하지 못하며 수행했었는데 그런것이 눈에 보인다. 그래서 저렇게 한 결론은 이번 stage1에선 augmentation을 안한것이 성능이 대체적으로 더 좋게 나왔고, AdamP와 Adam의 성능이 좋게 나왔다. 이는 대회를 진행하면서 여러사람이 말한 것과 일치한다. 또 AdamW가 제일 최근에 나왔는데 이것도 성능이 좋다고 해서 사용해봐야 할듯. 내가 아는것과 달랐던 점은 미미하긴 하지만 batch_size가 ..
P-stage 1 마지막 정리
랩업 레포트, 피어세션 발표 https://s3-us-west-2.amazonaws.com/secure.notion-static.com/718e061d-c568-4e98-8cf2-591f57effe65/__.pdf https://s3-us-west-2.amazonaws.com/secure.notion-static.com/c6f85caf-e9dc-454d-afd8-f528d2a76be9/_.pdf 피어세션 정리 accumulation gradient 앙상블은 모델이 일정 점수 이상이어야 성능이 오름 grid suffle. 하나의 사진을 등분해서 섞어서 augmentation. 너무 쪼개면 잘 안나오지 않을까. ShfitScaleRotate (머리복사됨) dencenet. 이미지 가로세로 비율 1:1로 안하..
AITech P-stage1 [Day 8] 앙상블 실패, f1loss로 학습해보는중
=================================== 목표 어제 못했던 앙상블 해보기 ================================== 행동 어제 mask, gender, age 각각의 모델에 대한 학습을 다 하고, 각 모델에 eval data 를 통과시켜 나온 결과를 합쳐 최종 결과를 내는 걸 만들었다. 결과는 실망스러웠다. 단일 모델로 했을 때보다 결과가 안 나왔기 때문이다. age는 원래 딱 60살만 2 label을 가지지만 59살 이상을 2label로 가지게 했을 때 결과가 잘 나왔다. 또 epoch를 많이 돌리고 val loss와 val acc에 변화가 없어서 overfitting이라고 생각했지만 내가 overfitting이라고 생각한 checkpoint를 넣고 돌리면 결..
AITech P-stage1 [Day 7] 단일 모델 실험 끝, 앙상블 실험중..
======================= 피어세션 나이를 제일 빡센(깊은) layer. resnetnext 같은거 adamw crossentropy에도 weight를 줄 수가 있다. ================================ 마스터세션 vscode 방법들. tumx. 꺼지더라도 실행하는 거인듯. 꼭 알아야 겠다. dracula theme image-tile-viewer 잘 안되면 reload pytorch snippets. pytorch 코드 그냥 만들어주네 extract method. refactoring이 쉽다. device checking.. train도 그냥 만들어주고.. 디버깅 서버 jedi, pylance. jedi는 느리다. pylance빠르다. 근데 pylance는 자동완..
AITech P-stage1 [Day 6] 데이터 시각화, 아직 python IDLE로 만드는 중..
============================== 수업내용 시각화를 진행할 데이터 1. 데이터셋 관점 (global) 2. 개별 데이터의 관점 (local) 정형데이터는 평소에 보던 csv, tsv. item, attribute, cell. 통계적 특성과 feature 사이 관계, 데이터 간 관계, 데이터 간 비교. 시계열데이터는 시간 흐름에 따른 데이터. 기온, 주가등의 정형데이터와 음성, 비디오 같은 비정형 데이터 존재. 시간 흐름에 따른 추세(Trend), 계절설(Seasonality), 주기성(Cycle) 등을 살핌. 지리/지도 제이터 거리, 경로, 분포등. 관계 데이터 Graph visualization / Network Visualization 객체는 Node로, 관계는 Link로 계층적..