P-stage2 [Day2]
과거의 것들/AI Tech boostcamp

P-stage2 [Day2]

수업내용

자연어 처리도 일반 다른 문제 접근방법처럼 Task 설계, 필요 데이터 수집...의 과정을 거치는데 자연어 특성상 전처리, Tagging, Tokenizing의 전처리 과정 및 문제 정의가 필요함. 전처리는

개행문자 제거
특수문자 제거
공백 제거
중복 표현 제어 (ㅋㅋㅋㅋㅋ, ㅠㅠㅠㅠ, …)
이메일, 링크 제거
제목 제거
불용어 (의미가 없는 용어) 제거
조사 제거
띄어쓰기, 문장분리 보정

등의 과정을 거치고 Tagging은 얘는 비속어다! 얘는 아니다! 결정하는거고 Tokenizing은 문장을 쪼갤때 어디까지 쪼개느냐를 문제 정의에 따라 결정한다. 어절까지만 할지, 형태소까지만 할지, 아얘 자음모음까지 할지.

하지만 이렇게 해도 실제 악플 창의력은 대단하다. 그래서 반드시 우리가 이 실제로 Task 가 어떻게 적용이 되는지, 이 어플리케이션이 어떤 환경에 적용이 되는지를 파악을 하고 거기에 맞는 데이터를 수집을 하고 그 데이터에 맞춰서 모델을 설계해야 한다.

실습

Day2_실습자료0한국어전처리.ipynb의 사본

Google Colaboratory

Day2_실습자료1한국어_토크나이징.ipynb의 사본

Google Colaboratory

과제

한국어_전처리_실습_문제.ipynb의 사본

Google Colaboratory

내가푼거

Google Colaboratory

정답예시

목표

내가 못끝내고 있던 알고리즘 문제 끝내기, Django 좀 공부하기

행동

알고리즘 문제 겨우 겨우 겨우 겨우 겨우 드디어 풀었다. 정말 기쁘지만 시간이 너무 오래 걸려 약간 잘못되게 푼 것 같다. 지금 효율적으로 푼 사람 코드를 보고 있다. 지금까지 너무 많은 시간을 썼으니 내일 하도록 하자.

11066번: 파일 합치기

Django 좀 보자.

회고

진짜 알고리즘 문제 푸는게 막막했지만 몇칠동안 고민해서 스스로 풀었다는게 뭔가 기분이 좋아진다. 또 이게 맞는 듯. 無에서 有를 창조하는 지식이 난 필요하다.

혼자 하니 자꾸 딴짓해서 다른 줌방에서 딴짓하지 말고 같이 공부하자는 방에 들어갔는데 효과가 좋은 듯. 애용해야겠다.

'과거의 것들 > AI Tech boostcamp' 카테고리의 다른 글

P-stage2 [Day4]  (0) 2021.11.30
P-stage2 [Day3]  (0) 2021.11.30
P-stage2 [Day1]  (0) 2021.11.29
P-stage2대비 wandb  (0) 2021.11.28
P-stage 1 마지막 정리  (0) 2021.11.28