P-stage2대비 wandb
과거의 것들/AI Tech boostcamp

P-stage2대비 wandb

wandb

  • 마스터님이 짜주신 baseline code로 이미 tensorboard가 사용되고 있었지만 더 편리하다고 하고, 또 sweep을 사용하면 AutoML도 지원한다고 해서 해봤다.

sglee487/train_01

확실히 좋은 것 같다. 전엔 훈련만 하느라 급해서 통제변인 실험변인을 제대로 확인하지 못하며 수행했었는데 그런것이 눈에 보인다.

그래서 저렇게 한 결론은 이번 stage1에선 augmentation을 안한것이 성능이 대체적으로 더 좋게 나왔고, AdamP와 Adam의 성능이 좋게 나왔다. 이는 대회를 진행하면서 여러사람이 말한 것과 일치한다. 또 AdamW가 제일 최근에 나왔는데 이것도 성능이 좋다고 해서 사용해봐야 할듯.

내가 아는것과 달랐던 점은 미미하긴 하지만 batch_size가 클수록 좋고, focal loss가 cross_entropy보다 좋게 나왔다는 점이다. 그리고 의외로 val_ratio는 크게 상관없는 모습. 이 점은 train data에서 val data로 나누지 않고 전부 훈련시켜서 점수를 올린것과는 다른 사실이다. 또 batch_size가 높다는 점에서 확실히 gradient accumulation을 해야 겠다는 생각을 했고, focal loss는 가슴으로는 이해가 안되지만 데이터 불균형에선 성능이 더 좋을수도 있다고 기억해야 겠다.

wandb의 sweep 설정시 변수 설정선택이 1개밖에 없을땐 그냥 같이 변수로 넣어서 실행했지만 저렇게 그림에 반영되어서 나올 줄은 몰랐다. 어차피 변인요소가 1개밖에 없을 때도 변인요소로 넣으면 직관적으로 뭘로 설정되어있는지 바로 확인할 순 있지만 보기가 힘들어지니까 따로 value로 설정해서 빼줘야 겠다. 또 random seed나 val_ratio는 굳이 변인으로 설정하지 않아도 되겠다.