2024-1 하계 모각코 기록
2024-1 하계 모각코 기록
개인 목표 설정
😀학번: 202102545
🎡목표: 인공 지능 관련 공부 후 논문 작성할 내용 있는지 탐색해보기!
📄세부 계획 :
- 1주차[07/07], SW 사업단 주관 가짜 음성 탐지 대회 관련 리서치
- 2주차[07/14], SW 사업단 주관 가짜 음성 탐지 데이터 증강
- 3주차[07/21], 대조 학습, 반 지도 학습 관련 학습
- 4주차[07/28], 자연어 처리 관련 논문 리뷰 및 정리 (1)
- 5주차[08/04], 자연어 처리 관련 논문 리뷰 및 정리 (2)
- 6주차[08/11], 자연어 처리 관련 논문 리뷰 및 정리 (3)
공부 내용 정리
1주차 활동
오늘의 계획
- SW 사업단 주관 가짜 음성 탐지 대회 관련 리서치
결과
- 가짜 음성 탐지 대회 관련 리서치 진행
- torchaudio 라이브러리 구성 요소 파악 (특징 추출)
- Spectrogram
- Mel Spectrogram
- MFCC
2주차 활동
오늘의 계획
- SW 사업단 주관 가짜 음성 탐지 데이터 증강
결과
- 가짜 음성 탐지 데이터 증강 진행
- 작성한 증강 코드
- 증강 방법:
- Real/Fake간 혼합
- 랜덤 노이즈 추가
- 예상되는 문제점:
- 데이터 불균형
- 증강 방법에 따른 성능 변화
- 모델 구조와 학습 방법도 함께 개선:
3주차 활동
오늘의 계획
- 도메인 적응/전환 기법 공부 및 코드 작성
결과
- 이전까지 작성한 코드에 도메인 적응 레이어를 추가해보고 성능을 확인해봄
- => 도메인 적응 레이어를 사용하면 학습이 불안정해지고, 잘 수렴하지 않는 문제가 발생하여 추가적으로 해결 방법을 찾아야 한다는 것을 알게됨
- 도메인 전환 기법을 사용해보았는데, 역시 마찬가지로 학습이 불안정해지고, 잘 수렴하지 않는 문제가 발생함
- 도메인 적응/전환과 데이터 증강이 혼합적으로 적용되어야 할 것으로 보임
- 작성한 코드
DomainDifferenceLearner: 학습 도메인과 테스트 도메인의 오디오 특징을 추출하고, 그 차이를 학습합니다.
NoiseGenerator: 도메인 차이를 입력으로 받아 그에 해당하는 노이즈를 생성합니다.
DomainDiscriminator: 생성된 노이즈가 추가된 학습 도메인 오디오와 실제 테스트 도메인 오디오를 구분하려 합니다.
학습 과정:
- 도메인 차이를 학습합니다.
- 학습된 차이를 바탕으로 노이즈를 생성합니다.
- 생성된 노이즈를 학습 도메인 오디오에 추가합니다.
- 판별자를 통해 생성된 노이지 오디오가 테스트 도메인과 유사해지도록 학습합니다.
- 도메인 차이 보존 손실을 통해 생성된 노이즈가 실제 도메인 차이를 반영하도록 합니다.
4주차 활동
오늘의 계획
- 논문 작성을 위한 주제 선정 리서치
결과
- 주제 몇 가지를 생각해보았음
- 부정적인 단어와 어투가 사용된 문장을 완곡 표현으로 변환하는 모델을 만들어보자.
- 음악 장르별 특징 추출 후 도메인 적응으로 LLM이 생성한 가사에 음악을 덮어써서 생성하는 모델은 어떨까?
- 문장 Style Transfer via few-shot learning
- TTT 구조로 텍스트 분류 성능 비교
- 우선, 주제별 실효성 확인을 위해 조사가 필요하므로, 다음 주 부터 주제를 확정하여 연구를 시작해볼 예정
5주차 활동
오늘의 계획
- 주제 선정 후 연구 시작
결과
- 지난 주 선정한 주제들에 대해 추가 조사를 진행해본 결과, 4번 TTT레이어 구조를 활용한 텍스트 분류 성능 비교 주제를 선정하였음.
- TTT 레이어 구조에 대한 이해를 위해 논문을 읽고, 구현 코드를 읽고 이해하는 시간을 가짐.
6주차 활동
오늘의 계획
- TTT 레이어 구조에 대한 이해를 바탕으로, 논문 원저자들이 제시하지 않은 비전 모델에서의 성능 테스트 진행해보기
결과
- 11개의 클래스를 가진 사진 데이터셋을 이용하여 TTT 레이어를 적용했을 때와 적용하지 않았을 때 성능 변화를 관찰하보기 위한 모델을 작성하였음.
- Resnet-like 구조의 인코더 레이어 이후 어텐션을 사용하는 분류기를 만들어 보았는데 비전 트랜스포머가 아니라 단순 레즈넷 구조의 아웃풋을 받는 형태이다 보니,
- 논문에서 제시된 TTT-Linear를 그대로 적용하기에는 무리가 있었다.
- 따라서 TTT-Linear, TTT-Model 등을 사용하지 않고, TTT-Base를 기반으로 새로운 비전 태스크에 맞는 레이어 설계가 필요하다는 점을 인지하게 되었다.
모각코 회고
- 이번 모각코 기간 동안, 개인적으로 아주 크게 발전이 있었다고 생각하고 있음.
- 처음으로 음성 데이터를 증강, 특징 추출 해볼 수 있는 경험을 해보았고, 더 나아가 모각코 회의를 통해 알게된 실버 라벨링이나 자기 지도 학습 방법에 대해서는 매우 흥미로웠음.
- 또한, SW 사업단 대회 참여 결과 분석 토론을 통해 도메인 적응이라는 새로운/생소한 인공지능 분야에 대해 알게 되어 매우 유익했음.
- 논문 관련해서는, 같은 팀원들은 논문 작성을 위해 한걸음씩 계속 나아가는데, 혼자서만 어떻게 논문을 작성해야 할지 잘 모르겠다는 생각이 점점 들어서 불안한 생각이 들었음.
- 비록, 이번 여름 방학 모각코 기간 동안에는 논문을 작성할 만한 성과를 이루지 못했으나, 2학년이 지나기 전에 한 편을 완성해보겠다는 목표를 가지고 2학기를 맞이하려고 함.