2024-1 하계 모각코 기록

GITHUB로 편집하기

01 Jul 2024 21:00 V.IRACK

2024-1 하계 모각코 기록

개인 목표 설정

😀학번: 202102545

🎡목표: 인공 지능 관련 공부 후 논문 작성할 내용 있는지 탐색해보기!

📄세부 계획 :

1주차[07/07], SW 사업단 주관 가짜 음성 탐지 대회 관련 리서치
2주차[07/14], SW 사업단 주관 가짜 음성 탐지 데이터 증강
3주차[07/21], 대조 학습, 반 지도 학습 관련 학습
4주차[07/28], 자연어 처리 관련 논문 리뷰 및 정리 (1)
5주차[08/04], 자연어 처리 관련 논문 리뷰 및 정리 (2)
6주차[08/11], 자연어 처리 관련 논문 리뷰 및 정리 (3)

공부 내용 정리

1주차 활동

오늘의 계획

SW 사업단 주관 가짜 음성 탐지 대회 관련 리서치

결과

가짜 음성 탐지 대회 관련 리서치 진행
torchaudio 라이브러리 구성 요소 파악 (특징 추출)

Spectrogram

Mel Spectrogram

MFCC

2주차 활동

오늘의 계획

SW 사업단 주관 가짜 음성 탐지 데이터 증강

결과

가짜 음성 탐지 데이터 증강 진행
작성한 증강 코드

증강 방법:
- Real/Fake간 혼합
- 랜덤 노이즈 추가
예상되는 문제점:
- 데이터 불균형
- 증강 방법에 따른 성능 변화
모델 구조와 학습 방법도 함께 개선:

3주차 활동

오늘의 계획

도메인 적응/전환 기법 공부 및 코드 작성

결과

이전까지 작성한 코드에 도메인 적응 레이어를 추가해보고 성능을 확인해봄
=> 도메인 적응 레이어를 사용하면 학습이 불안정해지고, 잘 수렴하지 않는 문제가 발생하여 추가적으로 해결 방법을 찾아야 한다는 것을 알게됨
도메인 전환 기법을 사용해보았는데, 역시 마찬가지로 학습이 불안정해지고, 잘 수렴하지 않는 문제가 발생함
도메인 적응/전환과 데이터 증강이 혼합적으로 적용되어야 할 것으로 보임
작성한 코드

DomainDifferenceLearner: 학습 도메인과 테스트 도메인의 오디오 특징을 추출하고, 그 차이를 학습합니다.

NoiseGenerator: 도메인 차이를 입력으로 받아 그에 해당하는 노이즈를 생성합니다.

DomainDiscriminator: 생성된 노이즈가 추가된 학습 도메인 오디오와 실제 테스트 도메인 오디오를 구분하려 합니다.

학습 과정:

도메인 차이를 학습합니다.
학습된 차이를 바탕으로 노이즈를 생성합니다.
생성된 노이즈를 학습 도메인 오디오에 추가합니다.
판별자를 통해 생성된 노이지 오디오가 테스트 도메인과 유사해지도록 학습합니다.
도메인 차이 보존 손실을 통해 생성된 노이즈가 실제 도메인 차이를 반영하도록 합니다.

4주차 활동

오늘의 계획

논문 작성을 위한 주제 선정 리서치

결과

주제 몇 가지를 생각해보았음
1. 부정적인 단어와 어투가 사용된 문장을 완곡 표현으로 변환하는 모델을 만들어보자.
2. 음악 장르별 특징 추출 후 도메인 적응으로 LLM이 생성한 가사에 음악을 덮어써서 생성하는 모델은 어떨까?
3. 문장 Style Transfer via few-shot learning
4. TTT 구조로 텍스트 분류 성능 비교
우선, 주제별 실효성 확인을 위해 조사가 필요하므로, 다음 주 부터 주제를 확정하여 연구를 시작해볼 예정

5주차 활동

오늘의 계획

주제 선정 후 연구 시작

결과

지난 주 선정한 주제들에 대해 추가 조사를 진행해본 결과, 4번 TTT레이어 구조를 활용한 텍스트 분류 성능 비교 주제를 선정하였음.
TTT 레이어 구조에 대한 이해를 위해 논문을 읽고, 구현 코드를 읽고 이해하는 시간을 가짐.

6주차 활동

오늘의 계획

TTT 레이어 구조에 대한 이해를 바탕으로, 논문 원저자들이 제시하지 않은 비전 모델에서의 성능 테스트 진행해보기

결과

11개의 클래스를 가진 사진 데이터셋을 이용하여 TTT 레이어를 적용했을 때와 적용하지 않았을 때 성능 변화를 관찰하보기 위한 모델을 작성하였음.
Resnet-like 구조의 인코더 레이어 이후 어텐션을 사용하는 분류기를 만들어 보았는데 비전 트랜스포머가 아니라 단순 레즈넷 구조의 아웃풋을 받는 형태이다 보니,
논문에서 제시된 TTT-Linear를 그대로 적용하기에는 무리가 있었다.
따라서 TTT-Linear, TTT-Model 등을 사용하지 않고, TTT-Base를 기반으로 새로운 비전 태스크에 맞는 레이어 설계가 필요하다는 점을 인지하게 되었다.

모각코 회고

이번 모각코 기간 동안, 개인적으로 아주 크게 발전이 있었다고 생각하고 있음.
처음으로 음성 데이터를 증강, 특징 추출 해볼 수 있는 경험을 해보았고, 더 나아가 모각코 회의를 통해 알게된 실버 라벨링이나 자기 지도 학습 방법에 대해서는 매우 흥미로웠음.
또한, SW 사업단 대회 참여 결과 분석 토론을 통해 도메인 적응이라는 새로운/생소한 인공지능 분야에 대해 알게 되어 매우 유익했음.
논문 관련해서는, 같은 팀원들은 논문 작성을 위해 한걸음씩 계속 나아가는데, 혼자서만 어떻게 논문을 작성해야 할지 잘 모르겠다는 생각이 점점 들어서 불안한 생각이 들었음.
비록, 이번 여름 방학 모각코 기간 동안에는 논문을 작성할 만한 성과를 이루지 못했으나, 2학년이 지나기 전에 한 편을 완성해보겠다는 목표를 가지고 2학기를 맞이하려고 함.