2024-1 하계 모각코 기록

GITHUB로 편집하기

V.IRACKIRACK000

2024-1 하계 모각코 기록



개인 목표 설정

😀학번: 202102545

🎡목표: 인공 지능 관련 공부 후 논문 작성할 내용 있는지 탐색해보기!

📄세부 계획 :

  • 1주차[07/07], SW 사업단 주관 가짜 음성 탐지 대회 관련 리서치
  • 2주차[07/14], SW 사업단 주관 가짜 음성 탐지 데이터 증강
  • 3주차[07/21], 대조 학습, 반 지도 학습 관련 학습
  • 4주차[07/28], 자연어 처리 관련 논문 리뷰 및 정리 (1)
  • 5주차[08/04], 자연어 처리 관련 논문 리뷰 및 정리 (2)
  • 6주차[08/11], 자연어 처리 관련 논문 리뷰 및 정리 (3)


공부 내용 정리

1주차 활동

오늘의 계획

  • SW 사업단 주관 가짜 음성 탐지 대회 관련 리서치

결과

  • 가짜 음성 탐지 대회 관련 리서치 진행
  • torchaudio 라이브러리 구성 요소 파악 (특징 추출)

자료

  • Spectrogram

자료

  • Mel Spectrogram

자료

  • MFCC

자료


2주차 활동

오늘의 계획

  • SW 사업단 주관 가짜 음성 탐지 데이터 증강

결과

  • 가짜 음성 탐지 데이터 증강 진행
  • 작성한 증강 코드

자료

  • 증강 방법:
    • Real/Fake간 혼합
    • 랜덤 노이즈 추가
  • 예상되는 문제점:
    • 데이터 불균형
    • 증강 방법에 따른 성능 변화
  • 모델 구조와 학습 방법도 함께 개선:

자료


3주차 활동

오늘의 계획

  • 도메인 적응/전환 기법 공부 및 코드 작성

결과

  • 이전까지 작성한 코드에 도메인 적응 레이어를 추가해보고 성능을 확인해봄
  • => 도메인 적응 레이어를 사용하면 학습이 불안정해지고, 잘 수렴하지 않는 문제가 발생하여 추가적으로 해결 방법을 찾아야 한다는 것을 알게됨
  • 도메인 전환 기법을 사용해보았는데, 역시 마찬가지로 학습이 불안정해지고, 잘 수렴하지 않는 문제가 발생함
  • 도메인 적응/전환과 데이터 증강이 혼합적으로 적용되어야 할 것으로 보임
  • 작성한 코드
DomainDifferenceLearner: 학습 도메인과 테스트 도메인의 오디오 특징을 추출하고, 그 차이를 학습합니다.
NoiseGenerator: 도메인 차이를 입력으로 받아 그에 해당하는 노이즈를 생성합니다.
DomainDiscriminator: 생성된 노이즈가 추가된 학습 도메인 오디오와 실제 테스트 도메인 오디오를 구분하려 합니다.

학습 과정:

  • 도메인 차이를 학습합니다.
  • 학습된 차이를 바탕으로 노이즈를 생성합니다.
  • 생성된 노이즈를 학습 도메인 오디오에 추가합니다.
  • 판별자를 통해 생성된 노이지 오디오가 테스트 도메인과 유사해지도록 학습합니다.
  • 도메인 차이 보존 손실을 통해 생성된 노이즈가 실제 도메인 차이를 반영하도록 합니다.

자료 자료 자료


4주차 활동

오늘의 계획

  • 논문 작성을 위한 주제 선정 리서치

결과

  • 주제 몇 가지를 생각해보았음
    1. 부정적인 단어와 어투가 사용된 문장을 완곡 표현으로 변환하는 모델을 만들어보자.
    2. 음악 장르별 특징 추출 후 도메인 적응으로 LLM이 생성한 가사에 음악을 덮어써서 생성하는 모델은 어떨까?
    3. 문장 Style Transfer via few-shot learning
    4. TTT 구조로 텍스트 분류 성능 비교
  • 우선, 주제별 실효성 확인을 위해 조사가 필요하므로, 다음 주 부터 주제를 확정하여 연구를 시작해볼 예정

5주차 활동

오늘의 계획

  • 주제 선정 후 연구 시작

결과

  • 지난 주 선정한 주제들에 대해 추가 조사를 진행해본 결과, 4번 TTT레이어 구조를 활용한 텍스트 분류 성능 비교 주제를 선정하였음.
  • TTT 레이어 구조에 대한 이해를 위해 논문을 읽고, 구현 코드를 읽고 이해하는 시간을 가짐.

자료


6주차 활동

오늘의 계획

  • TTT 레이어 구조에 대한 이해를 바탕으로, 논문 원저자들이 제시하지 않은 비전 모델에서의 성능 테스트 진행해보기

결과

  • 11개의 클래스를 가진 사진 데이터셋을 이용하여 TTT 레이어를 적용했을 때와 적용하지 않았을 때 성능 변화를 관찰하보기 위한 모델을 작성하였음.
  • Resnet-like 구조의 인코더 레이어 이후 어텐션을 사용하는 분류기를 만들어 보았는데 비전 트랜스포머가 아니라 단순 레즈넷 구조의 아웃풋을 받는 형태이다 보니,
  • 논문에서 제시된 TTT-Linear를 그대로 적용하기에는 무리가 있었다.
  • 따라서 TTT-Linear, TTT-Model 등을 사용하지 않고, TTT-Base를 기반으로 새로운 비전 태스크에 맞는 레이어 설계가 필요하다는 점을 인지하게 되었다.

자료

자료



모각코 회고

  • 이번 모각코 기간 동안, 개인적으로 아주 크게 발전이 있었다고 생각하고 있음.
  • 처음으로 음성 데이터를 증강, 특징 추출 해볼 수 있는 경험을 해보았고, 더 나아가 모각코 회의를 통해 알게된 실버 라벨링이나 자기 지도 학습 방법에 대해서는 매우 흥미로웠음.
  • 또한, SW 사업단 대회 참여 결과 분석 토론을 통해 도메인 적응이라는 새로운/생소한 인공지능 분야에 대해 알게 되어 매우 유익했음.
  • 논문 관련해서는, 같은 팀원들은 논문 작성을 위해 한걸음씩 계속 나아가는데, 혼자서만 어떻게 논문을 작성해야 할지 잘 모르겠다는 생각이 점점 들어서 불안한 생각이 들었음.
  • 비록, 이번 여름 방학 모각코 기간 동안에는 논문을 작성할 만한 성과를 이루지 못했으나, 2학년이 지나기 전에 한 편을 완성해보겠다는 목표를 가지고 2학기를 맞이하려고 함.