말콩은 발표 연습 시 객관적인 피드백을 얻기 어려운 문제를 해결하기 위해 개발되었습니다. 발표자의 음성 및 영상을 AI로 분석하여 수치화된 지표를 제공하며, 특히 한국어 발표 환경에 최적화된 분석 엔진과 GPT 기반의 맞춤형 코칭을 제공합니다.
- 객관적 평가: 속도, 명확성, 피치, 크기, 불안도 등 5가지 핵심 지표 수치화
- 한국어 특화: Whisper 기반의 한국어 음성 인식 및 분석 최적화
- 성장 추적: 이전 발표 데이터와의 비교를 통한 개선 사항 확인
- 영상 업로드 및 실시간 녹화 기능 지원
- 5가지 지표를 바탕으로 한 A~D 등급 평가 및 시각화 차트 제공
- 부자연스러운 문장 및 어색한 표현 수정 제안
- 빈번하게 사용된 반복 단어 분석
- 발표 내용 기반 예상 질문 및 시간 조절 가이드 제공
- 동일 주제 내 이전 발표와 최신 발표의 항목별 점수 변화 분석
- 팀 공간 내 발표 공유 및 댓글 기능을 통한 상호 피드백
말콩은 Multimodal 분석을 통해 다음과 같은 데이터를 산출합니다.
| 지표 | 설명 | 분석 방법 |
|---|---|---|
| 속도 | 발화 속도 (WPM) | Whisper STT 기반 단어 수 및 시간 계산 |
| 명확성 | 발음의 정확도 | STT 수행 시 산출되는 신뢰도(Confidence) 측정 |
| 피치 | 목소리 높낮이 변화 | Praat를 활용한 주파수(Hz) 편차 분석 |
| 크기 | 음성 볼륨의 적절성 | 평균 음량(dB) 측정 및 기준값 대비 평가 |
| 불안도 | 긴장 및 떨림 정도 | 음성(Jitter, Shimmer) 및 영상(움직임) 복합 분석 |
불안도 분석 원리
- 음성 데이터의 미세한 떨림과 영상 데이터의 눈 깜빡임 빈도, 신체 움직임을 동시에 분석합니다.
- 각 지표의 이상치가 동시에 발생하는 시점을 불안 징후 이벤트로 간주하여 전체적인 불안 수준을 결정합니다.
- Frontend: React
- 사용자 인터페이스 및 분석 결과 시각화 담당
- Backend: Spring Boot
- 사용자 인증, 데이터 관리(MySQL), 분석 요청 처리 및 스케줄링
- AI 분석 서버: FastAPI
- Whisper: Speech-to-Text (음성 인식 및 텍스트 변환)
- Praat: 음성 특성(피치, 크기, 주파수 변동) 분석
- MediaPipe: 영상 기반 비언어적 행동(신체 움직임, 눈 깜빡임) 분석
- GPT API: 분석 결과 기반 대본 교정 및 맞춤형 피드백 생성
- 데모 영상: 시연 영상 바로가기
- 팀원 정보
- 김서영: 프론트엔드 / 백엔드
- 김승건: 프론트엔드 / 백엔드
- 김준표: AI
