음성 인식 및 STT

VOICE_140202_L

 

1. 오디오 처리

  • 오디오 변환
    • 모든 오디오를 GSM 6.10 포멧으로 변경
    • 모든 오디오를 RAW PCM 포멧으로 변경
  • EPD (Endpoint Detection) 측정
    • 음절 단위로 오디오를 분할하기 위해 EPD 정보를 사용
    • EPD 분석을 통해 음성의 빠르기를 측정
  • 파일 암호화
    • AES 256 암호화 / 복호화
  • 오디오 분할
    • EPD를 기준으로 파일을 분할 처리
  • 오디오 속성 추출
    • 오디오 파일의 Properties를 추출하여 특성에 맞는 비지니스 로직에 사용
  • TCP 서버
    • 오디오 처리에 관한 Request / Response를 처리하기 위한 서버

2. 음성분석 컨트롤

  • 가용성
    • 각 분석 데몬과 분석 서버의 상태를 관리
    • 특정 서버/데몬이 오동작시 Fail Over 동작
  • 분산처리
    • 음성인식 및 STT 엔진으로의 분석시 분산처리
    • 공휴일/대체휴일 등에 따라 능동적인 스케쥴링
    • 리소스 사용량 / 업무량에 따른 분산 처리
  • Resource 관리
    • 불필요 자원의 삭제
    • 각 서버의 CPU/Memory/File System 정보 수집
  • 집계
    • 음성인식 및 STT 분석 집계
    • 음성인식에 따른 고위험 음원정보 집계

3. 음성분석 및 STT 인터페이스

  • 음성분석 인터페이스
    • 음성 분석 Request / Response
    • 음성 분석 결과에 대한 Mining
  • STT 인터페이스
    • STT Request / Response
    • STT 결과에 대한 Mining

4. 음성분석 엔진

  • 음성 분석 처리
    • Stream(오디오 파일, 마이크, RTP 등)에 대한 음성분석 엔진
    • W3C Speech Recognition Grammar specification 을 사용하여 효과적인 키워드 관리
  • TCP 서버
    • 다양한 이기종과의 통신을 지원하기 위해 TCP 서버 형태로 구현

 

Notice

  • 이 저작물은 크리에이티브 커먼즈 저작자표시-비영리-변경금지 2.0 대한민국 라이선스에 따라 이용할 수 있습니다. 크리에이티브 커먼즈 라이선스
  • 저작권과 관련된 파일요청 및 작업요청을 받지 않습니다.
  • 댓글에 대한 답변은 늦을 수도 있습니다.
  • 댓글 남기기

    이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다