음성인식의 원리, "경쟁에서 살아남는 단어 만이 인식되는 냉혹한 세계"

입력 2013-11-13 07:56

  • 가장작게

  • 작게

  • 기본

  • 크게

  • 가장크게

음성인식의 원리

(사진=뉴시스)

'음성인식의 원리'가 소개돼 네티즌들의 관심이 쏠리고 있다.

최근 한 포털 사이트에는 '음성인식의 원리'라는 제목의 글이 게재돼 네티즌들의 눈길을 끈다.

게시된 글을 보면 음성인식기가 사람의 음성을 인식하는 기본적인 원리는 음성 파형 분석이다.

음성인식기는 매 1/1000초 단위로 그 시점에 있는 약 0.02초 길이의 음편을 가져와 분석한다. 그때 짧은 길이의 음성 파형은 여러 단계의 신호 처리를 거쳐 최종적으로 10개 이상의 숫자들이 나오는데, 음성 파형 분석은 성대 진동 횟수와 입 모양을 그릴 수 있는 숫자들을 분석하는 것이다.

한편, 음성 인식 측면에서 보면 사람은 어떤 음높이의 ‘학교’라는 말을 들어도 모두 ‘학교’라는 언어 정보를 추출한다. 즉, 성대의 진동 주기는 언어 정보와 무관하다. 그러므로 음성 파형을 분석한 숫자들을 더 이상 사용하지 않는다.

이를 비유적으로 표현해보자. 성문에서부터 입까지 찍는 특수한 사진기가 있다고 가정하고 그 사진기는 초당 100회 사진을 찍게 된다. 음성인식은 그 사진들을 시간 축으로 나열해 놓고 어떤 말일까 계산하는 과정이라고 할 수 있다.

음성인식기가 빠르게 음성을 인식하는 방법은 간단하다. 모든 후보 단어 열에 대한 가능성을 열어두고, 음성인식기가 음성을 듣다가 정답이 아닐 것 같은 후보들을 빨리 탈락시키면 된다. 음성 신호가 모두 처리됐을 때 그 험한 경쟁에서 살아남은 최종 단어가 최종 인식 결과가 되기 때문이다.

  • 좋아요0
  • 화나요0
  • 슬퍼요0
  • 추가취재 원해요0

주요 뉴스

  • 연준, 기준금리 동결…4.25~4.5%
  • ‘터졌다하면 수백억’…정치권 규제 프레임 갇힌다 [횡령의 땅, 규제의 그림자 下]
  • 어버이날 인사말 고민? 2025 어버이날 문구 총정리
  • "'효심'으로 대하니 만족도도 올라가요" 우리은행 시니어 점포 가보니 [그레이트 시니어 上]
  • 챔스 결승전 대진표 완성…'빅 이어' 주인공은?
  • '골때녀' 월드클라쓰, 4회 우승 저력 어디갔나⋯구척장신에 1-3 패배 '멸망전' 위기
  • 가족사진 무료라더니 앨범·액자 비용 폭탄…가정의 달 사기 주의보 [데이터클립]
  • 김문수 "당무우선권 발동...당 지도부, 강제단일화 손떼라"

댓글

0 / 300
  • 이투데이 정치대학 유튜브 채널
  • 이투데이TV 유튜브 채널
  • 이투데이 컬피 유튜브 채널
  • 오늘의 상승종목

  • 05.08 12:37 실시간

실시간 암호화폐 시세

  • 종목
  • 현재가(원)
  • 변동률
    • 비트코인
    • 139,388,000
    • +1.83%
    • 이더리움
    • 2,633,000
    • +1.62%
    • 비트코인 캐시
    • 564,000
    • +5.42%
    • 리플
    • 3,063
    • +0.66%
    • 솔라나
    • 211,600
    • +2.07%
    • 에이다
    • 989
    • +3.02%
    • 이오스
    • 1,167
    • +18.36%
    • 트론
    • 353
    • +1.73%
    • 스텔라루멘
    • 377
    • +1.62%
    • 비트코인에스브이
    • 53,100
    • +1.53%
    • 체인링크
    • 20,210
    • +2.12%
    • 샌드박스
    • 401
    • +3.89%
* 24시간 변동률 기준