연설에 대한 스피치 텍스트
음성 합성은 인간의 음성의 인공 생산이다. 이 용도에 사용되는 컴퓨터 시스템을 음성 신디사이저라고 하며 소프트웨어 또는 하드웨어 제품에서 구현할 수 있습니다. TTS(텍스트 음성) 시스템은 일반 언어 텍스트를 음성으로 변환합니다. 다른 시스템은 음성 전사와 같은 상징적 언어 표현을 음성으로 렌더링합니다. [1] 합성 된 음성은 데이터베이스에 저장된 기록 된 음성의 조각을 연결하여 만들 수 있습니다. 시스템은 저장된 음성 단위의 크기가 다릅니다. 휴대폰이나 디폰을 저장하는 시스템은 가장 큰 출력 범위를 제공하지만 선명도가 부족할 수 있습니다. 특정 사용 도메인의 경우 전체 단어 또는 문장을 저장하면 고품질 출력이 가능합니다. 또는 신디사이저는 보컬로 및 기타 인간의 음성 특성의 모델을 통합하여 완전히 "합성" 음성 출력을 생성할 수 있다. [2] 음성 신디사이저의 품질은 인간의 목소리와 유사성과 이해 능력에 의해 판단됩니다. 눈에 잘 띄는 텍스트 음성 프로그램을 통해 시각 장애가 있거나 독서 장애가 있는 사용자는 가정용 컴퓨터에서 서면 작업을 들을 수 있습니다. 많은 컴퓨터 운영 체제에는 1990년대 초부터 음성 합성기를 포함했습니다.
일반적인 TTS 시스템 개요
자동 공지 사항 메뉴0:00 스웨덴에 도착하는 기차를 발표 하는 합성 음성. 이 파일을 재생하는 데 문제가 있습니까? 미디어 도움말을 참조하십시오.
마이크로 소프트 샘의 샘플 메뉴0:00 마이크로 소프트 윈도우 XP의 기본 음성 신디사이저 음성 은 "빠른 갈색 여우는 게으른 개를 통해 점프 1,234,567,890 시간. 소이" 이 파일을 재생하는 데 문제가 있습니까? 미디어 도움말을 참조하십시오. 텍스트 음성 변환 시스템(또는 "엔진")은 프런트 엔드와 백 엔드의 두 부분으로 구성됩니다. 프런트 엔드에는 두 가지 주요 작업이 있습니다. 먼저 숫자 및 약어와 같은 기호가 포함된 원시 텍스트를 작성된 단어와 동등한 단어로 변환합니다. 이 프로세스를 텍스트 정규화, 사전 처리 또는 토큰화라고 도합니다. 그런 다음 프런트 엔드는 각 단어에 음성 전사를 할당하고 텍스트를 구문, 절 및 문장과 같은 prosodic 단위로 나누고 표시합니다. 단어에 음성 전사를 할당하는 프로세스를 텍스트-전화 또는 그래프-투-폰 변환이라고 합니다. 음성 전사 및 보조 정보는 프런트 엔드에 의해 출력되는 상징적 인 언어 표현을 구성합니다. 백 엔드—종종 신디사이저&mdash라고 도대체,다음 사운드로 상징적 언어 표현을 변환합니다. 특정 시스템에서이 부분에는 대상 프로소디 (피치 윤곽, 전화 통화 지속 시간)의 계산이 포함되어 있습니다[4] 출력 음성에 부과됩니다.
버전 기록
- 버전 1.0 에 게시 2013-10-06
프로그램 세부 정보
- 범주: 오디오 및 멀티미디어 > 오디오 파일 플레이어
- 게시자: Phelipe Maia
- 라이센스: 무료
- 가격: N/A
- 버전: 1.0
- 플랫폼: android