Optimizing Spatial Audio Telephony and Teleconferencing

DSpace Repository


Dateien:

URI: http://nbn-resolving.de/urn:nbn:de:bsz:21-opus-72943
http://hdl.handle.net/10900/50073
Dokumentart: PhDThesis
Date: 2011
Source: (Published In: Journal of Universal Computer Science, vol. 19, no. 12 (2013), 1718- 1735, June, 2013)(Published in: Sindh Univ. Res. Jour. (Sci. Ser.) Vol.44 (3) 3 6 7 - 3 74 (2012) (Mehran University Research Journal of Engineering & Technology, Volume 32, No. 3, July, 2013 [ISSN 0254-7821]) (Published in: In International Conference on Acoustics, NAG/DAGA, March 2009, Rotterdam, Netherlands) (Published in: In IEEE Consumer Communications and Networking Conference - Multimedia Communication and Services (CCNC 2010), January 2010, Las Vegas, USA) (Published in: 129th Audio Engineering Society Convention, November 2010, San Francisco CA, USA) (Published in: 44th International Conference: Audio Networking. Audio Engineering Society, 2011) (Published in: Second International Multi Topic Conference, IMTIC 2012, March 28-30, 2012, Jamshoro, Pakistan)
Language: English
Faculty: 7 Mathematisch-Naturwissenschaftliche Fakultät
Department: Informatik
Advisor: Hoene, Christian (Dr. -Ing.)
Day of Oral Examination: 2011-12-14
DDC Classifikation: 004 - Data processing and computer science
Keywords: Telekonferenz
Other Keywords: 3D Telefonie
Spatial Audio Teleconferencing , Quality of Experience (QoE) , 3D Audio , QoE modeling , Teleconference Participants Placement
License: http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=de http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=en
Order a printed copy: Print-on-Demand
Show full item record

Inhaltszusammenfassung:

Die Erfindung des Telefons übt einen signifikanten Einfluss auf das moderne Leben aus und kann zweifelsohne als eine der wichtigsten Erfindungen der Moderne angesehen werden. Doch während der letzten Jahrzehnte hat sich die sprachliche Qualität dieser Erfindung kaum gebessert. So leiden Nutzer des Telefons noch immer an Problemen wie Verständnisschwierigkeiten, mangelhafter Audioqualität und Störgeräuschen. Um diese Probleme zu beheben wurde der Einsatz von Raumklang (3D-Audio) vorgeschlagen. 3D Audio bietet erhebliche Vorteile für die Audio- und Sprachqualität, da der Mensch von Natur aus räumlich hört. Die Beschaffenheit der Virtuellen Akustischen Umgebung (VAU) übt dabei einen großen Einfluss auf die Wahrnehmung des Raumklanges aus. Aus diesem Grund ist es notwendig, unterschiedliche Parameter einer VAU auf ihren Einfluss auf die Sprachverständlichkeit, Audioqualität und Lokalisierbarkeit zu untersuchen. Diese Arbeit stellt daher ein Telefon- und Telekonferenzsystem vor, das 3D Audiotechnologien und individuell konfigurierbare VAUs unterstützt. Das System besteht aus einem VoIP-Softphone, das um Codecs mit geringer Verzögerung erweitert wurde, 3D Renderern und Kopfhörern mit Head-Tracking Sensoren. Weiterhin beschreibt diese Arbeit eine Reihe experimenteller Messungen zur Optimierung des Telefonsystems. Die Experimente umfassen die Evaluierung unterschiedlicher Parameter zur Beschreibung der Sprachqualität, Sprachverständlichkeit und Lokalisierbarkeit der Teilnehmer einer Telekonferenz. So wurden sieben unterschiedliche Teilnehmerplatzierungen in zwei unterschiedlichen VAUs evaluiert. In elf weiteren Szenarien wurde der Einfluss unterschiedlicher Umgebungsparameter, Teilnehmerplatzierungen, eines Konferenztisches sowie der Anzahl simultaner Sprecher und deren Stimmcharakteristika untersucht. Zusätzlich wurden Konversationstests durchgeführt, die den Einfluss von Mono-, Stereo- und Raumklang sowie den Einsatz von Head-Tracking-Kopfhörern auf die Audioqualität messen. Letztendlich beschreibt diese Arbeit ein konzeptuelles, ganzheitliches Quality of Experience (QoE)-Modell, das alle Domänen eines Kommunikations-Ökosystems sowie die Beziehungen zwischen QoE-Aspekten und VAUs umfasst. Eine Auswertung des Modells anhand von Nutzerstudien und empirischer Analyse wird dargestellt. Auf der Basis dieses Modells wird außerdem eine Fallstudie mit dem Schwerpunkt 3D Telefonie beschrieben, und eine Klassifikation von QoE-Faktoren und deren Interaktionen mit kontextuellen Aspekten präsentiert.

Abstract:

The invention of telephony has brought a significant revolution to our lives and is undoubtedly considered one of the most important inventions of the modern-day world. But over the last decades hardly any improvements in audio quality have been achieved. Telephony still suffers from issues such as low speech intelligibility, poor audio quality and extraneous noise. To improve the quality of telephony the use of spatial (or 3D) audio has been proposed. 3D audio can offer significant advantages, such as enhanced overall audio and speech quality, since our natural listening ability is inherently three dimensional. Here, the nature of Virtual Acoustic Environments (VAE), which are used in most of the 3D audio simulations, play a very important rule in the perception of spatial audio. Due to the importance of VAEs, there is need for studying various VAE parameters to properly design virtual acoustic rooms for the benefit of better audio quality, speech intelligibility and enhanced localization performance. This thesis introduces a telephony and teleconferencing system supporting three dimensional audio and customizable virtual acoustic environments. The system consists of a VoIP based telephone extended by low-delay audio codecs, three dimensional renderers, and head phones extended by head-tracking sensors. This thesis also presents a series of experiments conducted to optimize the 3D telephony system. In the experimental study various parameters are considered to validate speech quality, locatability and speech intelligibility of the teleconferencing participants. Within two different VAEs, seven different placement of participants were studied. In addition, eleven sets of user experiments are described in this thesis that examine the effects of simulated acoustic room properties, virtual sitting arrangements, reflections of a conference table, number of concurrent talkers and voice characteristics. This thesis also presents three interlocutor based live conversational tests to compare the audio qualities of mono, stereo and spatial conversations with and without head-tracking. A conceptual and holistic Quality of Experience (QoE) model comprising all domains of a communication ecosystem and the relationships between QoE and virtual acoustic environments is also presented. The model is evaluated through user studies and empirical analysis. Based on this model, a use case study is presented for three dimensional telephony. Also the interaction and classification of QoE factors and contextual aspects are presented.

This item appears in the following Collection(s)