This page will soon be deactivated—explore our new, faster, mobile-friendly site, now centralized in MyWorkspace!

Committed to connecting the world

  •  
ITU GSR 2024

ITU-T Recommendations

Search by number:
Others:
Skip Navigation Links
Content search
Advanced search
Provisional name
Equivalent number
Formal description
Study Groups tree viewExpand Study Groups tree view

ITU-T G.722 (09/2012)

عربي | 中文 | English | Español | Français | Русский
Codage audiofréquence à 7 kHz à un débit inférieur ou égal à 64 kbit/s
La Recommandation UIT-T G.722 décrit les caractéristiques d'un système de codage audio à bande élargie (de 50 à 7 000 Hz) qui peut être utilisé pour diverses d'applications vocales de haute qualité. Le système de codage fait appel à la modulation par impulsions et codage différentiel adaptatif à sous-bandes (SB-MICDA), à un débit d'au plus 64 kbit/s. Ce système est donc appelé codage audio (7 kHz) à 64 kbit/s. La technique SB-MICDA utilisée consiste à subdiviser la bande de fréquences en deux sous bandes (la sous-bande supérieure et la sous-bande inférieure) et à coder les signaux de chaque sous-bande selon la technique MICDA. Ce système a trois modes de fonctionnement de base, correspondant aux débits binaires utilisés pour le codage audio à 7 kHz: 64, 56 et 48 kbit/s. Les deux derniers modes permettent d'établir un canal de données auxiliaires, de 8 et 16 kbit/s respectivement, dans le signal à 64 kbit/s moyennant l'utilisation de bits provenant de la sous-bande inférieure. L'Erratum 1 a été incorporé dans cette nouvelle édition, ainsi que des corrections d'autres erreurs typographiques identifiées dans le corps principal de la Recommandation UIT-T G.722.
L'Annexe A fournit trois gabarits spectraux qui peuvent être utilisés pour simplifier l'évaluation des équipements produits en série utilisant des codecs UIT-T G.722, et faciliter les contrôles effectués pendant l'installation. Le but spécifique de ces gabarits n'est pas de remplacer l'une quelconque des exigences de la Recommandation UIT-T G.722, mais plutôt de suggérer les conditions requises pour les essais de recette des équipements, produits en série, qui utilisent des codecs UIT-T G.722. Ces conditions concernent la mesure du rapport signal-distorsion totale en bouclage SB-MICDA. Les spécifications énoncées ne visent donc pas à se substituer aux séquences de test numériques de l'algorithme UIT-T G.722 mais à s'assurer, une fois ces séquences vérifiées sur une première maquette, du bon fonctionnement des équipements utilisant ces codecs.
L'Annexe B décrit un algorithme de codage vocal et audio modulable à bande super-élargie (50-14 000 Hz) fonctionnant à 64, 80 et 96 kbit/s. Le codec d'extension à bande super-élargie UIT-T G.722 est interopérable avec l'algorithme UIT-T G.722. Le signal de sortie du codeur à bande super-élargie UIT-T G.722 a une bande comprise entre 50 et 14 000 Hz. Le codeur s'applique à des trames de 5 ms, a un délai algorithmique de 12,3125 ms et une complexité dans le cas le plus défavorable de 22,76 WMOPS. Par défaut, le signal d'entrée du codeur et le signal de sortie du décodeur sont échantillonnés à 32 kHz. Le codeur à bande super-élargie pour le mode UIT-T G.722 amélioré à 64 kbit/s produit un flux binaire intégré structuré en deux couches correspondant à deux débits binaires disponibles de 80 et de 96 kbit/s. Le codeur à bande super-élargie pour le mode UIT-T G.722 amélioré à 56 kbit/s produit un flux binaire intégré structuré en une seule couche correspondant à un seul débit binaire disponible de 64 kbit/s. Ce mode à 64 kbit/s est également modulable avec les modes à 80 kbit/s et à 96 kbit/s. Le flux binaire peut être tronqué par le décodeur ou par tout élément du système de communication afin d'ajuster instantanément le débit binaire à la valeur souhaitée (96 kbit/s – 80 kbit/s – 64 kbit/s) sans qu'une signalisation hors bande soit nécessaire. L'algorithme sous-jacent comporte trois parties principales: améliorations dans la bande supérieure, extension de largeur de bande (BWE) et codage avec transformation discrète en cosinus modifiée (MDCT) reposant sur une quantification des vecteurs algébriques (AVQ). Dans cette version révisée, les vecteurs de test de l'Annexe B ont été mis à jour, afin de faciliter le contrôle de la conformité des mises en œuvre.
L'Annexe C décrit une variante pour la mise en œuvre de l'Annexe B UIT-T G.722 utilisant l'arithmétique en virgule flottante. Tandis que l'Annexe B décrit une spécification en virgule fixe exacte au bit près, le code source C en virgule fixe étant disponible auprès de l'UIT-T, la variante de la mise en œuvre en virgule flottante est utile pour les plates-formes équipées de processeurs en virgule flottante. Il a été déterminé que cette variante était entièrement interopérable avec l'algorithme de l'Annexe B dans toutes les configurations, y compris les configurations croisées.
L'Annexe D décrit une extension stéréo du codec à bande élargie UIT-T G.722 et de son extension à bande super-élargie, l'Annexe B UIT-T G.722. Cette extension est optimisée pour la transmission de signaux stéréo avec un débit binaire supplémentaire limité, tout en restant entièrement compatible avec les deux codecs. Elle fonctionne de 64 à 128 kbit/s avec quatre débits binaires de 80, 96, 112 et 128 kbit/s pour la stéréo à bande super-élargie et deux débits binaires de 64 et 80 kbit/s pour la stéréo à bande élargie. Les modes stéréo à bande élargie sont rétrocompatibles avec l'algorithme d'origine UIT-T G.722, tandis que les modes stéréo à bande super-élargie sont rétrocompatibles avec le mode UIT-T G.722 mono à bande élargie et l'Annexe B UIT-T G.722 à bande super-élargie. Le codec stéréo s'applique à des trames de 5 ms, avec un délai algorithmique de 13,625 ms pour la stéréo à bande élargie et de 15,9375 ms pour la stéréo à bande super-élargie. Le signal d'entrée du codeur et le signal de sortie du décodeur sont échantillonnés à 16 kHz et 32 kHz respectivement pour les modes de fonctionnement à bande élargie et à bande super-élargie. L'algorithme sous-jacent comporte trois parties principales: analyse des paramètres stéréo et mixage-réducteur au niveau du codeur et synthèse stéréo au niveau du décodeur. La première couche d'extension stéréo est une couche à 8 kbit/s comportant les paramètres stéréo de base, la différence de temps entre canaux/la différence de phase entre canaux/la cohérence entre canaux pour la bande élargie, et les différences de niveau entre canaux dans les sous-bandes. La deuxième couche stéréo, qui est également une couche à 8 kbit/s, améliore l'image stéréo en codant les différences de phase entre canaux dans la sous-bande inférieure. Enfin, la troisième couche stéréo est une couche à 16 kbit/s. Dans cette dernière couche, on transmet les différences de phase entre canaux pour une plus grande largeur de bande, ce qui permet d'améliorer encore l'image stéréo. Le flux binaire peut être tronqué par le décodeur ou par tout élément du système de communication, afin d'ajuster instantanément le débit binaire à la valeur souhaitée – débits binaires UIT-T G.722 à bande élargie et de l'Annexe B UIT-T G.722 à bande super-élargie – sans qu'une signalisation hors bande soit nécessaire.
Les aspects relatifs au réseau et les séquences de test pour l'algorithme décrit dans le corps principal de la Recommandation sont traités respectivement dans les Appendices I et II à cette Recommandation. Dans cette nouvelle édition, l'Appendice II a été mis à jour (les séquences de test ont été restructurées).
Les algorithmes de masquage des pertes de paquets (PLC), également appelés algorithmes de masquage des effacements de trames, occultent les pertes de transmission dans les systèmes audio liées au codage et à la mise en paquets du signal d'entrée, à son envoi sur un réseau, à sa réception et à son décodage avant lecture. On trouve des algorithmes PLC dans la plupart des codeurs vocaux normalisés récents. Le codec UIT-T G.722 a été conçu au départ sans cette fonctionnalité et les Appendices III et IV ont défini ensuite deux mécanismes PLC pour ce codec. Il a été vérifié que les algorithmes de ces deux appendices offraient une qualité élevée avec différents compromis qualité/complexité. Ajoutant une complexité de 2,8 WMOPS dans le cas le plus défavorable et de 2 WMOPS en moyenne par rapport au décodeur UIT-T G.722 sans algorithme PLC, l'algorithme PLC UIT-T G.722 décrit dans l'Appendice III offre une meilleure qualité vocale, tandis que l'algorithme PLC UIT-T G.722 spécifié dans l'Appendice IV entraîne une complexité moindre et ajoute très peu de complexité par rapport au décodeur défini dans le corps principal de la Recommandation UIT-T G.722 (la complexité supplémentaire dans le cas le plus défavorable est de 0,07 WMOPS).
L'algorithme de l'Appendice III procède au masquage des pertes de paquets dans le domaine de sortie à 16 kHz du décodeur UIT-T G.722. On procède à une extrapolation de la forme d'onde périodique pour remplir la forme d'onde des paquets perdus, et au mélange à du bruit filtré suivant les caractéristiques que possédait le signal avant la perte. Le signal extrapolé à 16 kHz est soumis à la banque des filtres d'analyse QMF, et les signaux des sous-bandes sont transmis à des codeurs MICDA dans des sous-bandes partielles pour actualiser les états des décodeurs MICDA dans les sous-bandes. Un traitement additionnel a lieu à chaque perte de paquets pour passer sans heurt de la forme d'onde extrapolée à la forme d'onde décodée à partir des paquets reçus. Entre autres, les états des décodeurs MICDA dans les sous-bandes sont alignés en phase avec le premier paquet reçu après une perte de paquets, et la forme d'onde décodée est alignée temporellement pour pouvoir s'aligner sur la forme d'onde extrapolée, avant que les deux soient ajoutées par chevauchement pour lisser la transition. Dans le cas d'une longue perte de paquets, l'algorithme atténue graduellement les signaux de sortie. L'algorithme opérant selon une longueur de trame intrinsèque de 10 ms peut intervenir sur n'importe quel paquet ou trame dont la longueur est un multiple de 10 ms. Pour une longue trame d'entrée, ou supertrame, le masquage des pertes de paquets, qui s'applique à une longueur de trame intrinsèque de 10 ms, est opéré autant de fois que nécessaire, d'où l'absence de délai supplémentaire par rapport au décodage UIT-T G.722 normal utilisant la même longueur de trame.
Le décodeur de l'Appendice IV comprend trois étages: un décodage dans la sous-bande inférieure, un décodage dans la sous-bande supérieure et une synthèse par filtres miroirs en quadrature (QMF). En l'absence d'effacement de trame, la structure du décodeur est identique à celle décrite dans la Recommandation UIT-T G.722, sauf en ce qui concerne le stockage des deux signaux décodés des sous-bandes inférieure et supérieure; en présence d'effacement de trame, le décodeur est informé par la signalisation d'indication de trame erronée (BFI): il analyse alors le signal précédent reconstitué dans la sous-bande inférieure, et extrapole le signal manquant par codage prédictif linéaire (LPC), répétition de manière synchrone avec la tonie et atténuation adaptative. Lorsqu'une trame correcte est reçue, le signal décodé est combiné par fondu avec le signal extrapolé. Dans la sous-bande supérieure, le décodeur répète la trame précédente de manière synchrone avec la tonie, avec atténuation adaptative et post-traitement passe-haut. Les états MICDA sont actualisés après chaque effacement de trame.
L'Appendice V définit un schéma de codage stéréo mid-side (MS) reposant sur l'extension à bande super-élargie définie dans l'Annexe B UIT-T G.722. En mettant en œuvre le codage stéréo mid-side dans les terminaux stéréo, on peut obtenir l'interopérabilité avec les dispositifs monophoniques moyennant une très faible complexité. Le schéma de codage de base est le suivant: deux canaux stéréo gauche-droite (LR) sont convertis en canaux stéréo MS, puis les signaux de chaque canal sont codés de manière indépendante à l'aide de l'algorithme de l'Annexe B UIT-T G.7722; au niveau du décodeur, chacun des canaux MS du flux binaire issu du codeur est décodé, puis les signaux décodés des canaux MS sont reconvertis en signaux des canaux LR. La conversion LR-MS et son inverse sont effectuées selon le procédé classique. Le codeur nécessite deux opérations arithmétiques supplémentaires par échantillon pour la conversion LR-MS et le décodeur a besoin d'un opérateur pour la conversion MS-LR. Pour la mise en œuvre de l'opérateur de base de la bibliothèque STL2009 (voir la Recommandation UIT-T G.191), la complexité de la conversion est de l'ordre de 0,2 WMOPS au total. L'algorithme de codage pour chaque canal est identique à celui utilisé dans l'Annexe B de la Recommandation UIT-T G.722.
Les Annexes B, C et D contiennent une pièce jointe électronique dans laquelle figure le code source ANSI-C correspondant, qui fait partie intégrante de ces annexes. Les Appendices III et IV contiennent également le code source ANSI-C correspondant.
NOTE – On trouvera une mise en œuvre de référence du code ANSI-C pour l'algorithme du corps principal de la Recommandation UIT-T G.722 dans le module UIT-T G.722 de la bibliothèque des outils logiciels UIT-T G.191.
Des séquences de test sont fournies afin de vérifier la conformité des mises en oeuvre de l'algorithme UIT-T G.722 défini dans le corps principal de cette Recommandation. Des vecteurs de test sont fournis pour aider à s'assurer de la mise en oeuvre correcte des Annexes B, C et D et des Appendices III et IV.
Citation: https://handle.itu.int/11.1002/1000/11673
Series title: G series: Transmission systems and media, digital systems and networks
  G.700-G.799: Digital terminal equipments
  G.710-G.729: Coding of voice and audio signals
Approval date: 2012-09-13
Provisional name:G.72x
Approval process:AAP
Status: In force
Maintenance responsibility: ITU-T Study Group 21
Further details: Patent statement(s)
Development history
Associated test signals