Page 746 - AI for Good Innovate for Impact

P. 746

AI for Good Innovate for Impact

Use Case 4: On-Device Intelligence Empowers People with

Disabilities and Smart Interaction Scenarios

Organization: vivo

Country: China

Contact Person: Mengzhu Li, limengzhu.ai@ vivo .com

1 Use Case Summary Table

Item Details
Category Accessibility
China has nearly 50 million individuals with hearing or visual impairments. This
Problem case aims to leverage the on-device AI capabilities to provide intelligent assistive
Addressed tools for people with disabilities and multilingual cultural groups, optimizing their
experiences in daily life and specific smart scenarios.

On-device AI capabilities create inclusive assistive technologies targeting acces-
sibility challenges. By deploying localized lightweight AI models (e.g., vivo Voice,
vivo Sight), the project enables real-time, privacy-centric tools for hearing/visual
impairments and multilingual communication, eliminating cloud dependency.
Innovations include multimodal interaction and offline-first functionality to ensure
reliability without network constraints.
1. On-Device Lightweight AI Models & Privacy-by-Design Architecture
2. Full-Spectrum Accessibility Features:
• Real-time conversion between voice and text for smoother communication.
• Real-time environmental Q&A in life.
Key Aspects • Sign Language Translator: The first application in China to implement sign
of Solution language recognition technology [1]. Sign language experts are engaged
throughout the product lifecycle.
• Score Reading: Chase your music dream and savor the joy.)

3. Offline-First Design:
Critical functions (e.g., speech/text conversion, image recognition) operate with-
out internet connectivity, serving remote areas and emergencies.
4. Ecosystem Collaboration, Launched Open Developer Platform to foster third-
party innovations. The platform provides different Application Programming
Interfaces(APIs) to developers such as real-time recognition, general Optical Char-
acter Recognition(OCR), Text-to-Speech(TTS) and vivo-Blue Language Model(LM)
[2], etc.
Automatic Speech Recognition, Facial Recognition, Multi-target Tracking/Recog-
Technology nition [3], Multi-modal Large Model, Music Note Recognition Technology, Audio
Keywords Event Detection, Sign Language Recognition Technology,Sign Language Synthe-
sis,Virtual Avatar, Offline Audio Recognition

710

741 742 743 744 745 746 747 748 749 750 751