
语言无国界还有多远?时空壶CTO石伟:关键在于双向实时同传
随着全球化的深入推进,跨语言信息传递的即时性需求正以前所未有的速度增长。从跨国企业的云端会议到学术领域的全球协作,不同场景下的实时语言转换需求,正推动实时翻译技术成为人工智能领域的重要突破口。翻译耳机的最大瓶颈在于实时翻译的速度与准确性。用户对AI翻译设备的期望更高,理想状态是“即说即译”,延迟控制在1秒以内。这要求在极低延迟下仍能确保翻译的语义连贯性和准确性。时空壶技术有限公司CTO石伟接受时代周报记者采访时表示,如何在3秒内兼顾低延迟与高质量翻译,是当前最大的技术挑战。自研模型约占一半石伟:我们目前在线支持41种语言的互译,并有一个专门的团队在持续扩展语言支持。作为产品和服务提供商,我们并不局限于自研模型,而是会全球范围内寻找和适配最优的语言模型。目前,我们支持93种口音,尤其像英语这种口音众多的语言。离线方面,新产品“新T1”支持11种语言、31个语言对,全部基于自研模型,不依赖第三方。石伟:具体比例因涉及语音识别(ASR)、机器翻译和语音合成(TTS)等多个环节而难以一概而论,大约各占一半。目前,语音识别的自研语言较少,约5种,如泰语、阿拉伯语等。翻译部分,我们正逐步从通用大模型转向自研微调模型,TTS也基本实现自研。总体而言,我们越来越注重核心技术的自主研发,以优化性能和提升用户体验。石伟:Bable OS的发布有三重意义。首先,名字灵感来自《圣经》中的巴别塔和科幻小说《银河系漫游指南》中的巴别鱼,象征无障碍沟通的理念,传递我们追求极致技术的愿景。其次,我们提出了“通往巴别之路”的概念,像自动驾驶分级一样,将翻译技术的发展分为几个阶段,向外界展示我们的技术路径。第三,我们公开了部分技术架构,比如双向全双工通信、降噪算法、离线与在线混合模型等,分享如何构建这样的系统。时代周报:大模型需要大量数据训练,时空壶的数据从何而来?如何保护用户隐私?核心为双向实时同传石伟:与科大讯飞的竞争更多是错位竞争。早期他们主推手持翻译机,市场主要在国内,而我们专注翻译耳机,主攻海外市场。手持翻译机的交互体验较为繁琐,需要点按、传递设备,而时空壶的耳机实现了无缝的双向实时同传,接近真人交流的体验。目前,市场上包括讯飞在内的其他AI耳机,虽然也加入了翻译功能,但大多无法实现双向实时同传。这也是时空壶的核心竞争力。石伟:我们的用户群体主要是需要长时间、多轮次跨语言沟通的场景,比如商务、医疗、教育等行业场景,以及移民群体。北美是我们最大的市场,因为其移民国家特性带来了多样化的语言需求。旅游场景也有需求,但使用频次较低,通常是短句问路或询价,适合手持翻译机。而我们的耳机更适合深入、双向的长时间对话。石伟:目前我们所有产品都以To C为主,营销和产品形态都面向消费者。虽然我们看到To B市场的潜力,特别是在商务和行业场景,但目前市场尚未成熟到需要针对特定行业定制硬件的程度。我们更倾向于开发适用于多场景的通用产品,通过不同模式满足多样化需求。石伟:我们对AI眼镜一直保持开放态度。早在2022年,我们就开始关注AR眼镜产业,与雷鸟、Xreal等厂商有过深入技术交流。赛道远未成熟石伟:实话实说,目前这方面还做不到完美。实时翻译中,语境和语气的捕捉非常困难,尤其是个性化词汇或行业术语。如果用户能提前提供演讲稿、PPT或专属词汇表,我们可以通过定制化翻译功能优化效果。但像幽默或文化禁忌的处理,依赖于模型技术的进一步突破。目前整个行业都还没到这个阶段。我反而期待有一天能操心这些问题,因为那意味着翻译的实时性和准确性已经解决得差不多了。石伟:这个赛道远未成熟。全球翻译APP的下载量高达十几亿,显示了巨大的需求。而我们的硬件瞄准的是线下、真人场景的翻译需求,市场空间非常大。技术上,我们自评用户期望是90分,我们目前可能达到80分。因此,无论是技术发展还是市场空间,这个赛道都有很大潜力,预计未来几年仍会保持翻倍增长。石伟:学习外语有两个层次的需求。第一是交流需求,如果AI翻译技术非常成熟,这部分需求可能会大幅降低。但第二是更深层次的文化和思维需求。学习语言不仅是沟通工具,还能帮助理解文化、思维逻辑和表达习惯。比如读英文原版论文或诗歌,能更直接地感受其内涵,这是翻译难以完全替代的。所以,未来外语学习的需求可能会减少,但不会消失,更多会变成一种像艺术或文学一样的兴趣追求。
还没有评论,来说两句吧...