罗切斯特理工大学(RIT)

他们充满激情,光明,充满活力,风度翩翩。他们也比其他人更容易失业或难以就业。到目前为止,很多失聪或听障人士很难用自己的才能来定义自己。但是全世界失聪或听障学生现在正看到更加光明的未来。一所创新的研究型大学正因其失聪及听障学生的成功而闻名,大学正与微软合作,为这些学生创造更好的语言服务,帮助他们探索更大的可能性。

应用背景

罗切斯特理工大学(RIT)成立于 1829 年。作为全国领先的以技术为核心的研究型大学之一,罗切斯特理工大学通过与在柯达、博士伦,富士施乐中发展的创新公司进行合作而丰富了自身,成为创新思想者的成长跳板。
罗切斯特理工大学同时也是面向失聪及听障学生的全球领先的专科教育者之一。该大学近 1100 名失聪及听障学生中有一半是主流学生组织的一部分,在所有八个罗切斯特理工大学的学院学习,这些学院提供从工程学、健康科学技术到文科等一系列课程。罗切斯特理工大学于1968年成立国家聋人学院(NTID),将其作为该校的第九个学院,更好地服务于失聪和听障人群,以及一小部分为美国手语(ASL)职业做准备的学生,为其提供口译和中等教育。
Gary Behm 是 IBM 软件工程师及项目经理,在企业界拥有超过 30 年的背景。他也是失聪人士。现在担任国家聋人学院兼职助理副校长及接入技术中心主任后,Behm 为大学推动扩大失聪及听障学生的入学机会带来了深刻的见解。他的团队包括接入技术中心副主任兼信息科学副教授 Brian Trager 和研究接入技术的研究副教授 Chris Campbell。自出生以来,两人就是失聪人士,并且是家中唯一的失聪者。
他们理解在要求严苛的领域出类拔萃的挑战,而同时这些领域主要由非听障人士组成及领导。“作为普渡大学的工程系学生,我非常依赖口译服务,”Trager 说,“我的口译员住在校园两个半小时距离的地方。如果他们生病或者遇到交通堵塞,我就无法跟上课堂的进度。”
Campbell 对此表示认同:“我在高中时曾与社会孤立做斗争,仅在午餐时与周围人进行一些简单的交谈,”他说,“作为软件工程师,临时的会议通常让我无法参加,因为我没有时间去找口译人员。在这些情况下,我们错过了很多。”
罗切斯特理工大学的失聪及听障学生依赖着美国手语口译的 140 名人员——全球最大的专业院校口译人员团体。该大学还有 53 名字幕专家实时录制讲座,以帮助增强美国手语口译。这似乎是对聋哑学生的高度支持,但这些资源只能优先分配给毕业所需的核心课程,无法覆盖许多选修课,因为即便是有罗切斯特理工大学这样庞大的口译员工团体,对口译员和字幕翻译的需求也超过了供给。越来越多的失聪或听障学生存在这些需求,并且当遇到工作人员患病时,在短时间内找到这些专业工作人员往往是不可能的。
为这些学生提供充足的课堂支持非常复杂。罗切斯特理工大学发现许多一年级的聋人学生只能阅读字幕,他们无法做手势。那些看翻译手势的人在记笔记和课后复习时会遇到麻烦。这就是为什么罗切斯特理工大学也会雇用记笔记者。
当一名听障教师使用美国手语讲课时,通常需要两名专业人员——一名将美国手语翻译成语言,另一名制作字幕以适应对美国手语不熟悉的失聪及听障学生。有时也会需要听力指导师,这取决于班上学生的组合程度。

解决方案

为了补充解释和字幕人员,扩大失聪及听障学生的课堂教学,Behm 的接入技术中心团队正在开发一种使用自动语音识别(ASR)技术的解决方案。自从 50 年前诞生以来,ASR 技术在科学技术课程方面还不够成熟。ASR 词典中缺少数学公式和技术术语。接入技术中心团队成员没有找到合适的现成系统,因此他们向几家供应商提供了有关创建定制解决方案的信息。直到他们了解到微软翻译 Microsoft Translator(基于云的自动文本和语音翻译 API),他们才对创建预想的解决方案的潜力充满信心。
“鉴于我们过去与其他供应商的经验,我们在与微软联系时并没有抱多少期望,”Trager 说,“但是微软团队的热情使我们对在教室使用微软翻译的可能性感到期待。这不是传统意义上的 ASR;它遵循着一个新的轨迹。从宣读学生姓名到“回忆”具体内容和技术术语,我们看到翻译可能对我们的学生有很大的帮助。”

优势与收益

接入技术中心的开发人员使用微软翻译——微软认知服务 API 集合的一部分,来利用微软人工智能(AI)的进步。这个集合中的一个应用程序是微软定制语音服务(Microsoft Custom Speech Service,CSS),它是一种定制语音识别服务,可以“学习”从不同来源接入的技术词汇,包括 Microsoft PowerPoint 幻灯片,是开发解决方案的关键。该解决方案围绕翻译器构建,将门户 ASR 基于云的引擎与 PowerPoint Online的Presentation Translator 插件相结合。
Campbell 和 Trager 发起了一个 5 个教室的试点项目,下一个学期将再增加 10 个。Campbell 在其中一个试点班授课。一名口译人员读出 Campbell 的演讲内容,同时戴着麦克风将其发送给基于云计算的工具,该工具录制了口译员说出的单词,并将其作为文本显示在教室屏幕上。由于 Campbell 已将课程信息上传到门户网站,该网站预先编译了每个课程使用的特殊术语,翻译器认可并正确转录了口译员发出的信息,实时翻译插件(Presentation Translator)将文字内容转为字幕置于每张幻灯片的下方。
Campbell 发现这种方法具有多重优势。“使用 PowerPoint 幻灯片帮助那些学生,大约一半的学生无法做手势。如果有学生错过了任何东西,他们可以抬头看到图像和文字。学生还可以在笔记本电脑或智能手机上收到字幕,他们可以随时翻阅字幕以捕捉他们错过的任何内容。这种方法的一大优势是学生可以通过多种渠道访问信息。”
事实上,当生物学入门课程中唯一的失聪学生退学时,教师打算宣布停止使用试点解决方案提供的字幕,但其他学生(听力正常)都坚持要求保留字幕,因为如果他们不小心错过了,这有助于他们赶上进度。在硕士课程中,一位日本学生使用该解决方案将英语讲座实时转换为日语。

未来计划

Behm 对未来持乐观态度。他期望通过基于微软认知服务的其它工具,来增强罗切斯特理工大学国家聋人学院的口译和字幕工作人员的工作,以便聋哑学生有更多的方式来体验更多班级的学习。随着更广泛的应用,罗切斯特理工大学正在进行的工作可能会改变这些年轻人的生活和职业轨迹。“在我早前的职业生涯中,只能去想象微软解决方案和人工智能技术可以为我做些什么,”Behm 说,“而现在,我想我可以走得更远,而这正是我想为我们的学生做到的。我们正在努力创造一个完全无障碍的世界。”