Permalink: 2014-12-24 by 孙锴 in 中文博客 tags: 会议 SLT

全世界最美的地方之一

Alt text

我同俞老师和陈露于12月6日至12日赴美参加了SLT 2014 (2014 IEEE Spoken Language Technology Workshop),这是我和陈露第一次参加国际会议。今年SLT将会议地点选在了横跨加利福尼亚州和内华达州的南太浩湖(South Lake Tahoe),地点首字母与会议首字母相同的设定应该不是巧合。这座城的名字指示了它的位置——太浩湖的南岸。太浩湖是北美最大的高山湖泊、美国境内的第二大湖,曾被马克·吐温誉为“全世界最美的地方之一”。

Alt text

南太浩湖不仅风景优美,而且是滑雪、赌博度假地。会议因此在Best Poster评选中使用了扑克牌作为投票工具。

SIG Meetings

SLT支持参与者开展SIG(Special Interest Group: 特别兴趣小组)会议,并提供必要的场地和硬件设施。我们参与了两个SIG会议,分别是对DSTC4(Dialog State Tracking Challenge 4)筹办的讨论,以及DSTC3(Dialog State Tracking Challenge 3)结果和所用技术的讨论。下图是SIG会议中俞老师对我们DSTC3系统介绍时的照片。

Alt text

Tutorial & Invited Talks

和大多数学术会议一样,SLT有Tutorial和Invited Talks。今年Tutorial包括“Deep Learning and Continuous Representations for Language Processing”以及“Multi-view Learning of Representations for Speech and Language”两部分内容,Invited Talks包括“Large-scale Kernel Methods for Acoustic Modeling”和“Subspace Modeling Techniques in Speech and Language Processing”。其中给我印象最深的是Xiaodong He与Scott Wen-tau Yih介绍的最近深度学习(Deep Learning)在连续空间表示中的进展,如在信息检索(Information Retrieval)中DSSM(Deep Structured Semantic Models)的使用。

Panel Sessions

Panel Sessions分两天讨论了在大数据和机器学习时代下过去、现在以及未来的语音技术,和如何培养下一代语音技术的科学家和工程师两个话题。下图是俞老师作为第一个话题的辩论员的演讲照片。

Alt text

值得注意的是,在下一代语音技术科学家和工程师培养方面,Panel Sessions的各领域学者普遍强调了对工程能力的训练,尤其是要实现具体的算法,而不是单纯调用已有的(开源)库。

Poster & Demo Sessions

除了一篇best paper外,SLT2014没有oral presentation,所以Poster和Demo就构成了SLT论文展示的全部。我们的两篇论文都被安排在会议第三天上午展示。下图分别是我们三人的合影,以及我和陈露对论文做讲解的照片。

Alt text

Alt text

Alt text

我在会议里主要关注点在于对话方面,尤其是对话状态跟踪(Dialogue State Tracking)。除了在会前剑桥公布在网上的给予RNN的状态跟踪模型(题为Robust Dialog State Tracking Using Delexicalised Recurrent Neural Networks and Unsupervised Adaptation)外,在这个领域里来自IBM的一篇基于知识的规则模型(题为Knowledge-based Dialog State Tracking)是比较有趣的,它进一步地探索了基于规则的模型,并声称获得了迄今为止最好的结果。

最后列出其它几篇比较好/有意思的文章

  1. PT2.202 Temporal Supervised Learning for Inferring a Dialog Policy from Example Conversations
  2. PM3.101 Deep Order Statistic Networks
  3. PT4.206 An Efficient Error Correction Interface for Speech Recognition on Mobile Touchscreen Devices
  4. PW2.207 Dynamically Supporting Unexplored Domains in Conversational Interactions by Enriching Semantics with Neural Word Embedding
  5. PM4.201 Spoken Language Understanding Using Long Short-Term Memory Neural Networks

社交

除了前文介绍的会议的学术内容外,会议的另一个作用是为参会者提供了一个良好的社交平台。此次会议上我认识了许多剑桥语音组的研究者,以及微软研究院,卡耐基梅隆大学,斯坦福大学,俄亥俄州立大学,华盛顿大学等等来自世界各地的同领域研究者。