菜单 学习猿地 - LMONKEY

VIP

开通学习猿地VIP

尊享10项VIP特权 持续新增

知识通关挑战

打卡带练!告别无效练习

接私单赚外块

VIP优先接,累计金额超百万

学习猿地私房课免费学

大厂实战课仅对VIP开放

你的一对一导师

每月可免费咨询大牛30次

领取更多软件工程师实用特权

入驻
31
0

亚马逊将公布超过最大会话和知识数据集,超400万字

原创
05/13 14:22
阅读数 498

4月1 日, 亚马逊宣布:他们计划向公众公开“Topical Chat”数据集,超410万单词21万句子的语料库将于2019年9月17日发布。

该数据集是为参加Alexa Prize Socialbot Grand Challenge 3竞赛的团队开发的,申请截止日期为2019年5月14日,比赛于2019年9月9日开始。所有参加Alexa Prize竞赛的团队将可以访问此数据集的扩展版本(扩展主题聊天数据集),其中包括正在进行的集合和注释的结果。

主题聊天数据集将包含超过210,000个句子(超过4,100,000个单词),可支持高质量,可重复的研究,将成为研究界公开可用的最大社交对话和知识数据集。

每个语料库的对话和对话轮次与提供给众包工作者的知识相关联,并且所述知识是从与一组实体相关的一系列“非结构化”和“松散结构化”的文本资源中收集的。

亚马逊高级首席科学家Dilek Hakkani-Tur在博客文章中明确表示,没有任何语料是与Alexa客户的互动。

该数据库是实现基于知识的神经反应生成系统的后续研究,解决其他公开数据集无法解决的自然对话中的难题。这将使研究者可以专注于研究对话中主题和知识选择方面的转换,以及如何在对话中融入事实和观点。

相关报道:

https://developer.amazon.com/blogs/alexa/post/30dc5515-3b9f-4ec2-8f2a-ac98254625c6/topical-chat-dataset-helps-researchers-address-hard-challenges-in-natural-conversation

发表评论

0/200
31 点赞
0 评论
收藏
为你推荐 换一批