汉语学习者文本多维标注数据集YACLC V1.0在智源指数平台发布
12月30日,杨尔弘教授出席北京智源人工智能研究院自然语言处理前沿技术开放日活动,并汇报了汉语学习者文本多维标注数据集建设的最新成果。智能辅助语言学习是跨自然语言理解与生成两个方面的研究任务,对学习者产生的文本进行错误识别、并修改成为符合母语习惯的语句,需要知识指导。本数据集包含2000余篇汉语学习者文本,共计30000余句,由北京语言大学BLCU-ICALL组组织开发,召集具有汉语国际教育专业背景的标注人员对文本中的错误进行标注、改正,并给出语句的流利程度,形成具有多维信息的标注数据集,可服务于汉语自动语法纠错与评判,第二语言习得等研究。
标注体系
YACLC V1.0结合了汉语自身的特点,基于粒度为词、最小改动、忠于原意和多维度标注四项标注原则,是一套新的汉语学习者语料库标注体系,其创新点在于:
1)设计纠正偏误和提升流利度的标注方式,由多位标注员对同一句子进行标注,提供多维度的多种标注结果;
2)简化偏误类型为成分缺失、成分冗余、词汇误用、语序错误,降低标注难度;
3)对句子进行可接受度评分,并以此限制每种评分对应的标注方式,提升标注质量;
4)基于篇章级别信息,对偏误句的上下文依赖性进行分级标注。
标注实践
BLCU-ICALL组招募了百余位汉语国际教育、语言学及应用语言学等专业的研究生,组成标注员团队,并搭建了一个可供多人在线的众包标注平台,分阶段地开展偏误标注和审核工作。
YACLC V1.0数据获取
本次发布的汉语学习者文本多维标注数据集YACLC V1.0,其训练集规模为8000条,每条数据包括原始句子及其多种纠偏标注与流利标注;验证集和测试集规模都为1000条 ,每条数据皆包含原始句子及其全部纠偏标注与流利标注。关于数据集详细情况见:
http://cuge.baai.ac.cn/#/dataset?id=21&name=YACLC
未经允许不得转载:大学门户 » 汉语学习者文本多维标注数据集YACLC V1.0在智源指数平台发布
相关推荐
- 荷兰乌特列支大学助理教授Bert Le Bruyn应邀来北语作跨学科时代语言研究的理论与方法系列讲座第四十到四十四讲
- 【定点扶贫】北京语言大学首批扶贫物资送达广西都安
- 【暖心“毕业寄”】汉语国际教育学部:邮寄爱心,传递温暖
- 言传学术薪火,身教桃李芬芳——美国华盛顿大学(圣路易斯)东亚语言与文化系梁霞教授受聘孔子学院教师培训中心客座教授
- 志青春、向未来——北京语言大学圆满完成冬奥志愿者通用技能培训工作
- 黄益方副校长参加商学院18级人力班主题班团建设活动
- 北语获8项“2021年北京市普通高等学校优秀本科生毕业设计(论文)”
- 【党史学习教育】“共看一部红色经典电影”带领师生回顾百年奋斗路
- 2021年春夏季中国报纸十大流行语发布
- 北语召开2021届毕业生就业工作推进会
- 《全球汉学家祈福中国:我们的第二故乡,加油!》荣获“人民战‘疫’短视频”特等奖
- 北语两个项目获教育部2021年第一批产学合作协同育人项目立项
- 星星之火——云端教学杯成果展
- 中秋国庆孔院日三节同庆——墨西哥国立自治大学孔子学院线上文化工坊举办
- 2018“‘汉语桥’—— 澳大利亚中学生秋令营”项目师生参访孔子学院总部/国家汉办
- 【抗击疫情】汉语速成学院:岁寒情暖守初心、防疫尽责有担当,为在京留学生开设网上学堂
- 【线上教学】相聚于网,温暖如常:关西外大孔院正式启动网上汉语会话教室
- 米兰圣心孔院举行2020年度汉语水平考试(HSK)
- 唐双宁先生做客“来园讲坛”第11讲
- “同心传薪火 共筑中国梦”外国语学部赴安徽泾县中学暑期支教团队线上预备会顺利召开
新闻公告
- 伊斯兰堡孔子学院中小学汉语储备师资培训 03-16
- 法国拉罗谢尔孔子学院大学开放日活动 03-16
- 《周亮工年谱长编》由上海书画出版社出版 03-14
- 埃及苏伊士运河大学孔子学院开设“冬奥小课堂” 02-28
- 波恩孔院成功举办“双重音乐会” 02-25
高考招生
- 北京语言大学2017年招生章程 08-05
- 北京语言大学招生章程(2018) 08-05
- 北京语言大学2015年招生章程 08-05
- 2016年北京语言大学本科招生章程 08-05
- 北京语言大学2014年招生章程 08-05
- 北京语言大学2011年招生章程 08-05
- 北京语言大学2012年招生章程 08-05
- 北京语言大学2013年招生章程 08-05
- 北京语言大学2009年招生章程 08-05