内容摘要:与会者认为,这些问题具有一定的普遍性,北大中介语语料库的设计和建设工作要在此基础上扬长避短,争取形成一个具有北大自身特色的多层次、精标准的标注规范体系,从而更好地服务于国际汉语教学。
关键词:国家社科基金;中介语语料库
作者简介:
近日,国家社科基金重大项目 “汉语国际教育背景下的汉语意合特征研究与大型知识库和语料库建设”课题组在北京大学召开中介语标注规范会议,项目首席专家、北京大学中文系与中国语言学研究中心袁毓林教授,子课题负责人詹卫东教授、北京大学软件与微电子学院俞敬松副教授,以及课题组成员数十人参加会议。与会者讨论了目前中介语标注的进展情况以及在标注过程中所遇到的一些规范问题,比如,标注系统规定 “缺省”类错误只能通过选择前后的语言单位进行 “前加”或 “后加”的操作,但如何选择合适的语言单位来保证标注者的选择一致性还需要进一步讨论;再如,当选择同一语言单位作为 “错误范围”进行添加时,会导致多个错误类型标签和多个词性标签混淆,如何避免此类问题也需要斟酌。会上,课题组展示了中介语语料库标注系统,并提出了系统存在的一些标注不便的问题。与会者认为,这些问题具有一定的普遍性,北大中介语语料库的设计和建设工作要在此基础上扬长避短,争取形成一个具有北大自身特色的多层次、精标准的标注规范体系,从而更好地服务于国际汉语教学。
中介语语料库,又称学习者语料库(learnercorpora),指收集不同背景和不同水平的二语学习者在学习过程中的语言输出 (即中介语,interlan-guage),在计算机上建设成可供检索和查询的数据库,以便为二语教学提供大量的可靠资料。汉语中介语是以汉语为第二语言的学习者在学习过程中所使用的语言,相应的语料库便是汉语中介语语料库。
(北京大学中文系、计算语言学教育部重点实验室 李强/供稿)







