免费论文查重: 大雅 万方 维普 turnitin paperpass

简谈儿童语言习得新视角:人类家庭语言计划(Human Speechome)

最后更新时间:2024-02-01 作者:用户投稿原创标记本站原创 点赞:28637 浏览:125178
论文导读:
摘 要: 人类家庭语言计划(Human Speechome,HSP)是2006年开始实施的一个基于大数据采集的儿童语言习得项目。项目组在项目创始人Roy家里安装了14个麦克风和11个全方位摄像机,不间断地收集了其儿子生命中前三年的语言学习数据。目前项目已开发出了各种密集数据收集和处理的新技术,如视听浏览系统、语音转录系统以及视频标注系统等。借助新技术提供的数据,项目组已经取得了不少儿童语言习得方面的研究成果,接下来面对的理由是如何推广和提升其技术。
关键词: 儿童语言习得研究 人类家庭语言计划 新视角
1.引言
人类的语言能力一直是科学界研究的兴趣所在,建立和人类一样具有语言能力的人工智能系统目前对研究者来说仍力所不能及。目前我们对语言习得机制的了解还不够充分,其中一个重要理由就是我们不能给机器提供足量的交流信息让它学习。
儿童语言习得研究的数据搜集策略经历了不断的提升和改善。早在18世纪末,德国哲学家Dietrich Tiedemann就曾对自己孩子的语言发展过程进行过自然观察和记录。此后,研究者又采用了在实验室里观察儿童语言习得的策略,但因其捕捉的儿童行为表现以及儿童和看护之间的相互交流是不自然的,这种研究方式在20世纪下半叶遭到了较多质疑。Bruner(1983)说,要想获得真实的父母和孩子之间相互交流的画面,需要在家里、在生动活泼的环境中进行收集。该观点得到了普遍认可,研究者开始去孩子家中进行观察,但每周只进行几个小时的话语录音,收集到的材料还不到儿童语言学习经历的1.5%(Brian MacWhinney 2000)。随后一些研究者(Braunwald 1978;Dromi 1987)通过日记来记录自己孩子的语言发展过程,收集的数据和之前的相比相对密集了一些,但仍然稀少。这种基于文本记录的策略受到看护记录人员的主观性影响,不能捕捉到儿童语言发展的细节。
人类家庭语言计划(Human Speechome,HSP)就是在弥补以往研究策略的不足以及满足新的研究需要的基础上建立起来的。该计划创始人Deb Roy将各种研究策儿童语言习得新视角:人类家庭语言计划(Human Speechome)由优秀论文网站www.7ctime.com提供,助您写好论文.略的优点结合起来,把自己的家装配成了一个有视听设备永不停歇的实验室,目标是研究儿童语言发展和他们所接触的社会环境刺激之间的关系。

2. HSP介绍

人类家庭语言计划是由Deb Roy和认知机器团队开发的一个项目(Deb Roy et al 2006)。主题思想是把一个初生婴儿的家用视听设备装配起来,把他从一岁到三岁几乎所有的语言习得过程都记录下来,根据孩子的生活经历和语言发展情况建立一个语言习得的可计算模型,模拟出儿童语言纵向的发展过程。
Roy是麻省理工大学终身任职教授,他认为研究人类认知的一种有效方式是仿造人类制造机器(Deb Roy et al 2006),让它们在社会环境中执行人类功能。这个有启发性的想法激发了Roy启动HSP项目的热情。征得了妻子的同意之后,在2006年,从他儿子出生后离开医院回到家里起,HSP项目就正式启动了。
项目组用14个麦克风和11个全方位摄像机把 Roy的家装备起来,对他初生儿子的语言习得情况进行了历时三年的数据收集和研究工作。视听设备隐藏在客厅、卧室、厨房、餐厅等各个房间的天花板上。三年下来,共搜集了约23万个小时的视听记录文件,其中包括约14万小时的音频文件和约9万小时的视频文件,记录了孩子在醒着状态下将近80%的生活经历。大规模数据库的语音转录、视频标注等数据采集和处理工作,向HSP提出了新的挑战。项目组把人工操作和机器自动加工结合起来,开发出了人机合作的数据处理系统。下文将对HSP开发的新技术进行简要介绍。

3. HSP开发的新技术

3.1视频音频数据采集技术

3.

1.1录音风暴(TotalRecall):初级视听浏览器

TotalRecall是项目组(Rony Kubat et al 2007)为采集数据最早投入使用的系统,也是开发其他系统的平台。TotalRecall具有视频音频的可视化、重放以及标注等功能。处理视频文件时,用户可以选择高分辨率地观看某一个频道,也可以低分辨率地观看所有频道。处理音频文件时,选中一个频道就有相应的录音播放出来,同时会呈现出反映语音频率信息的声谱图。TotalRecall在视频标注中可以标注儿童所在的具体位置,这为儿向语言(child directed speech,CDS)以及儿童可接触语言(child ailable speech,CAS)的对比分析提供了条件(Rony Kubat et al 2007)。
3.

1.2家蝇(HouseFly):升级版视听浏览器

HouseFly和TotalRecall一样,也是一种视听浏览器,不过它是一种更高级别的浏览系统。TotalRecall用传统的2D模式界面来浏览数据,HouseFly(Philip DeCamp et al 2010)则是一种对交互式数据进行浏览和可视化的系统,它把多种感应器的视听记录以及记录的元数据综合起来,形成了一种全新的3D模式的视频体验。在HSP项目中,HouseFly应用在了观察儿童词汇运用演化、儿童和看护之间的相互作用模式等多方面的研究上。这表明当数据足够丰富时,我们可以把各种信息结合起来形成一个沉浸式虚拟的3D世界,对画面进行更直观的观察和研究。
3.

1.3家庭语言记录器(Speechome recorder):便携式数据收集器

HSP项目所用的记录设备全部都隐藏在天花板中,不易挪动。而且考虑到全面性,装了11个摄像机和14个麦克风,后来的研究发现很多设备都是不必要的。基于这些考虑,项目组(Deb Roy 2009)设计出了家庭语言记录器。它不仅能够记录整个房间的场景,还能从孩子眼睛高度的水平来捕获儿童面部表情以及姿势等细节。除了记录的画面更全面之外,家庭语言记录论文导读:用的检测特征集合。以往的检测器主要依赖语音特征来检测儿向语言,而项目组(SoroushVosoughi&DebRoy2012)参照不同的话语特征标准开发出了三种不同的儿向语言检测器,将检测正确率提高到了88%。以上对HSP的数据采集和数据处理技术进行了简要的介绍。在技术开发创新的基础上,HSP研究出了很多新成果,下文对一些主要成果进
器还具有易于安装和便于移动等优点。把这种便携式的记录器应用在更多家庭中来观察儿童语言习得,不仅能够增加数据的多样性和密集性,还可以开启对语言发展障碍儿童的研究。

3.2 视频音频数据处理技术

3.2.1人机合作语音转录系统(Semi-Automatic Speech Transcription)
数据采集之后的工作便是数据处理。研究儿童语言习得,数据处理的第一步是语音转录。项目组在2007年(Brandon C Roy 2007)开发了人际合作语音转录系统。
语音转录工作由四项基本任务组成,即FIND、MARK、LISTEN和TYPE。人机合作转录系统则把第一步和第二步交给机器自动处理,第三、第四步由人工来完成。在HSP多轨道的语音数据库中,特定的算法通过筛选等程序寻找话语并进行话语片段分割。挑选自最清晰响亮频道的语音被分割成最适合人工转录的片段后,转录员用专门的系统进行语音听取和转录。转录效率在这种情况下得到了提升,速度达到人工转录的

2.5—6倍。

3.

2.2闪电抄写员(BlitzScribe):快速语音转录器

BlitzScribe是项目组编写出来(Brandon C. Roy & Deb Roy 2009)专门用来听取和转录语音的软件。BlitzScribe用户界面把系统自动切分好的话语片段分行排列在可滚动列表上,每行开头放置一个播放按钮,转录员可以随时选择录音进行听取和转录。在转录过程中,工作人员还可以用键盘标记一些简单常见的错误。另外,把需要转录的语音片段通过BlitzScribe界面分配给项目组以外的工作人员,而不是呈现给他们整个语料库,有利于保证HSP数据库的私密性。
3.

2.3追踪标记(TrackMarks):快速视频标注系统

研究儿童语言习得,语音转录是首要的,其次还需要对视频文件进行标注。视频提供了人物活动的处所、行为以及交流模式,只有将音频与视频文件实现同步化研究,才能全面理解儿童在社会自然环境中如何习得语言。TrackMarks是项目组(Philip DeCamp & Deb Roy 2009)开发出的一种在多重摄像区域中追踪人或物具体位置和判定人物身份的工具。TrackMarks界面则把机器对物体的自动跟踪和人工标注结合起来,展现了人物在摄像区内活动的直观线路图。
3.

2.4头部固定(HeadLock):头部姿势估计系统

头部姿势,包括头部位置和方向,是估计视线方向最好的参照对象,视线方向则指示了人的注意力的焦点。在分析低分辨率等不容易进行视线方向跟踪的视频时,可以根据头部姿势来观测注意力的焦点,从而了解相互交流在语言习得中所起的作用。
HSP有些视频数据由于具有头部图像分辨率低、背景混乱、灯光效果没有制约等特点,在进行人物头部姿势分析时遇到了困难。项目组(Philip DeCamp 2007)便开发出了HeadLock来辅助视频标注。运用HeadLock工作时,操作人员参照视频中的模糊头像,对用3D技术画的计算机头像进行位置、规模和方向的调整,直到它和视频中的图像匹配为止。
3.2.5儿向语言检测器(Child-Directed Speech Detec儿童语言习得新视角:人类家庭语言计划(Human Speechome)由提供海量免费论文范文的www.7ctime.com,希望对您的论文写作有帮助.tor)
儿向语言检测器是研究儿童语言,处理HSP数据库的重要工具(Soroush Vosoughi& Deb Roy 2012)。儿向语言检测是一个二元分类理由,影响检测器效率的主要因素是检测器在使用时所运用的检测特征集合。以往的检测器主要依赖语音特征来检测儿向语言,而项目组(Soroush Vosoughi& Deb Roy 2012)参照不同的话语特征标准开发出了三种不同的儿向语言检测器,将检测正确率提高到了88%。
以上对HSP的数据采集和数据处理技术进行了简要的介绍。在技术开发创新的基础上,HSP研究出了很多新成果,下文对一些主要成果进行了归纳总结。

4. HSP研究的新成果

HSP的数据收集从2006年开始至2009年结束,历时长达三年左右。项目组在这三年期间不可能只是坐等数据收集,许多研究在数据收集结束之前就已开始实施。由于9—24个月期间是儿童语言习得的关键时期,现阶段的成果大多是基于这个年龄阶段研究出来的。

4.1儿童词汇习得鱼翅形曲线

众所周知,儿童在9—24个月期间习得的词汇量大体呈指数形式增加,而项目组(Deb Roy 2009)通过对数据库的分析发现,从第20个月开始儿童习得的词汇量骤然下降,形成了一种鱼翅形曲线。他们(Deb Roy 2009)对这种情况给出了两种可能性解释。一种解释是虽然儿童习得的词汇量仍在以指数形式增长着,但根据齐夫分布定律,后来习得的词汇量变得不太容易被察觉,齐夫分布定律的尾部降落造成了这种鱼翅形曲线。另一种解释是儿童发现了把词语进行组合产出话语的力量,他们把注意力从习得新单词上转向了把已习得词语进行组合上,于是就有了上述鱼翅形曲线。

4.2语言环境对儿童语言习得的影响

儿童在与看护的交流中学会使用语言,研究看护的话语对儿童语言习得的影响具有举足轻重的作用。
项目组(Brandon C. Roy ,Michael C.Frank & Deb Roy 2009)通过对数据库的分析研究了看护话语长度以及韵律特征对儿童习得语言的影响。他们把看护的话语长度作为话语复杂性的指标,研究了包含特定词的话语平均长度和这个词习得时间之间的关系。研究结果如上面曲线图,表明看护在儿童习得一个词汇之前,不断缩短包含这个词的话语长度,直到儿童习得这个词汇之后,看护又开始不断地加大话语复杂性。研究还提取了看护话语中词汇的平均时长、相对基频和相对强度三个韵律特征,把这三个韵律特征和词汇习得年龄做了线性回归分析。结果显示,词汇习得年龄和时长、基频以及强度都有重要的相关性。

4.3行为环境对儿童语言习得的影响

儿童论文导读:研究成果。5.总结HSP项目运用的新技术和高投资达到了前所未有的研究规模。项目运用密集采样策略得到的数据库和其他小规模数据库相比具有很大优势:一、它连续三年记录了一个孩子将近80%的生活经历,比其他数据库都要密集详细;二、它不是在任何理论或者假设的指导下进行搜集的,因而可以根据不同的需要对它做多样的研究
习得语言的自然环境除了包括语言环境外,还包括行为活动等社会环境。Bruner(1985)曾经强调过社会活动结构对儿童语言习得的重要作用,但这一结论并没有经过大规模数据的定量研究证明。项目组利用数据库对这一理由展开了研究。Miller和Shaw(2011)发现,越是固定在空间中的物体名称越容易习得。Brandon C. Roy ,Michael C.Frank & Deb Roy (2012)发现,环境越集中的单词越容易习得。他们的研究把社会环境和物理环境结合起来,把词汇习得研究向前推进了一步。

4.4儿向语韵律变化研究

儿向语研究大都集中在对韵律特征和作用的研究上,很少有人对儿向语韵律随着儿童的成长所出现的变化做过研究。HSP对被试儿童三个看护的儿向语进行了分析研究,比较了儿向语言和成人向语言之间的韵律差别并研究了儿向语随时间发生的韵律变化(Soroush Vosoughi & Deb Roy 2012)。研究发现虽然儿向语言和成人向语言之间的韵律还存在着明显的差别,但随着儿童年龄的增长,儿向语言已经逐渐向成人向语言靠拢。
以上对HSP现阶段的几项主要研究成果进行了概括总结。当然,HSP的研究还处儿童语言习得新视角:人类家庭语言计划(Human Speechome)论文资料由论文网www.7ctime.com提供,转载请保留地址.在初始阶段,经过进一步的数据采集和数据处理,我们相信他们会呈献出更丰硕的研究成果。
5.总结
HSP项目运用的新技术和高投资达到了前所未有的研究规模。项目运用密集采样策略得到的数据库和其他小规模数据库相比具有很大优势:一、它连续三年记录了一个孩子将近80%的生活经历,比其他数据库都要密集详细;二、它不是在任何理论或者假设的指导下进行搜集的,因而可以根据不同的需要对它做多样的研究;三、HSP高分辨率的摄像机还搜集了许多非语言的数据,可以对它们进行深入研究,挖掘影响语言习得的潜在因素。
HSP项目在数据挖掘和可视化技术支持下,取得了许多新的成果,提供了研究儿童语言习得的新视角。HSP的研究目前还处于初始阶段,新的研究成果还会陆续呈现出来,如Brandon Cain Roy(2013)最近利用HSP数据库研究了儿童早期的词汇习得,以及推动一些词汇较早习得的环境因素。要想达到最终目标建立儿童语言习得的可计算模型,项目组还要对现有数据处理工具改善升级,根据需要开发各种新系统,并且还得耐住性子在计算机前面坐个几年才行。
参考文献:
[1]Roy,B.C.2007.Human-Machine collaboration for rapid speech transcription[D].M.Sc.Massachusetts Institute of Technology.
[2]Roy,B.C. 2013. The birth of a word [D]. D.Sc. Massachusetts Institute of Technology.
[3]Roy,B.C. & Roy,D. 2009. Fast transcription of unstructured audio recordings [P]. Proceedings of the 10th Annual Conference of the Interspeech 2009. Brighton,England.
[4]Roy,B.C.,Frank,M.C. & Roy,D. 2009. Exploring word learning in a high-density longitudinal corpus [P]. Proceedings of the 31th Annual Conference of the Cognitive Science Society.
[5]Roy,B.C.,Frank,M.C. & Roy,D. 2012. Relating activity contexts to early word learning in dense longitudinal data [P].Proceedings of the 34th Annual Conference of the Cognitive Science Society.
[6]Braunwald,S.R.1978.Context,word and meaning:Toward a communicational analysis of lexical acquisition[J].Action,gesture and symbol:The emergence of language,485-527.
[7]MacWhinney,B.2000.The CHILDES Project:Tools for Analyzing Talk[M].Lawrence Erlbaum Associates,Mahwah,NJ,3rd edition.
[8]Bruner,J.1985.The role of interaction formats in language acquisition.In Language and social situations,31-4

6. Springer New York.

[9]Roy,D.,Patel,R.,DeCamp,P.,Kubat,R.,Fleischman,M.,Roy,B.,Mridis,N.,Tellex,S.,Salata,A.,Guinness,J.,Levit,M.& Gorniak,P.2006.The Human Speechome Project[P].Proceedings of the 28th Annual Cognitive Science Conference.
[10]Roy,D.2009.New horizons in the study of ch论文导读:ti-camerideo.Proceedingsofthe2009InternationalConferenceonContent-basedImageandVideoRetrieval(CIVR).DeCamp,P.,Shaw,G.,Kubat,R.&Roy,D.2010.Animmersivesystemforbrowsingandvisualizingsurveillancevideo.ProceedingsofACMMultimedia2010.Florence,Italy.DeCamp,P.200

7.HeadLo

ild language acquisition[P].Proceedings of the 10th Annual Conference of the Interspeech 2009.Brighton,England.
[11]Dromi,E.1987.Early lexical development[J].Cambridge University Press.
[12]J.Bruner.1983.Child’s talk:Learning to use language [J].Norton.[13]Miller,M.2011.Semantic Spaces:Behior,language and word learning in the Human Speechome corpus[D].M.Sc. Massachusetts Institute of Technology.
[14]DeCamp,P. & Roy,D. 2009. A Human-Machine collaborative approach to tracking human movement in multi-camera video[P].Proceedings of the 2009 International Conference on Content-based Image and Video Retrieval (CIVR).
[15]DeCamp,P.,Shaw,G.,Kubat,R.&Roy,D.2010.An immersive system for browsing and visualizing surveillance video[P].Proceedings of ACM Multimedia 2010. Florence,Italy.
[16]DeCamp,P.2007.HeadLock:Wide-Range head pose estimation for low resolution video[D].M.Sc. Massachusetts Institute of Technology.
[17]Kubat,R.,DeCamp,P.,Roy,B. & Roy,D. 2007. TotalRecall: Visualization and semi-automatic annotation of very large audio-visual corpora[P].9th International Conference on Multimodal Interfaces (ICMI 2007).
[18]Vosoughi,S.&Roy,D.201

2.A longitudinal study of pros

odic exaggeration in child-directed speech[P].Proceedings of the 6th International Conference on Speech Prosody.S儿童语言习得新视角:人类家庭语言计划(Human Speechome)论文资料由论文网www.7ctime.com提供,转载请保留地址.hanghai,China.
[19]Vosoughi,S.&Roy,D.2012.An automatic child-directed speech detector for the study of child language development. proceedings of Interspeech[P].Portland,Oregon.
[20]Vosoughi,S.,Roy,B.C.,Frank,M.C.&Roy,D.2010.Cont
ributions of prosodic and distributional features of caregivers' speech in early word learning[P].Proceedings of the 32nd Annual Cognitive Science Conference.
[21]Vosoughi,S.,Roy,B.C.,Frank,M.C. & Roy,D. 2010. Effects of caregiver prosody on child language acquisition[P]. Proceedings of the 5th International Conference on Speech Prosody.Chicago,IL.