【摘要】建設(shè)英語視頻新聞英語語料庫對于英語的學(xué)習(xí)者具有重要的意義和價值。結(jié)合語料庫語言學(xué)理論,從語料庫的代表性、語料庫的規(guī)模、語料的抽樣、語料的標(biāo)記、語料的賦碼等幾個方面探討了英語視頻新聞英語語料庫的建設(shè)程序,提出了一些關(guān)于建設(shè)該類語料庫的方法和思路。
【關(guān)鍵詞】英語新聞 抽樣 賦碼 語料庫
語料庫是真實(shí)語言材料的集合,通常都村粗在計算機(jī)里,具有信息量大、信息復(fù)雜等特點(diǎn)。作為人們經(jīng)常接觸的語言材料,新聞的內(nèi)容能夠反映社會生活,新聞?wù)Z言具有強(qiáng)烈的時代性,對日常生活用語的使用有著重要的意義,也可以說是標(biāo)準(zhǔn)語言,能夠體現(xiàn)現(xiàn)代英語發(fā)展特征和社會趨勢。以英語新聞作為選材來源,建立一個視頻新聞?wù)Z料庫并進(jìn)行不同目的的研究具有深遠(yuǎn)的意義和十分重要的價值。
一、建設(shè)新聞英語語料庫的目的
近幾年來,國外在新聞英語方面的研究有了長足的進(jìn)步,關(guān)于新聞英語的特點(diǎn)及在國內(nèi)新聞報道的研究,近幾年來國內(nèi)許多著作和論文體現(xiàn)的較多,近年來,國外在相關(guān)領(lǐng)域已經(jīng)建成了報刊新聞英語語料庫,例如:路透社報刊新聞英語語料庫,它存在的主要目的是研究報刊新聞英語。因此,建立一個用來分析和研究新聞英語,提高新聞英語的研究能力,提高英語播音主持專業(yè)英語新聞教材的編寫和教學(xué)水平的新聞英語語料庫,具有重要的意義。新聞英語語料庫應(yīng)該具有豐富的功能,包含大量的材料,如:視頻新聞英語文本、語音文件等。
二、英語新聞聽力教學(xué)語料庫的設(shè)計原則
語料庫的設(shè)計是所有工作的第一步,也是語料庫建設(shè)中最重要的一個環(huán)節(jié),設(shè)計的質(zhì)量會關(guān)系到語料庫的質(zhì)量并在一定程度上影響后續(xù)相關(guān)語料庫的研究。設(shè)計階段要對問題進(jìn)行全面分析,通常來說要全面考慮,必須充分考慮語料庫的規(guī)模、內(nèi)容、語料樣本,下面就語料庫的設(shè)計原則進(jìn)行闡述。
1.語料庫的代表性原則。語料庫建設(shè)的首要原則是代表性原則,它是區(qū)分語料庫與語料檔案庫的一個重要標(biāo)志。一般來說,視頻新聞英語語料庫的主要特征是有限的語料樣本能夠最大限度地反映新聞英語。因此,這就要求建庫者應(yīng)該收集盡量豐富的各種形式的文本,這樣在一定程度上可以保證語料庫的總體特征,提高語料庫的代表性。
2.語料庫規(guī)模適度性原則。通常來說,語料庫的規(guī)模要盡量大,這樣可以涵蓋更加豐富的內(nèi)容,但在事實(shí)上操作難度很大,其規(guī)模會受到很多影響因素的限制。因此,日常管理過程中,建庫者是運(yùn)用統(tǒng)計學(xué)的原理,以語料代表性和合理分配樣本比例為基礎(chǔ),通過一定比例的樣本從總體上反映語言學(xué)特征,這樣就可以不必片面追求規(guī)模,同樣達(dá)到比較理想的效果。
語料庫的規(guī)模有四個層次,分別是:詞次、庫文本數(shù)量、層間樣本數(shù)量和庫樣本容量。各層次之間的比例要從平衡的角度進(jìn)行合理分配。綜上所述,隨著科學(xué)技術(shù)的進(jìn)步,應(yīng)用現(xiàn)代化的互聯(lián)網(wǎng)和多媒體技術(shù),可以實(shí)現(xiàn)建立100萬詞次容量的廣播新聞英語語料庫,這一規(guī)模就可以完全滿足研究廣播新聞英語的需要。
三、語料抽樣
語料庫自身也存在著矛盾,應(yīng)用過程中發(fā)現(xiàn)無盡的語言事實(shí)和有限的語料樣本之間的矛盾是永遠(yuǎn)無法解決的,語料庫常見的研究方法是用有限的語料代表整體語言事實(shí)。要盡最大限度的解決這個問題,必須在確定規(guī)模的基礎(chǔ)上根據(jù)統(tǒng)計學(xué)理論進(jìn)行科學(xué)抽樣,使建成的語料庫達(dá)到總體效度的標(biāo)準(zhǔn)。
英語視頻新聞?wù)Z料庫的語料全部從英語新聞選取,語料庫的建設(shè)目的是為主流標(biāo)準(zhǔn)英美新聞?wù)Z言的研究提供數(shù)據(jù),所以采取英語報道中的材料。
1.等距抽樣。語料庫建設(shè)者必須充分考慮所手機(jī)的內(nèi)容要具有多樣性,這樣抽樣時才具有代表性。當(dāng)新聞報道遇到重要新聞熱點(diǎn)事件時,如奧運(yùn)會或者恐怖襲擊等,在一段時期當(dāng)中新聞報道將會用大量篇幅覆蓋該主題,這就會使抽樣在平衡性上造成偏差。這樣在一段時間內(nèi)占某一新聞事件將不會對語料選取的多樣性和均衡性造成影響,但是從現(xiàn)代統(tǒng)計學(xué)的觀點(diǎn)來看,其隨機(jī)指定的方法未免缺乏科學(xué)性和精確性。為了達(dá)到更好的代表性和平衡性,可以采取統(tǒng)計學(xué)中的等距抽樣的方法,做好樣本排列順序和樣本抽樣間距的設(shè)計。
2.分層抽樣。分層抽樣是“按照總體已有的某些特征,將總體分成幾個不同部分,每一部分稱為一層,然后再分別在每一部分中進(jìn)行簡單隨機(jī)抽樣?!痹诜謱映闃又?,各層子樣本方差可能會小于總體方差,具有較好的均勻性,可以得到較高的精度,分層抽樣可以減少誤差,提高精度。
3.語料的預(yù)處理、添加文本頭標(biāo)記和文本的結(jié)構(gòu)標(biāo)記。進(jìn)行抽樣后的語料還不能直接加入預(yù)料庫,之前需要進(jìn)行加工和標(biāo)識。目前常用的方法是在Wordsmith 軟件中撰寫命令語句,再導(dǎo)入抽樣后的語料進(jìn)行處理,方便快捷地就可以完成預(yù)處理的工作。
根據(jù)語料庫建設(shè)的通識做法,需要對每篇語料加注文本頭,以提供這篇語料的有關(guān)基本信息。文本頭的標(biāo)記提供包括語料的來源、收集時間等七個方面的基本信息。標(biāo)記的方法可以參照研究者的需要進(jìn)行。
四、語料的賦碼
抽樣語料不經(jīng)過賦碼只能被稱作生語料。使用生語料庫只能進(jìn)行制定詞頻表或借助語料庫檢索軟件對特定詞的詞頻、用法和搭配加以研究,不能完全發(fā)揮語料庫在新聞英語研究方面的潛力。經(jīng)過賦碼的語料庫則具有更廣泛的研究價值。
語料庫的賦碼是對語料添加語言特征碼的過程。語料庫的賦碼有兩種:詞性賦碼和句法賦碼。詞類賦碼目前已可以自動進(jìn)行,對不受限制的語料進(jìn)行自動賦碼的準(zhǔn)確率已可達(dá)到96%以上的準(zhǔn)確率,基本上可以滿足語言研究和應(yīng)用的需要。而對語料進(jìn)行自動句法賦碼的準(zhǔn)確率還不高,還沒有達(dá)到應(yīng)用的程度,對語料的句法賦碼到目前為止還必須采取計算機(jī)軟件協(xié)助下的人工賦碼方法 。
英語新聞報道內(nèi)容豐富,形式多樣,語言靈活,詞語、句法活用情況頻繁。就其英語視頻新聞而言,文本的賦碼不可能達(dá)到絕對的準(zhǔn)確率,但經(jīng)過努力可以保證準(zhǔn)確率達(dá)到90%以上,基本達(dá)到后期研究的需要。
五、英語新聞?wù)Z料庫的應(yīng)用
新聞英語語料庫的建設(shè)和應(yīng)用還需要很長時間的探索。嚴(yán)格意義上來講,“語料庫本身并不包含和語言相關(guān)的新信息,但基于語料庫的檢索引擎給我們提供了觀測舊信息的新視角?!蓖ㄟ^語料庫軟件檢索功能,將調(diào)研語料庫中所有詞按照詞頻高低進(jìn)行排列。通過頻率詞表除可以觀察不同新聞?wù)Z篇的特點(diǎn),能夠掌握詞匯的頻率等信息,進(jìn)而計算出選詞指數(shù)。利用語料庫軟件的文本索引功能對整個新聞?wù)Z料庫進(jìn)行檢索,可以呈現(xiàn)出英語新聞報道的規(guī)律。
六、結(jié)語
當(dāng)今社會,新聞編輯和文化研究能力只所以得到進(jìn)一步提高,主要取決于英語視頻新聞?wù)Z料庫及相應(yīng)檢索軟件的發(fā)展和進(jìn)步為其研究提供了一個新的平臺。
多媒體技術(shù)從技術(shù)和應(yīng)用角度能夠?yàn)樾侣剰臉I(yè)者、新聞教學(xué)和英語學(xué)習(xí)者提供非常便捷的服務(wù)。借助一些語料庫檢索軟件,可以快速了解英語新聞詞匯和語篇特征,解析新聞英語中的常見詞匯、常用語言的連接關(guān)系。此外,新聞英語語料庫與新聞文本對應(yīng)的視頻文件還有很多作用,可以提供查詢服務(wù),提供借閱服務(wù),還可以為編寫新聞英語教材提供了大量豐富的素材,教材編寫者還可以通過軟件的查詢功能實(shí)現(xiàn)快速選取語料庫中需要的材料,而且還能根據(jù)語料庫樣本的統(tǒng)計特征控制所選材料的難易程度,進(jìn)而促進(jìn)新聞英語的研究。
參考文獻(xiàn):
[1]Kennedy,Graeme.An Introduction to Corpus Linguistics[M].New York:Longman,1998.
[2]韓寶成.外語教學(xué)研究中的統(tǒng)計學(xué)[M].北京:外語教學(xué)與研究出版社,2000.
[3][英]霍斯頓.應(yīng)用語言學(xué)中的語料庫[M].北京:世界圖書出版公司北京公司,2006.
[4]李曉娜.多模態(tài)話語分析南寧國際民歌藝術(shù)節(jié)海報[J].安徽文學(xué)(下半月),2010(12).
[5]王立非,文艷.應(yīng)用語言學(xué)研究的多模態(tài)分析方法[J].外語電化教學(xué),2008(03).
作者簡介:郭文正(1979-),河南鄭州人,文學(xué)碩士,平頂山學(xué)院外國語學(xué)院副教授。