前言:想要寫出一篇引人入勝的文章?我們特意為您整理了石油專業(yè)多語種翻譯知識(shí)庫(kù)研發(fā)范文,希望能給你帶來靈感和參考,敬請(qǐng)閱讀。
摘要:近年來,新疆油田公司對(duì)外交流和國(guó)際合作越發(fā)頻繁,對(duì)外合作項(xiàng)目也日益增多,隨之而來的外文翻譯工作呈明顯上升趨勢(shì)。由于翻譯周期短,翻譯任務(wù)多,許多材料都交給翻譯公司承擔(dān)。但是這些資料的專業(yè)性極強(qiáng),有的翻譯公司譯文不夠?qū)I(yè),質(zhì)量無法保障,且翻譯費(fèi)用較高,這給對(duì)外合作項(xiàng)目帶來不便。同時(shí),石油科研技術(shù)人員也迫切希望有一個(gè)自己的翻譯知識(shí)庫(kù)平臺(tái),以便輔助閱讀相關(guān)外文資料,提升技術(shù)攻關(guān)效率。通過實(shí)際需求調(diào)研并結(jié)合自身的科研實(shí)力,新疆油田公司勘探開發(fā)研究院決定研發(fā)一套屬于自己的輔助翻譯知識(shí)庫(kù)平臺(tái)。以此來協(xié)助海外項(xiàng)目研究,提升專業(yè)人員工作效率、節(jié)約開支、鍛煉隊(duì)伍、培養(yǎng)語言人才。
關(guān)鍵詞:信息系統(tǒng)應(yīng)用;翻譯平臺(tái);輔助翻譯
一、前言
目前,市面上石油領(lǐng)域的專業(yè)翻譯軟件較少,俄語翻譯軟件更是如此,這給專業(yè)人員帶來了不便。在實(shí)際工作中,專業(yè)技術(shù)人員多使用各自不同的翻譯軟件,相同的術(shù)語往往會(huì)有不同的翻譯結(jié)果,這導(dǎo)致譯文專業(yè)性不強(qiáng)。一些專業(yè)技術(shù)人員經(jīng)過一段時(shí)間的積累,收集整理出成百甚至上千條專業(yè)詞匯,但沒有一個(gè)好的途徑共享給大家進(jìn)行學(xué)習(xí)。此外,多年的海外工作過程中,勘探開發(fā)研究院積累了許多專業(yè)性極強(qiáng)的雙語報(bào)告,這些資料對(duì)年輕翻譯人員來說非常難得且極具參考價(jià)值,但是由于保密工作需要無法進(jìn)行大面積傳閱,造成了資源浪費(fèi)。通過調(diào)查發(fā)現(xiàn),中石油內(nèi)部沒有統(tǒng)一的石油專業(yè)術(shù)語庫(kù),要解決上述專業(yè)資料翻譯過程中遇到的問題,就必須建立一套屬于自己的術(shù)語庫(kù)和石油專業(yè)多語種資料翻譯知識(shí)平臺(tái),以此提高外語翻譯的質(zhì)量。
二、平臺(tái)設(shè)計(jì)
(一)總體框架設(shè)計(jì)
本平臺(tái)框架由三個(gè)應(yīng)用層組成,最下面是數(shù)據(jù)層,中間是數(shù)據(jù)管理層,最上面是用戶使用的應(yīng)用層(圖1)。最底層的數(shù)據(jù)層保存著平臺(tái)所有英、俄、漢術(shù)語、句子和雙語報(bào)告數(shù)據(jù)。數(shù)據(jù)管理層主要負(fù)責(zé)從底層數(shù)據(jù)層數(shù)據(jù)進(jìn)行相應(yīng)邏輯處理,然后給上面應(yīng)用層提供數(shù)據(jù)和各種數(shù)據(jù)接口服務(wù)。應(yīng)用層的職責(zé)是調(diào)用數(shù)據(jù)層的接口,讀取數(shù)據(jù)并展示給用戶。
(二)平臺(tái)功能建設(shè)
近年來,越來越多的ASP. NET開發(fā)人員開始接觸MVC 架,開始大都認(rèn)為MVC與ASP. NET完全沒有關(guān)系,是一個(gè)全新 的Web開發(fā),而亊實(shí)上MVC是一種更高級(jí)架構(gòu)體系,原來的的ASP. NET稱為ASP. NET WebForms,新的MVC稱為ASP. NET MVC[1],項(xiàng)目組利用微軟的ASP.Net MVC框架作為開發(fā)框架、SQL Server和SQLite作為底層數(shù)據(jù)庫(kù)、前段UI大量使用BootStrap和各種JS框架來實(shí)現(xiàn)快速開發(fā),制定了詳細(xì)的平臺(tái)建設(shè)及實(shí)施方案,經(jīng)過一年多時(shí)間的研發(fā)完成了C/S和B/S版本,并在實(shí)際應(yīng)用不斷完善,主要功能包括以下5個(gè)方面。
1.權(quán)限管理模塊功能
平臺(tái)B/S版本的權(quán)限模塊是基于角色訪問控制,只有內(nèi)部用戶才能使用B/S版本,利用這種方式保證了平臺(tái)數(shù)據(jù)安全。具體技術(shù)上使用了ASP.NET Identity來實(shí)現(xiàn)用戶登錄和權(quán)限模塊,它為平臺(tái)提供了一系列接口來管理和維護(hù)用戶和角色。ASP.NET Identity將用戶所有的數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫(kù)中。ASP.NET Identity使用Entity Framework實(shí)現(xiàn)其所有的檢索和持久化機(jī)制。ASP.NET Identity支持基于聲明的身份驗(yàn)證,它使用一組“聲明”來表示用戶的身份標(biāo)識(shí),相對(duì)于“角色”,“聲明”能使開發(fā)人員能夠更好地描述用戶的身份標(biāo)識(shí)。
2.術(shù)語、句子查詢功能
在平臺(tái)的術(shù)語查詢界面上,用戶輸入關(guān)鍵字后,平臺(tái)會(huì)自動(dòng)判斷用戶輸入的關(guān)鍵字語種并將相關(guān)搜索結(jié)果顯示在下面的展示欄目,同時(shí)進(jìn)行相應(yīng)的模糊查詢并找出詞組展示在詞組框里。
3.平臺(tái)內(nèi)部分享功能
翻譯人員在翻譯工作中發(fā)現(xiàn)一些術(shù)語的新譯法時(shí),可以通過平臺(tái)中“我的詞匯”功能來實(shí)現(xiàn)平臺(tái)的內(nèi)部共享。其他人在查詢?cè)撔g(shù)語時(shí)可以查看他人分享的內(nèi)容。
4.多個(gè)網(wǎng)絡(luò)詞典統(tǒng)一展示功能
用戶在查詢某個(gè)句子或單詞的翻譯時(shí),系統(tǒng)首先在本地庫(kù)里搜索翻譯結(jié)果,同時(shí)也在其它幾個(gè)網(wǎng)絡(luò)詞典中搜索翻譯結(jié)果并把結(jié)果展示在搜索結(jié)果欄,供使用者參考。
5.知識(shí)庫(kù)功能
勘探開發(fā)研究院在多年的海外項(xiàng)目工作中產(chǎn)生了很多優(yōu)秀的雙語科研報(bào)告。項(xiàng)目組將這些報(bào)告按照數(shù)據(jù)庫(kù)規(guī)則導(dǎo)入到數(shù)據(jù)庫(kù)中。用戶使用平臺(tái)進(jìn)行查詢時(shí),系統(tǒng)會(huì)根據(jù)用戶給的關(guān)鍵字從數(shù)據(jù)庫(kù)中搜出相應(yīng)的段落進(jìn)行展示。這些優(yōu)秀的雙語科研報(bào)告對(duì)翻譯人員準(zhǔn)確理解詞句提供了很大的幫助。
三、數(shù)據(jù)庫(kù)建設(shè)
作為一種數(shù)據(jù)驅(qū)動(dòng)方法,當(dāng)前的機(jī)器翻譯髙度依賴平行語料庫(kù)的規(guī)模、質(zhì)量和領(lǐng)域廣度[2]。在數(shù)據(jù)庫(kù)建設(shè)過程中,為了保證數(shù)據(jù)質(zhì)量,首先由項(xiàng)目組對(duì)石油專業(yè)英俄漢術(shù)語進(jìn)行了收集、整理和分析,然后由石油專業(yè)翻譯專家結(jié)合自身經(jīng)驗(yàn)對(duì)各種紙質(zhì)詞典、網(wǎng)絡(luò)術(shù)語、專業(yè)報(bào)告中的術(shù)語進(jìn)行比對(duì)篩選,挑選出最精煉的術(shù)語。這些術(shù)語經(jīng)過專家審核后,再利用編程算法進(jìn)行了二次整理,確認(rèn)無誤后,正式上傳到英俄漢術(shù)語庫(kù)中。為了簡(jiǎn)化審核工作,項(xiàng)目組單獨(dú)開發(fā)了數(shù)據(jù)審核模塊對(duì)所有錄入的數(shù)據(jù)在線進(jìn)行審核(圖2)。此外,在軟件研發(fā)的同時(shí),團(tuán)隊(duì)還建立了一套完整的數(shù)據(jù)審批流程??蒲腥藛T在翻譯過程中發(fā)現(xiàn)新的雙語詞語或句子時(shí),可以自行添加到術(shù)語庫(kù)和句子庫(kù)。經(jīng)過翻譯專家后臺(tái)審核通過后,該術(shù)語將自動(dòng)加載到平臺(tái)術(shù)語庫(kù)中。這套流程將不斷擴(kuò)充和豐富知識(shí)庫(kù),保證知識(shí)庫(kù)數(shù)據(jù)的正?;?。研發(fā)人員和石油專業(yè)用戶共同協(xié)作,根據(jù)工作要求不斷完善平臺(tái)功能,這也是與其他翻譯平臺(tái)的不同之處。平臺(tái)數(shù)據(jù)主要分為三類:術(shù)語、句子和雙語報(bào)告,術(shù)語庫(kù)為最基礎(chǔ)庫(kù)。截止到2021年底,數(shù)據(jù)庫(kù)已收錄英漢石油專業(yè)術(shù)語15萬余條、俄漢石油專業(yè)術(shù)語10萬余條以及俄漢石油專業(yè)句子6.4萬余條,俄漢雙語報(bào)告3.7萬余字。
四、平臺(tái)建設(shè)的關(guān)鍵技術(shù)
(一) PRR全文搜索技術(shù)(PRR:Petroleum Research Report)
在平臺(tái)建設(shè)中,項(xiàng)目組沒有使用通用的全文搜索源碼,而是通過自主編寫代碼實(shí)現(xiàn)了歷史報(bào)告的全文搜索功能。在此過程中,為了保證數(shù)據(jù)安全,將整篇雙語報(bào)告按段落拆分,并進(jìn)行加密入庫(kù),數(shù)據(jù)庫(kù)端使用SQlite保證了數(shù)據(jù)的查詢速度。SQLite數(shù)據(jù)庫(kù)是一個(gè)開源的嵌人式關(guān)系數(shù)據(jù)庫(kù),它在2000年由D.Richard Hipp發(fā)布,作為嵌人式數(shù)據(jù)庫(kù),SQlite數(shù)據(jù)庫(kù)可以很好地解決大型數(shù)據(jù)庫(kù)占用大量資源的問題,它可以有效減少應(yīng)用程序管理數(shù)據(jù)的開銷,具有移植性好、容易使用、體積小、高效而且可靠等多方面的優(yōu)點(diǎn)[3]。在進(jìn)行涉密資料的安全處理時(shí),首先把報(bào)告拆分,按段落進(jìn)行錄入。這樣搜索關(guān)鍵字時(shí)只能拿到一段匹配到的記錄,而且也不知道報(bào)告的具體內(nèi)容。由于報(bào)告里的數(shù)字涉密最多,這些具體數(shù)字會(huì)被自動(dòng)替換。同時(shí)設(shè)置一些涉密關(guān)鍵字,進(jìn)行自動(dòng)過濾。最后錄入之前請(qǐng)相關(guān)人員進(jìn)行審核,檢查是否有涉密的內(nèi)容。通過這些方法最大程度地保證了數(shù)據(jù)的安全性。
(二)石油專業(yè)語義分析技術(shù)
在數(shù)據(jù)庫(kù)建設(shè)初期,數(shù)據(jù)庫(kù)收集了大量的英漢和俄漢術(shù)語,在翻譯平臺(tái)中用中文查詢外語時(shí)效果不太理想。為了解決這個(gè)問題,通過研發(fā)石油專業(yè)語義分析技術(shù),把所有英漢和俄漢詞典中的術(shù)語進(jìn)行了優(yōu)化調(diào)整,創(chuàng)建了漢英和漢俄數(shù)據(jù)庫(kù),實(shí)現(xiàn)了中文外文的雙向查詢,提高了漢俄、漢英查詢時(shí)搜索結(jié)果的準(zhǔn)確性(圖3)。
(三)網(wǎng)絡(luò)爬蟲技術(shù)
網(wǎng)絡(luò)爬蟲(又被稱為網(wǎng)頁(yè)蜘蛛,網(wǎng)絡(luò)機(jī)器人)是一種按照一定的規(guī)則,自動(dòng)抓取網(wǎng)頁(yè)信息的程序或腳本。通過研究網(wǎng)路爬蟲技術(shù),項(xiàng)目組掌握了HtmlAgilityPack和xpath解析html文檔技術(shù),編寫了雙語句子爬蟲算法,利用算法進(jìn)行爬蟲抓取數(shù)據(jù),從網(wǎng)絡(luò)上成功獲取6萬多條雙語句子。這個(gè)技術(shù)還可以在后期數(shù)據(jù)庫(kù)的術(shù)語審核和校對(duì)中發(fā)揮更好的作用。
(四)在線翻譯系統(tǒng)的接口集成技術(shù)
在研究海外項(xiàng)目組工作人員的翻譯習(xí)慣時(shí)發(fā)現(xiàn)他們中很多人習(xí)慣使用一些在線詞典。大家常用的在線詞典包括有道、yandex、Google、Bing、百度等。通過研究WebService技術(shù),實(shí)現(xiàn)了三個(gè)常用在線詞典的接口集成。用戶在知識(shí)庫(kù)里檢索文字時(shí),平臺(tái)首先在知識(shí)庫(kù)里搜索關(guān)鍵字并進(jìn)行展示,同時(shí)把三個(gè)在線詞典的檢索結(jié)果展示在同一頁(yè)面。
五、平臺(tái)建設(shè)成果及先進(jìn)性對(duì)比
(一)平臺(tái)建設(shè)取得的成果
通過一年多時(shí)間的開發(fā),平臺(tái)建設(shè)取得了3項(xiàng)主要成果:第一,建立了一套擁有獨(dú)立知識(shí)產(chǎn)權(quán)的石油專業(yè)翻譯服務(wù)平臺(tái),實(shí)現(xiàn)了英、俄、漢專業(yè)詞匯的在線互查,申報(bào)軟件著作權(quán)2項(xiàng):《石油專業(yè)多語種翻譯知識(shí)庫(kù)查詢系統(tǒng)》《漢、英、俄石油專業(yè)術(shù)語詞典系統(tǒng)》。第二,建立了中石油首個(gè)石油專業(yè)領(lǐng)域的英、俄、漢術(shù)語庫(kù)。第三,首次實(shí)現(xiàn)石油行業(yè)內(nèi)高質(zhì)量雙語專業(yè)科研報(bào)告全文搜索服務(wù)。翻譯人員在工作中發(fā)現(xiàn)一些術(shù)語的新譯法時(shí),可以在平臺(tái)內(nèi)部進(jìn)行收錄,實(shí)現(xiàn)平臺(tái)的內(nèi)部共享。這樣用戶在翻譯相同的術(shù)語時(shí),能夠查看別人共享的內(nèi)容,節(jié)約翻譯時(shí)間。經(jīng)過所有用戶長(zhǎng)時(shí)間的分享積累,術(shù)語庫(kù)將得到不斷的擴(kuò)充。
(二)成果先進(jìn)性對(duì)比
在對(duì)外交流的過程中,中石油旗下的很多部門都對(duì)翻譯工具進(jìn)行過研究。1995年新疆石油管理局召集相關(guān)領(lǐng)域?qū)<液头g小組出版了漢、英、俄、維石油技術(shù)詞典,這本詞典的參考價(jià)值很高,至今仍是俄語翻譯人員的主要參考工具。2016年石油出版社也根據(jù)自己的需求推出了石油知識(shí)翻譯的網(wǎng)頁(yè)版本,提供在線術(shù)語翻譯。這些翻譯工具功能都相對(duì)單一,項(xiàng)目組研發(fā)的石油專業(yè)多語種翻譯知識(shí)庫(kù)平臺(tái)PC版本則是一個(gè)功能比較完善、可擴(kuò)展性較強(qiáng)的應(yīng)用平臺(tái)。主要表現(xiàn)在以下3個(gè)方面。
1.首個(gè)石油專業(yè)領(lǐng)域知識(shí)庫(kù)平臺(tái)
目前在常見的翻譯軟件中(見表1),石油專業(yè)領(lǐng)域知識(shí)庫(kù)較少。我們將翻譯知識(shí)庫(kù)平臺(tái)的術(shù)語庫(kù)功能與國(guó)內(nèi)一個(gè)常用的線上詞典進(jìn)行對(duì)比。用該詞典查詢石油專業(yè)術(shù)語時(shí),一般只能得到通用的釋義,無法得到符合科研人員要求的專業(yè)釋義(圖4)。
2.數(shù)據(jù)庫(kù)有良好的可擴(kuò)展性
只有不斷改進(jìn)完善的平臺(tái)才是好平臺(tái)。用戶需求隨著實(shí)際工作要求不斷變化,石油專業(yè)多語種翻譯知識(shí)庫(kù)的很多靈活功能都是投入測(cè)試以后使用者提出來的,研發(fā)人員和石油專業(yè)用戶共同協(xié)作,根據(jù)工作要求不斷完善平臺(tái)功能,這也是此平臺(tái)與其他翻譯平臺(tái)的不同之處。今后,平臺(tái)會(huì)根據(jù)石油專業(yè)用戶的需求推出更多個(gè)性化的功能,并進(jìn)行長(zhǎng)期的維護(hù)和升級(jí)。
3.最大限度地利用了新疆油田獨(dú)一無二的歷史雙語報(bào)告資源
新疆油田公司勘探開發(fā)研究院有許多多年從事石油專業(yè)翻譯的專家,因此產(chǎn)生了許多寶貴的雙語科研報(bào)告。該平臺(tái)的最大亮點(diǎn)還包括科研報(bào)告的再利用。因?yàn)榭蒲袌?bào)告的翻譯和常規(guī)報(bào)告有很大不同,所以根據(jù)新疆油田公司海外技術(shù)服務(wù)習(xí)慣翻譯的內(nèi)容可以給使用者提供最正確最直接的答案,這也是該平臺(tái)獨(dú)一無二的功能(圖5)。
六、推廣應(yīng)用
平臺(tái)開發(fā)完成后,桌面版本已經(jīng)交由新疆油田公司勘探開發(fā)研究院中亞研究所和中國(guó)石油大學(xué)(北京)克拉瑪依校區(qū)試用。經(jīng)過近一年的推廣實(shí)踐,翻譯平臺(tái)對(duì)相關(guān)人員的工作有起到了很大幫助,提高了研究人員對(duì)外文資料的理解速度和質(zhì)量,同時(shí)對(duì)外文翻譯人員提高翻譯準(zhǔn)確率和效率起到了較大輔助作用。中亞研究所和中國(guó)石油大學(xué)(北京)克拉瑪依校區(qū)提供了專門的應(yīng)用評(píng)估反饋。目前市面上的翻譯軟件基本都是通用的翻譯軟件,石油行業(yè)的專業(yè)性不夠??碧介_發(fā)研究院研發(fā)的多語種資料翻譯知識(shí)庫(kù)有非常好的俄漢、英漢基礎(chǔ)術(shù)語庫(kù)和句子庫(kù)。行業(yè)內(nèi)專業(yè)技術(shù)人員會(huì)在實(shí)際工作中不斷使用該平臺(tái),平臺(tái)的專業(yè)維護(hù)團(tuán)隊(duì)也將根據(jù)用戶需求不斷地對(duì)數(shù)據(jù)庫(kù)進(jìn)行維護(hù)和補(bǔ)充,這樣將大幅度提高軟件的穩(wěn)定性和用戶粘度。這就是一個(gè)商業(yè)軟件必須具備的條件。圖5知識(shí)庫(kù)翻譯結(jié)果展示圖而且,平臺(tái)的基礎(chǔ)框架是自主研發(fā),底層部分的自主研發(fā)具有非常好的可移植性,平臺(tái)的技術(shù)條件可以很好地適應(yīng)安卓和蘋果版本,并發(fā)布到各手機(jī)應(yīng)用商城,所以完全可以像商業(yè)化軟件一樣移植到安卓和蘋果移動(dòng)手機(jī)上,具有一定的商業(yè)化價(jià)值和市場(chǎng)潛力。
七、結(jié)語
通過整合現(xiàn)有的外語翻譯人員及科研力量,新疆油田公司勘探開發(fā)研究院建立了石油專業(yè)多語種資料翻譯知識(shí)庫(kù),提高了外語翻譯的質(zhì)量和時(shí)效性,對(duì)新疆油田的對(duì)外合作事業(yè)具有重大的現(xiàn)實(shí)意義。該平臺(tái)對(duì)海外工作人員來說是一個(gè)全新的應(yīng)用平臺(tái),它區(qū)別于通用的翻譯詞典或軟件,既能滿足專業(yè)研究人員的需要,又能提高專業(yè)翻譯的速度和效率。在鍛煉隊(duì)伍、培養(yǎng)語言人才和輸送人才上起到積極的作用,同時(shí)對(duì)新疆油田的對(duì)外合作事業(yè)的發(fā)展具有重大的現(xiàn)實(shí)意義。
參考文獻(xiàn)
[1]黃玉春.MVC框架在ASP.NET中的應(yīng)用研究與實(shí)踐[J].商丘師范學(xué)院學(xué)報(bào),2021(3):15-17.
[2]宋仕振.試論機(jī)器翻譯與人工翻譯的未來關(guān)系[J].未來與發(fā)展,2019(2):25-30.
[3]張小鳳.基于Python的SQLite數(shù)據(jù)庫(kù)存儲(chǔ)裝備維修技術(shù),2020(5):16-17.
作者:曹藝鐘 熊維莉 曹菁 庫(kù)爾班江·托乎提 單位:新疆油田公司勘探開發(fā)研究院