從 +Tools 的應用談手動擷取雙語資料(一)
+Tools 是 Wordfast 的姊妹作。它在 CAT / TM 應用上所扮演最積極的角色,當屬其雙語資料擷取(alignment)的功能。儘管如此,+Tools
所提供的雙語資料擷取功能非常陽春,此為官方說法,也是站長小帥 J
親身試用後的心得。
+Tools 和 Wordfast 一樣,都是以 Word 的範本檔之形式整合在 Word 當中,執行輔助翻譯工作的任務。
+Tools 的雙語資料擷取功能之運作流程如下:
1) 將原文檔和譯文檔的內容分為數個 segments 並加以抽離(extract),再分別匯出成兩個 .doc
的檔案。
2) 將 1) 的兩個 .doc 檔之所有 segments 全部加上項目編號。同時,兩個 .doc 檔的字型大小皆調整為
5pt,以利後續手動對照調整。
3) 同時開啟兩個 .doc 檔,以放大檢視比例(因為字型大小已調整為 5pt)和並列的方式,讓 user 調整
segment 大小與原文和譯文的對應關係。由於 segments 都已經加上項目編號,因此在對應關係的確定上十分容易。到此,便已完成雙語資料擷取的作業。
4) 以這些經過手動調整的雙語擷取資料來建立 TM 庫。藉此建立的 TM 庫,即可立即上線供 Wordfast 使用。
站長小帥 J 在親身試驗過之後,發現 +Tools 的雙語資料擷取功能果然陽春,缺點不少,但亦有其可取之處。
在步驟 1) ,+Tools 的缺點在於其劃分 segment 的方法非常不聰明,而且少有規則可言。原先 Wordfast
設計劃分 segment 的區隔符號為英文的句號(.)、冒號(:)、驚嘆號(!)、問號(?)和換行符號(Enter),但由於英文的「.」的角色太過多重,因此
segment 的結果每每不合所需,比較值得信賴的反倒是換行符號。在 +Tools 裡,同樣的問題也會一再發生。
在步驟 2),為所有 segments 加上項目編號,並將字型大小調整為 5pt ,都是譯者企圖以手動方式來擷取雙語資料時十分值得參考的作法。為所有
segments 加上項目編號的方法,非常有利於手動調整原文與譯文的 segments 時兩者對應關係的確立,能清楚看出原文與譯文在對應上錯誤或遺漏之處。而將字型大小調整為
5pt,並在手動 align 時放大檢視比例,以檔案並列方式便利擷取工作的進行,更是善用電子檔優勢的作法。
在步驟 3),原本 +Tools 提供了使用 Alt 加上其它按鍵的方式,讓兩個 .doc 檔的視窗能依照編號迅速對齊的功能,不過隨著
user 自行增減與對齊 segments,這樣立意良善的功能竟然會平白無故的消失,真是令人不解!此外,由於 +Tools
提供的 alignment 功能實在是太陽春了,因此兩個視窗中原文和譯文 segments 的對應與排列,乍看之下讓人嘖嘖稱奇,實際上只是按照編號依序排列,並沒有多大學問或智慧在裡面。
在步驟 4),將步驟 1) 至 3) 排排站的 segments 轉換成 TM 庫的格式時,由於不知名的緣故,TM
庫的資料竟然會殘缺不全!不僅原文的 segments 嚴重短少,譯文的 segments 更是經常身首異處。於是小帥
J 寫信詢問原軟體作者,作者表示可能是因為 +Tools 目前仍不支援 Unicode 的緣故,不過小帥 J 認為問題並不是這麼單純。
從 +Tools
的應用談手動擷取雙語資料(二)
儘管 +Tools 的 alignment 功能不是頂
smart,不過從實際操作 +Tools
的經驗中,站長小帥 J
還是有了新的想法,那就是利用 Word 和 Excel
來進行雙語資料的手動擷取工作。
在 Word
方面,看中的是它「文字轉表格」和「表格轉文字」的功能;至於
Excel,則是要利用它「填滿」、「排序」的功能。
在進行雙語資料的手動擷取時,小帥
J 針對了 +Tools
原先的操作步驟加以改良。以下將以原文為英文、譯文為中文的雙語資料擷取為例說明。其中灰色文字為舊有的操作步驟,粉紅色文字為新增改良的步驟。
1)
將原文檔和譯文檔的內容分為數個 segments
並加以抽離(extract),再分別匯出成兩個 .doc
的檔案。
2) 將 1)
的兩個 .doc 檔之所有 segments
全部加上項目編號。同時,兩個 .doc
檔的字型大小皆調整為 5pt,以利後續手動對照調整。
3)
同時開啟兩個 .doc
檔,以放大檢視比例(因為字型大小已調整為
5pt)和並列的方式,讓 user 調整 segment
大小與原文和譯文的對應關係。
4)
但因為 +Tools 劃分 segments
的方法非常無章法可言,所以在原文(英文)部分小帥
J 利用 Word 的取代功能,將所有英文句號(.)取代為英文句號加換行符號(.^p),意即「遇句號即強迫換行(新增段落與編號)」,至於在譯文(中文)部分,小帥
J 同樣將所有中文句號(。)取代為(。^p)。而其它可能是劃分
segments
的標點符號,例如英中經常對應使用的冒號、驚嘆號和問號,皆可依照此法類推。利用此法,雖不足以一次為所有
segments 進行 alignment
的工作,但卻已經能省下許多移動滑鼠和敲擊鍵盤的工夫。
5) 由於
segments
都已經加上項目編號,因此在對應關係的確定上十分容易。完成
alignment 的作業後記得存檔。
6)
將兩個 .doc
檔的編號都去除,並把全部的文字改為表格。
7)
開啟一個新的 Excel 檔,將步驟 6)
的兩個表格分別複製 / 貼上到此 Excel
檔的兩欄中。原文貼至 E 欄,譯文貼至 G 欄,A、B、C、D、F
欄將留作其它用途。透過 Excel
視窗畫面同步移動的效果,更可以清楚檢視原文和譯文的
segments 是否兩兩相應。
8)
先點擊 Excel 檔中 E1
儲存格,在點擊工具列上「排序」的按鈕,讓所有
segments 依照順序排列,如此可清楚看出哪些
segments 是重複出現的。將原文 segments
重複出現且譯文亦完全相同的列整個刪除,如此可精簡未來
TM 庫的體積,提升軟體搜尋資料的速度。
到這個階段為止,基本上已經完成了手動擷取雙語資料的部分。目前所得到的
Excel
檔,只需填入適當的參數,再加上幾個簡單的轉換動作,理論上就可以成為符合
TMX 格式的 TM 庫。
從 +Tools
的應用談手動擷取雙語資料(三)
為了將手動擷取的雙語資料轉換為可供
Wordfast 使用的 TM
庫格式,必須繼續進行以下的步驟:
9)
回到兩個 .doc 檔的畫面,利用 Undo
的功能將表格回復到之前帶有編號的樣子,並執行
+Tools 中 Create TM
的功能。執行完畢後,視窗會出現剛剛建立的
TM 庫的資料,將其中除了原文和譯文 segments
的其它五項參數依序複製 / 貼上至 Excel 檔中的
A1、B1、C1、D1 和 F1
中,接著再利用拖曳控點的方式來執行填滿空格的動作。
10) 將
Excel 檔中所有資料(表格的形式)複製 /
貼上到另一個新開啟的 Word 檔中。在 Word
檔中將表格轉成文字,並將這些文字複製 /
貼上到步驟 9) 中 +Tools 所建立的 TM
庫的文件中,取代原先雙語資料的部分。
11)
以這些經過手動調整的雙語擷取資料來建立 TM
庫。藉此建立的 TM 庫,即可立即上線供 Wordfast
使用。
以上的步驟看似複雜,其實只是
Word 和 Excel
的活用,而且都是利用它們最基本的功能。
目前+Tools 的 alignment
功能陽春,尚無法有效擷取雙語資料,但要找到其它免費、有效率,又真能派上用場的
alignment
工具,說實在也並非易事。至於那些大型 CAT /
TM 軟體所附的 alignment
功能,到底在雙語資料擷取上能有效益,小帥 J
在親身試用前也不敢妄下定論。
總而言之,小帥 J
覺得此次的試用經驗非常寶貴,對於 TM 庫和 TMX
格式有更進一步瞭解。總而言之,小帥
J
獲得的結論有二:一、手動擷取雙語資料的工作耗時費力,因此CAT
/ TM
軟體在筆譯工作中的應用應該越早越好;二、對於目前尚未使用
CAT / TM
軟體來輔助筆譯工作進行的人,在整理詞彙與雙語對照資料時可以善用
Excel,以利未來字庫與 TM 庫的建立。
回目錄 ∣ 上一篇 ∣ 下一篇
本文最後編輯時間:2001 年 8 月 8 日
|