如有任何疑問,請先查詢FAQ,謝謝!
 
 
 
 
 
 
 

 

從 +Tools 的應用談手動擷取雙語資料(一)

公司首頁
Champollion & Partners
軟體名稱
+Tools (PlusTools)
目前版本
1.x (2001.8.7)
下載
請自行至官方網站下載
檔案大小
171KB
價格
免費

+Tools 是 Wordfast 的姊妹作。它在 CAT / TM 應用上所扮演最積極的角色,當屬其雙語資料擷取(alignment)的功能。儘管如此,+Tools 所提供的雙語資料擷取功能非常陽春,此為官方說法,也是站長小帥 J 親身試用後的心得

+Tools 和 Wordfast 一樣,都是以 Word 的範本檔之形式整合在 Word 當中,執行輔助翻譯工作的任務。

+Tools 的雙語資料擷取功能之運作流程如下:

1) 將原文檔和譯文檔的內容分為數個 segments 並加以抽離(extract),再分別匯出成兩個 .doc 的檔案。

2) 將 1) 的兩個 .doc 檔之所有 segments 全部加上項目編號。同時,兩個 .doc 檔的字型大小皆調整為 5pt,以利後續手動對照調整。

3) 同時開啟兩個 .doc 檔,以放大檢視比例(因為字型大小已調整為 5pt)和並列的方式,讓 user 調整 segment 大小與原文和譯文的對應關係。由於 segments 都已經加上項目編號,因此在對應關係的確定上十分容易。到此,便已完成雙語資料擷取的作業。

4) 以這些經過手動調整的雙語擷取資料來建立 TM 庫。藉此建立的 TM 庫,即可立即上線供 Wordfast 使用。

站長小帥 J 在親身試驗過之後,發現 +Tools 的雙語資料擷取功能果然陽春,缺點不少,但亦有其可取之處。

在步驟 1) ,+Tools 的缺點在於其劃分 segment 的方法非常不聰明,而且少有規則可言。原先 Wordfast 設計劃分 segment 的區隔符號為英文的句號(.)、冒號(:)、驚嘆號(!)、問號(?)和換行符號(Enter),但由於英文的「.」的角色太過多重,因此 segment 的結果每每不合所需,比較值得信賴的反倒是換行符號。在 +Tools 裡,同樣的問題也會一再發生。

在步驟 2),為所有 segments 加上項目編號,並將字型大小調整為 5pt ,都是譯者企圖以手動方式來擷取雙語資料時十分值得參考的作法。為所有 segments 加上項目編號的方法,非常有利於手動調整原文與譯文的 segments 時兩者對應關係的確立,能清楚看出原文與譯文在對應上錯誤或遺漏之處。而將字型大小調整為 5pt,並在手動 align 時放大檢視比例,以檔案並列方式便利擷取工作的進行,更是善用電子檔優勢的作法。

在步驟 3),原本 +Tools 提供了使用 Alt 加上其它按鍵的方式,讓兩個 .doc 檔的視窗能依照編號迅速對齊的功能,不過隨著 user 自行增減與對齊 segments,這樣立意良善的功能竟然會平白無故的消失,真是令人不解!此外,由於 +Tools 提供的 alignment 功能實在是太陽春了,因此兩個視窗中原文和譯文 segments 的對應與排列,乍看之下讓人嘖嘖稱奇,實際上只是按照編號依序排列,並沒有多大學問或智慧在裡面。

在步驟 4),將步驟 1) 至 3) 排排站的 segments 轉換成 TM 庫的格式時,由於不知名的緣故,TM 庫的資料竟然會殘缺不全!不僅原文的 segments 嚴重短少,譯文的 segments 更是經常身首異處。於是小帥 J 寫信詢問原軟體作者,作者表示可能是因為 +Tools 目前仍不支援 Unicode 的緣故,不過小帥 J 認為問題並不是這麼單純。

 

從 +Tools 的應用談手動擷取雙語資料(二)

儘管 +Tools 的 alignment 功能不是頂 smart,不過從實際操作 +Tools 的經驗中,站長小帥 J 還是有了新的想法,那就是利用 Word 和 Excel 來進行雙語資料的手動擷取工作。

在 Word 方面,看中的是它「文字轉表格」和「表格轉文字」的功能;至於 Excel,則是要利用它「填滿」、「排序」的功能。

在進行雙語資料的手動擷取時,小帥 J 針對了 +Tools 原先的操作步驟加以改良。以下將以原文為英文、譯文為中文的雙語資料擷取為例說明。其中灰色文字為舊有的操作步驟,粉紅色文字為新增改良的步驟。

1) 將原文檔和譯文檔的內容分為數個 segments 並加以抽離(extract),再分別匯出成兩個 .doc 的檔案。

2) 將 1) 的兩個 .doc 檔之所有 segments 全部加上項目編號。同時,兩個 .doc 檔的字型大小皆調整為 5pt,以利後續手動對照調整。

3) 同時開啟兩個 .doc 檔,以放大檢視比例(因為字型大小已調整為 5pt)和並列的方式,讓 user 調整 segment 大小與原文和譯文的對應關係。

4) 但因為 +Tools 劃分 segments 的方法非常無章法可言,所以在原文(英文)部分小帥 J 利用 Word 的取代功能,將所有英文句號(.)取代為英文句號加換行符號(.^p),意即「遇句號即強迫換行(新增段落與編號)」,至於在譯文(中文)部分,小帥 J 同樣將所有中文句號(。)取代為(。^p)。而其它可能是劃分 segments 的標點符號,例如英中經常對應使用的冒號、驚嘆號和問號,皆可依照此法類推。利用此法,雖不足以一次為所有 segments 進行 alignment 的工作,但卻已經能省下許多移動滑鼠和敲擊鍵盤的工夫。

5) 由於 segments 都已經加上項目編號,因此在對應關係的確定上十分容易。完成 alignment 的作業後記得存檔。

6) 將兩個 .doc 檔的編號都去除,並把全部的文字改為表格。

7) 開啟一個新的 Excel 檔,將步驟 6) 的兩個表格分別複製 / 貼上到此 Excel 檔的兩欄中。原文貼至 E 欄,譯文貼至 G 欄,A、B、C、D、F 欄將留作其它用途。透過 Excel 視窗畫面同步移動的效果,更可以清楚檢視原文和譯文的 segments 是否兩兩相應。

8) 先點擊 Excel 檔中 E1 儲存格,在點擊工具列上「排序」的按鈕,讓所有 segments 依照順序排列,如此可清楚看出哪些 segments 是重複出現的。將原文 segments 重複出現且譯文亦完全相同的列整個刪除,如此可精簡未來 TM 庫的體積,提升軟體搜尋資料的速度。

到這個階段為止,基本上已經完成了手動擷取雙語資料的部分。目前所得到的 Excel 檔,只需填入適當的參數,再加上幾個簡單的轉換動作,理論上就可以成為符合 TMX 格式的 TM 庫。

 

從 +Tools 的應用談手動擷取雙語資料(三)

為了將手動擷取的雙語資料轉換為可供 Wordfast 使用的 TM 庫格式,必須繼續進行以下的步驟:

9) 回到兩個 .doc 檔的畫面,利用 Undo 的功能將表格回復到之前帶有編號的樣子,並執行 +Tools 中 Create TM 的功能。執行完畢後,視窗會出現剛剛建立的 TM 庫的資料,將其中除了原文和譯文 segments 的其它五項參數依序複製 / 貼上至 Excel 檔中的 A1、B1、C1、D1 和 F1 中,接著再利用拖曳控點的方式來執行填滿空格的動作。

10) 將 Excel 檔中所有資料(表格的形式)複製 / 貼上到另一個新開啟的 Word 檔中。在 Word 檔中將表格轉成文字,並將這些文字複製 / 貼上到步驟 9) 中 +Tools 所建立的 TM 庫的文件中,取代原先雙語資料的部分。

11) 以這些經過手動調整的雙語擷取資料來建立 TM 庫。藉此建立的 TM 庫,即可立即上線供 Wordfast 使用。

以上的步驟看似複雜,其實只是 Word 和 Excel 的活用,而且都是利用它們最基本的功能。

目前+Tools 的 alignment 功能陽春,尚無法有效擷取雙語資料,但要找到其它免費、有效率,又真能派上用場的 alignment 工具,說實在也並非易事。至於那些大型 CAT / TM 軟體所附的 alignment 功能,到底在雙語資料擷取上能有效益,小帥 J 在親身試用前也不敢妄下定論。

總而言之,小帥 J 覺得此次的試用經驗非常寶貴,對於 TM 庫和 TMX 格式有更進一步瞭解。總而言之,小帥 J 獲得的結論有二:一、手動擷取雙語資料的工作耗時費力,因此CAT / TM 軟體在筆譯工作中的應用應該越早越好;二、對於目前尚未使用 CAT / TM 軟體來輔助筆譯工作進行的人,在整理詞彙與雙語對照資料時可以善用 Excel,以利未來字庫與 TM 庫的建立。

 

 

回目錄 ∣ 上一篇 ∣ 下一篇

本文最後編輯時間:2001 年 8 月 8 日

 

翻譯小密技

友站連結
 

 

   

This is a Chinese Big-5 only website.
請使用IE 5.0以上的瀏覽器,並將螢幕解析度調整為800 x 600,以獲得最佳瀏覽效果。
本網站歡迎隨手連結,如需連結特定文章,請先來信告知。
Copyright© 1999-2001 by Jeffrey Hong. All rights reserved.