上座部佛教百科:繁簡處理

出自 上座部佛教百科
前往:導覽搜尋

上座部佛教百科的繁簡處理(英文:Automatic conversion between simplified and traditional Chinese,Automatic conversion、AC)是上座部佛教百科的一項自動轉換,目的是以電腦程序適應不同用字模式的差異。

上座部佛教百科的讀者和編者來自世界各地。他們所需求或貢獻的中文在性質上有許許多多的差異,象是簡化字和繁體字的差異、各地區詞彙的差異、方言差異造成的書面語言的差異等等。MediaWiki將這些中文性質集合在一起,稱為「用字模式」。可以說:一種用字模式就是某些中文性質的一個集合。

為了整合讀者和編者多元的資源,也為了促進各方的交流,本百科並不規範讀者或編者要使用何種用字模式,而是嘗試以計算機程序的自動轉換來適應這些差異,讓編者可以以自己的用字習慣提供資料,也讓讀者可以選擇所要的資料的用字遣詞。

現行的自動轉換

用字模式自動轉換與網站程序系統本身的原理有關。大部分編者輸入系統的文章內容,包括文字和維基語法等等,在此稱為源碼。網站系統通常會保留完整不變的源碼,不作自動轉換。讀者使用維基系統時,並非直接閱讀源碼,而是由系統將源碼實時自動轉換成合適的形式,例如加上圖片、超連結等等。而上座部佛教百科的用字模式轉換就是眾多自動轉換程序中的一道。

自動轉換計算機程序的能力範圍不只是百科的條目文章,也包括頁面分類等等頁面。

大多數時候(預設情況),網站程序是根據轉換表進行轉換。有的時候,則是根據編者在源碼中指定的方式作自動轉換,包括不轉換或是所謂「手動轉換」

轉換表就是一份列出各種不同用字模式之間,字與字或是詞與詞之間的對應關係的表格。目前只有管理員能編輯轉換表。

所謂「手動轉換」仍然是網站系統在讀者使用時實時作的自動轉換,但是這時程序是根據編者在源碼中指定的方式為優先。

編者可以在編輯存檔後切換至其他用字模式查看情況。

用字模式選擇

目前上座部佛教百科系統支持中文的zh-hans(簡體用字),zh-hant(正體/繁體用字)兩種用字模式

文章主體簡體/正(繁)體選擇(按優先級):

  • 所有人都可以把 URL(http://wiki.sutta.org/wiki/条目名称 )中的 wiki改成zh-xx。對於http://wiki.sutta.org/index.php 開頭的頁面,可以在URL最後加上 &variant=zh-xx。其中xx可為hans、hant
  • 已登入的用戶可以在個人參數裡選擇所謂「中文字體」;
  • 對匿名用戶,系統根據用戶瀏覽器要求的語言設置;
  • 如果以上設置都沒有,則缺省為zh-hans。

巴利語專有名詞漢語音譯轉換表

目前,系統預設的自動轉換是根據數個「轉換表」。轉換表就是一份表格,記載各種不同用字模式之間,字與字或是詞與詞之間的對應關係。又叫系統默認轉換表。目前只有管理員能編輯定製轉換表。

源碼一般不做轉換

大部分編者輸入系統的文章內容,包括文字和維基語法等等,在此稱為源碼。網站系統通常會保留完整不變的源碼,不會對源碼作自動轉換。

斷詞問題——自動轉換程序常見的問題

注意:上座部佛教百科不保證用字模式自動轉換程序和內容的正確性。用字模式自動轉換並不一定正確,甚至可以說是各種自動轉換中問題特別多的。

轉換程序使用最簡單的「最大匹配法」進行轉換。這會導致如下的錯誤:假設轉換表中有一對應關係為

内存 => 存储器

現對以下句子作轉換

人体内存在很多微生物

基於最大匹配,系統會對「内存」進行轉換,得到「存储器」。整個句子將會被錯誤地轉換成

人体存储器在很多微生物

解決這個問題的根本方法是採用智能的断词匹配,將上述句子先拆分為

人体 内 存在 很多 微生物

然後再對每個詞單獨轉換。

在具有這種智能的斷詞系統沒有實現之前,要修正上述錯誤,可以有兩種方法:

  1. 手工將涉及斷詞錯誤的詞分開:人體內-{}-存在很多微生物
  2. 將涉及斷詞錯誤的多個詞作為一個整體加到定製轉換表里,如「体内存在 => 体内存在」。(註:目前只有管理員能編輯轉換表,一般人可以向管理員提出申請。)

這就是斷詞的錯誤。閱讀本百科時請多加注意。遇到可疑的部分可以前往編輯頁面去查源碼,或是多多留意不同用字模式之間的轉換關係,以養成自行「反轉換」的能力。

控制自動轉換的代碼

出於特殊的需要,可以用以下的語法設定不自動轉換,或是「手工轉換」

設定了所謂「手工轉換」,其實維基系統仍然會在閱讀者使用時根據系統默認轉換表作自動轉換,但是這時系統還會根據編者在源碼中指定(增添)的方式作轉換,並且將編者的方式優先排在轉換表所列出的方式之前。也就是由編者自行增添轉換方式。

常用的轉換工具語法

  • 禁止自動轉換一段文字的標籤
    -{文字}-
    對於-{}-中的文字為轉換規則(比如:「zh:中文」),但又希望保持原樣,可以用:
    -{R|文字}-
  • 禁止自動轉換一段文字整體的標籤
    文-{}-字
    但分隔在-{}-兩側的文字仍作字詞轉換
    示範:旧-{}-金山,香港称-{旧金山}-。
  • 手工轉換一段文字的標籤(局部性自行增添轉換方式標籤):
    -{zh:文字1; zh-hans:文字2; zh-hant:文字3; zh-cn:文字4; zh-tw:文字5; zh-hk:文字6; zh-sg:文字7}-
  • 全文手工轉換標籤(全面性自行增添轉換方式標籤):
    -{A|zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;}-
  • 條目標題手工轉換標籤
    -{T|文字}-
    -{T|zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;}-
  • 隱藏式全文手工轉換標籤(全面性自行增添轉換方式標籤):
    -{H|zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;}-
  • 全文手工刪除轉換標籤(從全局轉換表中刪除某個規則,在該頁面中不再以該規則轉換):
    -{-|zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;}-
  • 轉換規則描述標籤(將該規則用人易讀的方式顯示出來):
    -{D|zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;}-
  • 用字模式名稱標籤(將某種語言的代碼轉換成文字描述):
    -{N|zh-hk}-
  • 轉換到指定語言(有沿泝(fallback)的限制,MediaWiki 1.15新增功能):
    -{zh-hans;zh-hant|文字}-
    此功能可用於需要避免地區詞轉換,但允許繁簡轉換的場合。
  • 全文禁止自動轉換
    __NOCC____NOCONTENTCONVERT__
  • 條目標題禁止自動轉換
    __NOTC__ 或__NOTITLECONVERT__

條目標題

有時文章的標題不需要轉換,如詞典里的單字,或如缅甸帕奥禅林之類的專有名詞。在這種情況下,可以在文章中加一 __NOTC____NOTITLECONVERT__(注意前後都是兩道下劃線)來禁止對該文章標題的轉換。然而,在上座部佛教百科,由於可能的簡繁不同體問題(如「缅甸帕奥禅林」和「缅甸帕奥禅林」),我們不推薦使用這兩個標籤,而推薦使用下文中的「-{T|}-」轉換。

注意:這個標記要放在文章最開始的地方。

此外,MediaWiki軟件支持單個用戶設置禁止自己瀏覽時的標題轉換,也支持全站禁止標題轉換。單個用戶要在自己瀏覽時禁止標題轉換,可在Special:參數設置的「用戶資料」一欄中勾上「不轉換鏈接標題」選框;某個wiki站點要禁止所有的標題轉換(但啟用正文轉換),可在LocalSettings.php中設置$wgDisableTitleConversion = True;

有時一篇文章的標題里,可能含有各地區認知不同或翻譯方式差異很大的詞彙,但因為某些理由不適合透過修改轉換表來達成自動轉換的目的,通常是因為一些常用字。如果貿然修改轉換表,可能會造成更多地方產生錯誤。這種情況下可以有兩種方法處理,我們推薦後一種:

  1. 在文章內使用標題轉換來指明標題的正確顯示:-{T|标题}--{T|zh:中文用字; zh-hans:中国大陆用字; zh-sg:新加坡用字}-
  2. 在文章內使用全文手工轉換:-{A|标题}--{A|zh:中文用字; zh-hans:中国大陆用字; zh-sg:新加坡用字}-

實例:美國政治家「John Kerry」分別有「约翰·克里」、「约翰·凯利」與「约翰·克里」的不同譯名,但如果在轉換表中進行「克里<=>凯利」的互換,那麼歐洲地名「克里米亞」與「克里姆林宮」將會變成「凯利米亞」與「凯利姆林宮」的錯誤情況,為了避免製造更多的混亂,這情況比較適合在「約翰·凱利」的條目中以手工轉換標籤修正標題與內文部份的相關譯名。

注意:該標記僅僅是指明文章顯示時對標題的轉換,而不能自動處理鏈接時的轉換。所以使用該標記時切記要通過重定向將各種用字模式的同一標題指向該文章。如「約翰·凱利」。

全文禁止自動轉換

有時通篇文章都需要不轉換,例如討論繁體/簡體的文章。在這種情況下,可以在文章中加一 __NOCC____NOCONTENTCONVERT__(注意前後都是兩道下劃線)來禁止對該文章內容的轉換。不過,在中文維基百科,為了便於各地讀者閱讀,我們不建議禁止除字詞轉換相關頁面以外頁面的全文自動轉換。

注意:這個標記要放在文章最開始的地方。

自動轉換的能力範圍

本百科很多頁面都可進行自動轉換。但是仍有很多例外。例如最近更新頁面Special:Recentchanges這樣的特殊頁面,就有一部分是不轉換的。

頁面分類

目前自動轉換計算機程序的能力範圍不只是百科的條目文章,也包括頁面分類等等頁面。因此除非特別指定,否則條目標題或是子分類標題的分類是根據經過自動轉換之後的結果來分類。然而在此的自動轉換也和別處不同,僅僅是簡單的「繁簡轉換」,並沒有進一步轉換。

實例:美國政治人物「John Kerry」分別有「约翰·克里」、「约翰·克里」與「约翰·凯利」的不同譯名。譯名的關係已加入轉換表,而條目的源碼中並沒有特別指定不轉換,所以閱讀者使用維基系統時,並非直接閱讀源碼,而是由系統將源碼自動轉換成合適的形式。但是在頁面分類中,的自動轉換也和別處不同,僅僅是簡單的「繁簡轉換」,並沒有進一步轉換。

在分類頁Category:美國政治人物之中,如果讀者選擇中國大陸用字新加坡用字模式,將看到约翰·克里的條目歸類在「约」字之下的约翰·克里:

而選擇台灣用字香港用字的讀者則會看到這條目歸類在正體的「约」字之下,然而條目名稱是约翰·凯利:

子分類也是一樣。

內部連結、URL、重定向與搜尋

雖然源碼一般不做轉換。只有程序產生出來的頁面有經過轉換。然而讀者收到的頁面上,在維基系統之內的「內部連結」(不是外部連結或普通的URL),並不是由源碼決定,是由程序產生出來的頁面決定。也就是說:連結也會受到自動轉換計算機程序影響。

本百科的條目名稱搜索(「進入」)受到自動轉換計算機程序影響。

本百科的條目全文搜索(「搜尋」)不會受到自動轉換計算機程序影響。

本百科之外的搜尋引擎如Google可能有自己的自動轉換計算機程序。目前已知搜索時會作簡單的繁簡轉換。當需要建立繁簡重定向頁的時候,建立新條目的方式往往無法奏效。

如何建立繁簡重定向頁

登入的用戶可以使用「移動頁面」功能來建立繁簡重定向頁。比方說,假設現在有個名為「沈阳」的條目,而你想要建立從「瀋陽」到「沈阳」的重定向頁,那麼應該要進行兩次移動:

  1. 將「沈阳」移動到「瀋陽」。
  2. 將「瀋陽」移動到「沈阳」。

其結果將是「沈阳」的條目維持原狀,而「瀋陽」成為指向「沈阳」的重定向頁。

第二次移動看似多餘,但會帶來兩個好處:

  • 對該條目歷來參與者的尊重 —— 未經討論貿然改變一個條目的名稱是不恰當的行為
  • 一旦條目名稱改變,原本指向該條目的連結雖會以重定向的方式指向正確的條目,但長期來說所有重定向連結都應該用直接連結取代。修改所有這些連結會增加維基百科的維護成本(尤其是其他語言的維基百科也有可能透過跨語言連結連向這些頁面),比起此種額外負擔,將條目保持原有名稱會是更有效率的作法。

另一種較簡單的辦法是,在參數設置中勾選上「不轉換鏈接標題」,這樣您就可以直接創建重定向頁,而不必經過兩次移動了。

編輯一般文章時的注意事項

  • 文章以及分類的標題必須是全部為簡體或繁體字,如果標題繁簡混雜,例如「中國历史」,或是(常見的)「台灣」,那麼系統可能無法作出正確的轉換(雖然這種情況下轉換一般仍然都是正確的)。

參見條目