上座部佛教百科:繁简处理

来自上座部佛教百科
Anicca讨论 | 贡献2018年5月17日 (四) 17:08的版本
(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)
跳转至:导航搜索

上座部佛教百科的繁简处理(英文:Automatic conversion between simplified and traditional Chinese,Automatic conversion、AC)是上座部佛教百科的一项自动转换,目的是以电脑程序适应不同用字模式的差异。

上座部佛教百科的读者和编者来自世界各地。他们所需求或贡献的中文在性质上有许许多多的差异,象是简化字和繁体字的差异、各地区词汇的差异、方言差异造成的书面语言的差异等等。MediaWiki将这些中文性质集合在一起,称为“用字模式”。可以说:一种用字模式就是某些中文性质的一个集合。

为了整合读者和编者多元的资源,也为了促进各方的交流,本百科并不规范读者或编者要使用何种用字模式,而是尝试以计算机程序的自动转换来适应这些差异,让编者可以以自己的用字习惯提供资料,也让读者可以选择所要的资料的用字遣词。

现行的自动转换

用字模式自动转换与网站程序系统本身的原理有关。大部分编者输入系统的文章内容,包括文字和维基语法等等,在此称为源码。网站系统通常会保留完整不变的源码,不作自动转换。读者使用维基系统时,并非直接阅读源码,而是由系统将源码实时自动转换成合适的形式,例如加上图片、超连结等等。而上座部佛教百科的用字模式转换就是众多自动转换程序中的一道。

自动转换计算机程序的能力范围不只是百科的条目文章,也包括页面分类等等页面。

大多数时候(预设情况),网站程序是根据转换表进行转换。有的时候,则是根据编者在源码中指定的方式作自动转换,包括不转换或是所谓“手动转换”

转换表就是一份列出各种不同用字模式之间,字与字或是词与词之间的对应关系的表格。目前只有管理员能编辑转换表。

所谓“手动转换”仍然是网站系统在读者使用时实时作的自动转换,但是这时程序是根据编者在源码中指定的方式为优先。

编者可以在编辑存档后切换至其他用字模式查看情况。

用字模式选择

目前上座部佛教百科系统支持中文的zh-hans(简体用字),zh-hant(正体/繁体用字)两种用字模式

文章主体简体/正(繁)体选择(按优先级):

  • 所有人都可以把 URL(http://wiki.sutta.org/wiki/条目名称 )中的 wiki改成zh-xx。对于http://wiki.sutta.org/index.php 开头的页面,可以在URL最后加上 &variant=zh-xx。其中xx可为hans、hant
  • 已登入的用户可以在个人参数里选择所谓“中文字体”;
  • 对匿名用户,系统根据用户浏览器要求的语言设置;
  • 如果以上设置都没有,则缺省为zh-hans。

巴利语专有名词汉语音译转换表

目前,系统预设的自动转换是根据数个“转换表”。转换表就是一份表格,记载各种不同用字模式之间,字与字或是词与词之间的对应关系。又叫系统默认转换表。目前只有管理员能编辑定制转换表。

源码一般不做转换

大部分编者输入系统的文章内容,包括文字和维基语法等等,在此称为源码。网站系统通常会保留完整不变的源码,不会对源码作自动转换。

断词问题——自动转换程序常见的问题

注意:上座部佛教百科不保证用字模式自动转换程序和内容的正确性。用字模式自动转换并不一定正确,甚至可以说是各种自动转换中问题特别多的。

转换程序使用最简单的“最大匹配法”进行转换。这会导致如下的错误:假设转换表中有一对应关系为

内存 => 存储器

现对以下句子作转换

人体内存在很多微生物

基于最大匹配,系统会对“内存”进行转换,得到“存储器”。整个句子将会被错误地转换成

人体存储器在很多微生物

解决这个问题的根本方法是采用智能的分词匹配,将上述句子先拆分为

人体 内 存在 很多 微生物

然后再对每个词单独转换。

在具有这种智能的断词系统没有实现之前,要修正上述错误,可以有两种方法:

  1. 手工将涉及断词错误的词分开:人体内-{}-存在很多微生物
  2. 将涉及断词错误的多个词作为一个整体加到定制转换表里,如“体内存在 => 体内存在”。(注:目前只有管理员能编辑转换表,一般人可以向管理员提出申请。)

这就是断词的错误。阅读本百科时请多加注意。遇到可疑的部分可以前往编辑页面去查源码,或是多多留意不同用字模式之间的转换关系,以养成自行“反转换”的能力。

控制自动转换的代码

出于特殊的需要,可以用以下的语法设定不自动转换,或是“手工转换”

设定了所谓“手工转换”,其实维基系统仍然会在阅读者使用时根据系统默认转换表作自动转换,但是这时系统还会根据编者在源码中指定(增添)的方式作转换,并且将编者的方式优先排在转换表所列出的方式之前。也就是由编者自行增添转换方式。

常用的转换工具语法

  • 禁止自动转换一段文字的标签
    -{文字}-
    对于-{}-中的文字为转换规则(比如:“zh:中文”),但又希望保持原样,可以用:
    -{R|文字}-
  • 禁止自动转换一段文字整体的标签
    文-{}-字
    但分隔在-{}-两侧的文字仍作字词转换
    示范:旧-{}-金山,香港称-{旧金山}-。
  • 手工转换一段文字的标签(局部性自行增添转换方式标签):
    -{zh:文字1; zh-hans:文字2; zh-hant:文字3; zh-cn:文字4; zh-tw:文字5; zh-hk:文字6; zh-sg:文字7}-
  • 全文手工转换标签(全面性自行增添转换方式标签):
    -{A|zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;}-
  • 条目标题手工转换标签
    -{T|文字}-
    -{T|zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;}-
  • 隐藏式全文手工转换标签(全面性自行增添转换方式标签):
    -{H|zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;}-
  • 全文手工删除转换标签(从全局转换表中删除某个规则,在该页面中不再以该规则转换):
    -{-|zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;}-
  • 转换规则描述标签(将该规则用人易读的方式显示出来):
    -{D|zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;}-
  • 用字模式名称标签(将某种语言的代码转换成文字描述):
    -{N|zh-hk}-
  • 转换到指定语言(有沿溯(fallback)的限制,MediaWiki 1.15新增功能):
    -{zh-hans;zh-hant|文字}-
    此功能可用于需要避免地区词转换,但允许繁简转换的场合。
  • 全文禁止自动转换
    __NOCC____NOCONTENTCONVERT__
  • 条目标题禁止自动转换
    __NOTC__ 或__NOTITLECONVERT__

条目标题

有时文章的标题不需要转换,如词典里的单字,或如缅甸帕奥禅林之类的专有名词。在这种情况下,可以在文章中加一 __NOTC____NOTITLECONVERT__(注意前后都是两道下划线)来禁止对该文章标题的转换。然而,在上座部佛教百科,由于可能的简繁不同体问题(如“缅甸帕奥禅林”和“缅甸帕奥禅林”),我们不推荐使用这两个标签,而推荐使用下文中的“-{T|}-”转换。

注意:这个标记要放在文章最开始的地方。

此外,MediaWiki软件支持单个用户设置禁止自己浏览时的标题转换,也支持全站禁止标题转换。单个用户要在自己浏览时禁止标题转换,可在Special:参数设置的“用户资料”一栏中勾上“不转换链接标题”选框;某个wiki站点要禁止所有的标题转换(但启用正文转换),可在LocalSettings.php中设置$wgDisableTitleConversion = True;

有时一篇文章的标题里,可能含有各地区认知不同或翻译方式差异很大的词汇,但因为某些理由不适合透过修改转换表来达成自动转换的目的,通常是因为一些常用字。如果贸然修改转换表,可能会造成更多地方产生错误。这种情况下可以有两种方法处理,我们推荐后一种:

  1. 在文章内使用标题转换来指明标题的正确显示:-{T|标题}--{T|zh:中文用字; zh-hans:中国大陆用字; zh-sg:新加坡用字}-
  2. 在文章内使用全文手工转换:-{A|标题}--{A|zh:中文用字; zh-hans:中国大陆用字; zh-sg:新加坡用字}-

实例:美国政治家“John Kerry”分别有“约翰·克里”、“约翰·凯利”与“约翰·克里”的不同译名,但如果在转换表中进行“克里<=>凯利”的互换,那么欧洲地名“克里米亚”与“克里姆林宫”将会变成“凯利米亚”与“凯利姆林宫”的错误情况,为了避免制造更多的混乱,这情况比较适合在“约翰·凯利”的条目中以手工转换标签修正标题与内文部份的相关译名。

注意:该标记仅仅是指明文章显示时对标题的转换,而不能自动处理链接时的转换。所以使用该标记时切记要通过重定向将各种用字模式的同一标题指向该文章。如“约翰·凯利”。

全文禁止自动转换

有时通篇文章都需要不转换,例如讨论繁体/简体的文章。在这种情况下,可以在文章中加一 __NOCC____NOCONTENTCONVERT__(注意前后都是两道下划线)来禁止对该文章内容的转换。不过,在中文维基百科,为了便于各地读者阅读,我们不建议禁止除字词转换相关页面以外页面的全文自动转换。

注意:这个标记要放在文章最开始的地方。

自动转换的能力范围

本百科很多页面都可进行自动转换。但是仍有很多例外。例如最近更新页面Special:Recentchanges这样的特殊页面,就有一部分是不转换的。

页面分类

目前自动转换计算机程序的能力范围不只是百科的条目文章,也包括页面分类等等页面。因此除非特别指定,否则条目标题或是子分类标题的分类是根据经过自动转换之后的结果来分类。然而在此的自动转换也和别处不同,仅仅是简单的“繁简转换”,并没有进一步转换。

实例:美国政治人物“John Kerry”分别有“约翰·克里”、“约翰·克里”与“约翰·凯利”的不同译名。译名的关系已加入转换表,而条目的源码中并没有特别指定不转换,所以阅读者使用维基系统时,并非直接阅读源码,而是由系统将源码自动转换成合适的形式。但是在页面分类中,的自动转换也和别处不同,仅仅是简单的“繁简转换”,并没有进一步转换。

在分类页Category:美国政治人物之中,如果读者选择中国大陆用字新加坡用字模式,将看到约翰·克里的条目归类在“约”字之下的约翰·克里:

而选择台湾用字香港用字的读者则会看到这条目归类在正体的“约”字之下,然而条目名称是约翰·凯利:

子分类也是一样。

内部连结、URL、重定向与搜寻

虽然源码一般不做转换。只有程序产生出来的页面有经过转换。然而读者收到的页面上,在维基系统之内的“内部连结”(不是外部连结或普通的URL),并不是由源码决定,是由程序产生出来的页面决定。也就是说:连结也会受到自动转换计算机程序影响。

本百科的条目名称搜索(“进入”)受到自动转换计算机程序影响。

本百科的条目全文搜索(“搜寻”)不会受到自动转换计算机程序影响。

本百科之外的搜寻引擎如Google可能有自己的自动转换计算机程序。目前已知搜索时会作简单的繁简转换。当需要建立繁简重定向页的时候,建立新条目的方式往往无法奏效。

如何建立繁简重定向页

登录的用户可以使用“移动页面”功能来建立繁简重定向页。比方说,假设现在有个名为“沈阳”的条目,而你想要建立从“瀋陽”到“沈阳”的重定向页,那么应该要进行两次移动:

  1. 将“沈阳”移动到“瀋陽”。
  2. 将“瀋陽”移动到“沈阳”。

其结果将是“沈阳”的条目维持原状,而“瀋陽”成为指向“沈阳”的重定向页。

第二次移动看似多余,但会带来两个好处:

  • 对该条目历来参与者的尊重 —— 未经讨论贸然改变一个条目的名称是不恰当的行为
  • 一旦条目名称改变,原本指向该条目的连结虽会以重定向的方式指向正确的条目,但长期来说所有重定向连结都应该用直接连结取代。修改所有这些连结会增加维基百科的维护成本(尤其是其他语言的维基百科也有可能透过跨语言连结连向这些页面),比起此种额外负担,将条目保持原有名称会是更有效率的作法。

另一种较简单的办法是,在参数设置中勾选上“不转换链接标题”,这样您就可以直接创建重定向页,而不必经过两次移动了。

编辑一般文章时的注意事项

  • 文章以及分类的标题必须是全部为简体或繁体字,如果标题繁简混杂,例如“中國历史”,或是(常见的)“台灣”,那么系统可能无法作出正确的转换(虽然这种情况下转换一般仍然都是正确的)。

参见条目