中华人民共和国国家标准
GB/T XXXXX—XXXX
eqv ISO 12200:1999
术语工作 计算机应用 机器可读术语交换格式(MARTIF) 协商交换
Terminology work—Computer
applications—Machine-readable terminology
interchange format(MARTIF)—Negotiated interchange
1 范围
本标准规定了机器可读术语交换格式(MARTIF)协商交换部分的结构化术语信息、置标用标记和属性、字符编码与语种属性、MARTIF术语条目结构和文件类型定义(DTD),以及MARTIF文件的结构和交换过程。
本标准适用于机器可读术语数据的交换工作和研制相应的转入转出程序,以及研制按GB/T13726编码的数据的转换程序。
2 引用标准
下列标准所包含的条文,通过在本标准中引用而构成为本标准的条文。本标准出版时,所示版本均为有效。所有标准都会被修订,使用本标准的各方应探讨使用下列标准最新版本的可能性。
GB/T 1988-1998 信息处理 信息交换用七位编码字符集(eqv ISO/IEC 646:1991)
GB/T 2312-1980 信息交换用汉字编码字符集 基本集
GB/T 2659-1994 世界各国和地区名称代码(neq ISO 3166:1988)
GB/T 4880-1991 语种名称代码(eqv ISO 639:1988)
GB/T 7408-1994 数据元和交换格式 信息交换 日期和时间表示法(eqv ISO 8601:1988)
GB/T 13000.1-1993 信息技术 通用多八位编码字符集(UCS) 第一部分:体系结构与基本多 文种平面(eqv ISO 10646—1:1993)
GB/T 13143-1991 情报与文献工作词汇 传统文献(neq ISO 5127/2:1983)
GB/T 13726-1992 术语与辞书条目的记录交换用磁带格式(neq ISO 6156:1987)
GB/T 14814-1993 信息处理 文本和办公系统 标准通用置标语言(SGML)(eqv ISO 8879:1986)
GB/T 16786-1997 术语工作 计算机应用 数据类目(eqv ISO/DIS 12620:1996)
GB/T 17532-1998 术语工作 计算机应用 词汇 (eqv ISO/DIS 1087—2.2:1996)
ISO 5127/3a:1981 信息和文献词汇 第3a部分 文献和数据的获得、识别和分析
ISO 12083:1994 信息和文献 电子文稿的编制和置标
3 定义
本标准采用GB/T14814、GB/T17532和GB/T16786中的术语和下列定义:
3.1 属性 attribute
<MARTIF>通用标识符的特征量。(GB/T14814—1993中4.9)
3.2 通用标识符 generic identifier
类标识符
用以标识元素的元素类型的名称。(GB/T14814—1993中4.147)
注:称为“类标识符”更为确切,但为与GB/T14814保持一致,本标准中使用“通用标识符”。
4 结构化术语信息
机器可读术语交换格式(MARTIF)文件中使用的术语数据管理的基本单位是术语条目。换句话说,一份MARTIF文件应该由一些术语条目组成,一个术语条目应该包含关于某个概念或几个关系紧密的概念的信息,一个或多个语种的一个或多个术语的信息,以及在特定的语境中有益的描述性和管理性信息。
注: 术语数据可以做成术语数据库的形式,或用于打印硬拷贝文件、技术性或术语性词典和词汇、以及在某种程度上用于信息检索主题词表。但是,对于标准通用置标语言(SGML)的应用来讲,连术语数据库自身都可看作文件。用户需求、方法以及软件条件的不同,会引起术语数据库中数据结构和表示的不同变化。这些变化也反映了术语条目是单语、双语还是多语的,反映了它包含的是描述性信息还是规范性信息,也反映了创建和使用术语文卷(file)的工作环境。
考虑到数据库的设计不同,为了数据交换的目的,每个术语条目的结构应该映射到MARTIF规定的结构上。但是,应指出的是,由于源数据库的结构比目标数据库的结构复杂而产生的信息丢失,只能通过对目标数据库重新进行结构调整和置标来避免。
|
数据类目 |
数据类目的内容 |
|
学科领域 |
appearance of materials(材料外观) |
|
|
|
|
英语术语 |
opacity |
|
语法信息 词类 英语术语 |
noun |
|
英语定义 |
degree of obstruction to the transmission of visible light |
|
英语源文献标识符 |
ASTM Standard E284 |
|
英语责任者代码 |
ASTM Technical Committee E12 |
|
|
|
|
德语术语 |
opazität |
|
语法信息 词类 德语术语 |
noun |
|
语法信息 性 德语术语 |
feminine |
|
德语定义 |
Maß für die Lichtundurchlässigkeit |
|
德语源文献标识符 |
DIN 6730:1992-08 |
|
德语责任者代码 |
Normenausschuß Papier und Pappe(NPa) im DIN |
|
|
|
图1 术语条目中数据类目和对应数据类目内容实例
|
法语术语 |
opacité |
|
语法信息 词类 法语术语 |
noun |
|
语法信息 性 法语术语 |
feminine |
|
法语定义 |
Rapport du flux lumineux incident au flux lumineux transmis ou réfléchi par un noircissement photographique |
|
法语源文献标识符 |
Hjdi1986-539 |
|
法语责任者代码 |
C.I.R.A.D |
|
|
|
|
汉语术语 |
阻光度 |
|
语法信息 词类 汉语术语 |
名词 |
|
汉语定义 |
对可见光的阻塞程度,用入射的辐射功率与通过的辐射功率之比表示。 |
|
汉语源文献标识符 |
GB/T 1543-1988-2.1 |
|
汉语责任者代码 |
CSBTS |
|
|
|
图1 术语条目中数据类目和对应数据类目内容实例(完)
注:这个术语条目的例子反映了一种实际工作情况,将来自不同语种的不同源文献的某个单独概念的信息,组合在一个单独的术语条目中。例3给出了这个术语条目的MARTIF术语条目<termEntry>形式,附录E中例E.1将该<termEntry>并入到一个完整的MARTIF文件中。
5 MARTIF的术语条目
5.1 数据类目
5.1.1数据类目的规范
MARTIF是为在任意结构的术语数据库间交换术语数据而设计的。因此,术语条目中的每个数据类目应该进行合适的标识,数据类目间的关系应在该条目中编码,这样才能够对他们进行再分配,以对应于目标数据库中的安排。
MARTIF文件中数据类目的置标,即对其命名,应使用5.1.2中规定的通用标识符(GI或标记名称)和5.1.3中规定的属性来进行。另外,附录A规定了在MARTIF环境下应使用的数据类目的规范形式,以及与其一起使用的属性值(见5.1.4)。
一部分数据类目标识了与他们代表的术语和概念有关信息的子类目,另一部分提供与术语条目本身以及文卷(file)管理有关的管理性信息。附录A中的数据类目是GB/T16786中定义的,在以MARTIF格式交换时应使用这些类目对术语数据进行编码,并应按规定转换那些在局部应用中不符合GB/T16786的数据类目名称。如果在应用本地软件中需要的数据类目在GB/T16786中没有规定,那么系统设计者应按规定通知该标准的协调者(参见GB/T16786,附录E)。
5.1.2
MARTIF标记
表1列出了在术语应用中用于MARTIF环境的通用标识符。置标时,开界符(<)和闭界符(>)之间只能使用英语字符,不能使用其他字符(如汉字、日语等),例如图2的开始标记不允许这样置标:
<descrip type='定义'>或<描述性信息 type='定义'>。
MARTIF文件类型定义(DTD)是围绕通用标识符<term>、<descrip>和<admin>所代表的三种基本类目设计的。附录C列出了这三类及其他通用标识符(GI)以及与他们相关的(如附录A和附录B中示例所示)数据类目,同时列出了那些与具体属性相关的数据类目。
表1 MARTIF标记及其描述
|
MARTIF标记 |
描述 |
||
|
标 记 |
汉语名称 |
英语名称 |
|
|
<termEntry> |
术语条目 |
term entry |
在单语种术语工作中,包含某一概念的单一完整术语条目,包括一个或多个术语以及相关的描述性和管理性数据;在双语或多语种术语工作中,包括两个以上的关系紧密的概念(这些概念在每一种语言中包含一个或多个术语),以及相关的描述性和管理性数据。 属性包括: 类型(type),它按照GB/T16786中规定的数据类目对术语条目进行了划分。 |
|
<langSet> |
语言集 |
language set |
在一个<termEntry>中,用于对相关语种中<tig>和<ntig>的分组。其语种(lang)属性除非继承否则必须赋值。 |
|
<tig> |
术语信息组 |
terminological information group |
在一个<termEntry>中,包含与一个单独的术语有关的若干个信息元素,这些信息元素必须在同一水平发挥作用,即不允许嵌入<tig>的下位元素中。其语种(lang)属性除非是继承否则必须赋值。 |
|
<ntig> |
嵌套式术语信息组 |
nested terminological information group |
在一个<termEntry>元素中,当某些信息元素不是与整个术语信息组(tig)有关,而是与其内部某些元素有关时,使用<ntig>。下列元素可以嵌入<ntig>中:<termGrp>、<termNoteGrp>、<descripGrp>和<adminGrp>。其语种(lang)属性除非是继承否则必须赋值。 |
|
<term> |
术语 |
term |
包括单词术语和词组型术语,或者是看作技术术语的符号标识。 |
|
<termGrp> |
术语组 |
term group |
包括一个<term>元素以及至少一个附加到该术语上的嵌套元素。 |
|
<termNote> |
术语注释 |
term note |
包括与术语相关的信息。 属性包括: 类型(type),它按照附录A中A.2和A.3规定的数据类目对<termNote>进行了划分。 |
|
<termNoteGrp> |
术语注释组 |
term note group |
包括一个<termNote>元素以及至少一个附加到该相关术语信息上的嵌套元素。可用于在<termGrp>元素中容纳附加水平的嵌套。 |
表1 MARTIF标记及其描述(续)
|
<descrip> |
描述性信息 |
description |
包括诸如描述概念和术语的定义、语境、解释等描述性信息。 属性包括: 类型(type),它按照附录A中A.4-A.7规定的数据类目对<descrip>进行了划分。 |
|
<descripGrp> |
描述性信息组 |
description group |
包括一个<descrip>元素以及至少一个附加到该描述性信息上的嵌套元素。 |
|
<admin> |
管理性信息 |
administration |
包括管理性数据。 属性包括: 类型(type),它按照附录A中A.9-A.10规定的数据类目对<admin>进行了划分。 |
|
<adminGrp> |
管理性信息组 |
administration group |