中华人民共和国国家标准
术语与辞书条目的记录交换用磁带格式
Magnetic tape exchange format for terminological/lexicographical records
(MATER)
GB/T 13726—92
本标准参照采用国际标准ISO 6156—1987《术语与辞书条目的记录交换用磁带格式》。
1 主题内容与适用范围
本标准设计了一种信息交换用的框架,规定了术语与辞书条目数据项的内涵、组分以及标识方法,为单语种或多语种术语与辞书条目数据的交换提供了一种通用的格式。
本标准适用于信息系统之间进行计算机可读数据载体的信息交换。
2 引用标准
GB1988 信息处理 信息交换用七位编码字符集
GB1989 信息处理交换用七位编码字符集在9磁道12.7毫米磁带上的表示方法
GB 2311 信息处理 七位和八位编码字符集代码扩充技术
GB 2312 信息交换用汉字编码字符集 基本集
GB 2659 世界各国和地区名称代码
GB 2901 书目信息交换用磁带格式
GB 4880 语种名称代码
GB 6550 信息处理交换用9磁道12.7毫米宽63行/毫米调相制记录磁带
GB 7574 信息处理交换用磁带标号和文件结构
GB 7589 信息交换用汉字编码字符集 第二辅助集
GB 7590 信息交换用汉字编码字符集 第四辅助集
GB 8565.1~8565.3 信息处理 文本通信用编码字符集
GB 10112 确立术语的一般原则与方法
GB 11383 信息处理 信息交换用八位代码结构和编码规则
GB/T 13715 信息处理用现代汉语分词规范
《汉语拼音正词法基本规则》 国家语言文字工作委员会1988年发布
3 概述
本标准的目的在于促进术语与辞书条目数据库间的信息交换,使数据库拥有者能以标准格式向他人提供全部或部分数据,同时又能以标准格式从其他数据库获得自己所需的数据。本格式的作用还在于每个数据库拥有者进行数据交换时,只需编制两个转换程序:其一是将自己的内部格式转换成标准格式;其二是将标准格式转换成内部格式。本标准只规定格式的物理和逻辑结构,而对每个记录的长度和内容不作定义。
在本标准中,术语与辞书条目数据应理解为:
a. 术语库所包括的内容;
b. 词表和重要语汇索引,包括术语词表、辞书式汇编和文本的索引;
c. 词典和百科全书的条目;
d. 文献处理语言,包括分类体系、叙词表、关键词索引。
虽然本标准是为磁带设计的,它的结构也可以用于其他数据载体(如软盆)。
本标准对系统内部组织与管理数据的方法不作规定。
4 定义
4.1 术语与辞书条目记录:数据字段的集合,包括记录头标、参考数据区、目次区和一个交换单位的术语数据与辞书条目数据。
4.2 目次区:记录中所有数据字段位置的索引,包括每个数据字段的字段标识符、长度、位置和说明符。
4.3 数据字段:记录中包含特定数据项的可变长部分,位于目次区之后并与其中一个目次项相联系。
4.4 目次区说明:说明目次区中目次项结构的一组参数。
4.5 数据项:构成术语与辞书条目记录并具有特定含义的数据字段。
4.6 数据项类别:描述术语与辞书条目的一组数据项。
4.7 字段标识符:用于标识一个数据字段的三个字符。
4.8 说明符:为相应数据字段内容提供附加信息的三个字符。
4.9 术语与辞书条目交换单位:描述某一术语(和它的各种含义)或某一概念(和与其相关的所有同义词)的数据字段的集合。
5 字符集
应使用GB 1988中的字符和按照GB 2311规定的方法所调用的其他标准字符集(如GB 2312,GB 7589,GB 7590)中的字符,以及其他在ISO注册的字符集中的字符。
本标准规定GB 1988为基本字符集。所有记录头标和目次区中的字符、代码型数据所用字符以及各种分隔符都取自GB 1988。若使用非GB 1988的某一字符集时,必须首先指明,然后才可调用它作为工作字符集。指明和调用的方法遵照GB 2311的规定,具体执行方法可参照GB 2901附录A第A2.6条。
注:不同设备所使用的字符集的差别对于数据交换可能产生严重的障碍。并且字符集的不同版本(国家版本或应用者版本)之间进行自动转换是相当复杂的,如果没有对其内容的说明往往很难做到。因此,数据交换的双方应该就所用的字符集和字符代码达成协议,并在信息交换说明书(见附录c)中详尽地描述。
6 交换文件的结构
本标准规定了术语与辞书条目数据交换的文件格式(见第7章)。
如果需要交换其他类型的文件,其中书目数据应根据GB 2901规定的格式单独存入一个文件予以交换,其他数据应以辅助文件的形式进行交换(见6.2.4)。
用户处理交换文件所需要的但又不能以机读方式提交的信息必须填入信息交换说明书。
6.1 文件和带标
磁带上的所有文件应按照GB 7574规定的标号来标识。所有的记录都是可变长的,在GB 7574允许的标记级别中,级别3用于变长记录。
6.2 交换文件
构成交换文件的交换单位和记录的层次结构如图1所示。
图1
6.2.1 交换单位
交换文件由一个可选择使用的信息记录和若干交换单位组成,每个交换单位包括一个或几个变长记录,每个记录的长度由记录头标的前5位十进制数表示(见7.1.1)。
注:这里描述的记录长度是一个逻辑记录的长度。根据数据的机器处理的具体情况,当一个记录的信息记录在磁性载体上时,可能需划分成几个物理块。GB 7574中规定了在磁带上实现跨块的标准技术。
6.2.2 信息记录
信息记录使接收文件的机构能立即对交换文件进行自动分析。除了一般性信息(如生产者姓名和建立日期),信息记录还应包括所用的分隔字符、字符集名称(即由转义序列引入的字符集在ISO的国际注册号)和字符集参考表。信息记录的使用是任选的,如果使用信息记录,它应该是文件的首记录。为了唯一地标识该信息记录,记录头标内字符位置5(记录头标的第2项,即记录状态位)的所有8位应全置为“1”。
6.2.3 书目数据文件
应使用一个单独的文件交换有关的书目数据,该文件中数据的记录结构应与GB 2901规定的格式一致。
6.2.4 辅助文件
该文件包括有关交换数据的辅助信息,例如数字化图示、用于数据处理的文字资料、数据处理程序等。
该文件的记录结构不固定,交换机构之间必须对此达成一致意见,或者在信息交换说明书的附件中予以说明。
7 交换单位的结构
本章只定义构成交换单位的逻辑记录结构,不规定任何专门的记录录入系统。本格式部分地参照GB 2901,并且适合于术语与辞书条目。
一个交换单位包含一个术语或辞书条目记录的数据(例如词典的词条),通常是交换文件中的一个变长记录。某些情况下,交换单位可以由几个记录组成,属于同一交换单位的记录应该具有相同的标识号,它们之间由在记录计数中的顺序编号相互区别。
记录标识:参考数据区字符位置0~7(见7.1.2);
记录计数:参考数据区字符位置8和9(见7.1.2)。
7.1 记录结构
图2表示了记录的一般格式。
|
记录头标 |
|
|
参考数据区 |
|
|
目次区 |
|
|
数据区 |
|
|
记录分隔符 |
图2
一个记录包含下列内容,次序如图3所示。
记录头标:固定长;
参考数据区:固定长;
目次区:可变长;
数据字段;可变数和可变长;
字段分隔符:一个字符,应使用GB 1988中定义的字段分隔符(RS);
记录分隔符:一个字符,应使用GB 1988中定义的记录分隔符(GS)。
7.1.1 记录头标
记录头标是记录的第一部分,其内容是标识和处理该记录的关键信息(见表1)。
表1
|
编号 |
字符位置 |
长度 |
类型 |
含义 |
内容 |
|
1 |
0~4 |
5 |
N |
记录长度 |
记录中的字节数 |
|
2 |
5 |
1 |
C |
记录状态 |
N=新的 A=修正 D=删除 |
|
3 |
6~9 |
4 |
C |
执行码 |
0000(或指定的编码) |
|
4 |
10 |
1 |
N |
指示符长度 |
3 |
|
5 |
11 |
1 |
|
不用 |
0 |
|
6 |
12~16 |
5 |
N |
数据基地址 |
|
|
7 |
17~19 |
3 |
|
备用 |
000 |
|
8 |
20 |
1 |
N |
目次区中各目次项的“数据字段长度”所占的字符位数 |
4 |
|
9 |
21 |
1 |
N |
目次区中各日次项的“起始字符位”所占的字符位数 |
5 |
|
10 |
22 |
1 |
N |
说明符长度 |
3 |
|
11 |
23 |
1 |
|
备用 |
0 |
注:1)C:左取齐,字母数字型;N:右取齐,十进制数字字符,如果必要前方填0。
2)用以指明记录类型;术语的,辞书条目的,等等。
3)数据字段区第一个字段相对于记录的第一千字节的位置。
4)说明符共三位,第一和第二位表示数据的语种,第三位表示数据字段的重复性或所在的组(见7.1.4.1)。若不用,则说明符中总有一位置零。
图3
7.1.2 参考数据区
为了能更加方便地对一个完整的交换单位进行存取,设置了一个总长为96字切的参考数据区(见表2)其位置紧随记录头标之后。这部分与GB 2901有所不同。
表2
|
编号 |
字符位置 |
长度 |
类型 |
含义 |
内容 |
|
1 2 3 4 |
O~7 8~9 1O~17 18~23 |
8 2 8 6 |
N N C N |
交换单位的标识号 记录计数(交换单位内) 提供数据的机构为交换单位分配的内部标 识号 交换单位的生成日期 |
文件中交换单位的连续号,从十进制的00000001开始按升序 排列 见7.2 由源机构分配 源机构最终的修改日 期(YYMMDD) |
|
5 6 7 |
24~47 48~7l 72~95 |
24 24 24 |
C C |
学科领域代码 交换单位的语种 备用 |
在“信息交换说明书” 中注明本代码的含义 应使用GB 4880规定 的代码 |
注:1)C:左取齐字母数字;
N:右取齐十进制数字字符。
7.1.3 目次区
目次区反映各数据字段内数据的有关信息。目次区是记录的一部分,它只反映本记录中的数据,不反映同属一个交换单位的其他记录中数据的信息。每个记录都有自己的目次区。
目次区中的目次项长度均为15个字节。记录中目次项的个数因记录而异,但应与本记录的数
据字段个数相同并一一对应。
目次项的结构如图4所示:
|
字符位置 |
类型 |