中华人民共和国国家标准
建立术语数据库的一般原则与方法
1
范围
本标准规定了建立术语数据库(简称“术语库”)的一般原则与方法。
本标准适用于术语库的研究、开发、维护及有关管理工作。在其他涉及术语数据处理的工作中也可参照使用。
2
规范性引用文件
下列文件中的条款通过本标准的引用而成为本标准的条款。凡是注日期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本标准,然而,鼓励根据本标准达成协议的各方研究是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本标准。
GB/T l.6—1997 标准化工作导则 第一单元:标准的起草与表述规则 第6部分:术语标准编写规定(neq ISO 10241:1992)
GB 4943 信息技术设备(包括电气事务设备)的安全(idt IEC 950:1991)
GB/T l0112 术语工作 原则与方法
GB/T 15237.1—2000 术语工作 词汇 第1部分:理论与应用(eqv ISO 1087-1:2000)
GB/T 16786—1997 术语工作 计算机应用 数据类目(eqv ISO/DIS 12620:1996)
GB/T 17532—1998 术语工作 计算机应用 词汇(eqv ISO/DIS 1087-2-2:1996)
GB/T 18155 术语工作 计算机应用 机器可读术语交换格式(MARTIF) 协商交换(eqv ISO 12200:1999)
3
术语和定义
GB/T 15237.1—2000、GB/T 16786—1997、GB/T 17532—1998确立的术语和定义适用于本标准。为了便于使用,本标准重复了其中的部分术语和定义。
3.1
术语 term
在特定专业领域中一般概念的词语指称。
[GB/T 15237.1—2000,3.4.3]
3.2
术语数据库
terminological database
存储术语数据的数据库。
[改自GB/T 17532—1998,7.6]
3.3
数据元 data element
在一定的上下文中具有区别特征的数据单元。
[GB/T 17532—1998,7.11]
3.4
数据字段 data field
为特定的数据元而保存在一个记录中的变长或定长的部分。
[GB/T 17532—1998,7.12]
3.5
数据类目 data category
数据元类型 data element type
关于给定数据字段的类型说明。
[GB/T 17532—1998,7.14]
3.6
术语条目 terminological
entry
术语数据集合中所包含的关于一个概念的术语数据。
[GB/T 17532—1998,3.22]
4
术语库的建设
4.1 术语库可分成三级:
a)国家标准化术语库;
b)专业领域术语库;
c)基层术语库。
4.1.1 国家标准化术语库具有管理我国标准化术语的功能。
4.1.2专业领域术语库应明确专业分工,界定范围,搞好协调工作,避免重复、遗漏和浪费。
4.1.3 有关单位可根据工作需要建立基层术语库。
4.2 术语库的建设应遵循国家有关信息系统建设的规定,做好与其他术语库的协调,实现信息交换与资源共享。
5 术语库的类型和信息流程
5.1
术语库的类型
5.1.1 面向概念的术语库
突出概念体系的合理性与层次性,并包括概念的严格定义,且定义具有权威性的术语库。
5.1.2 面向翻译的术语库
根据需要包含两种或两种以上语言的术语对应词,含有较多的语言学信息(如词性、语境、用例等)的术语库。
5.1.3 面向特定目标的术语库
作为专家系统、知识库系统、机器翻译系统等的组成部分,为满足各种特定目标要求而建立的术语库。
5.1.4 其他特殊用途的术语库
根据实际需要进行设计的术语库,如通用词库等。
5.2
术语库系统信息流程
术语库系统信息流程如图1所示。
图1 术语库系统信息流程图

5.2.1
术语信息源
术语信息可以来自国家标准、行业标准及其他标准文献,也可以来自权威性的辞典、百科全书及其他工具书和文献;或者是由专家、学者及用户提供的对新概念的定义和指称,还可以通过与其他术语库联网、交换术语数据及记录载体等方式获得。
5.2.2
规范化处理
按照已定的标准格式或规则,对从各种途径获取的术语信息进行加工。
5.2.3
输入
原始术语信息经规范化处理后,通过输入设备,例如键盘、文字识别设备、语音识别设备等,输入到术语库系统。
5.2.4
术语库系统
术语库系统对输入信息(数据)进行处理后,存入存储器,可以方便地存取、检索、修改、删除、更新和补充数据。
5.2.5
输出
用户通过输出设备,例如屏幕显示器、打印机、软盘驱动器、光盘驱动器、语音设备、缩微胶片设备、照排设备等使用术语库中的信息。
5.2.6
用户
术语库的用户包括:标准的制修订者、翻译工作者、辞书编纂人员、编辑人员、教育工作者、语言学工作者、科技工作者、学生以及其他用户。
5.2.7
信息共享
通过联网、交换数据记录载体等方式实现与其他术语库系统信息资源共享。
6 术语库系统的基本要求
6.1
设计原则与质量要求
6.1.1
目的性
应对各方面的用户需求进行调查分析,并依据大多数用户对术语库功能、性能、数据等方面的要求,在充分考虑社会效益和经济效益的前提下开发术语库。术语库的开发应符合实际使用的需要。
6.1.2
科学性
应对术语库开发中涉及到的各种学科的理论与技术进行充分的研究,运用系统工程的方法在科学的基础上开发术语库。
6.1.3
易用性
系统应简单易学,使用方便。
6.1.4 经济性
应选择技术上先进,经济上合理的设计方案。
6.1.5
可靠性
硬件配置、软件的选择和开发保证术语库具有高可靠性。
6.1.6
易维护性
a)为使系统保持良好工作状态和防止事故于未然而进行的预防性维护;
b)为克服故障而进行的纠错性维护;
c)为使软件产品能够在改动的环境下继续使用而进行的适应性维护;
d)为改善性能而进行的完善性维护等。
6.1.7
安全性
a)应按GB 4943的要求进行系统的硬件设计和安装;
b)应制定保证术语库系统设备安全的分级管理守则;
c)应对各类用户在不同条件下对各种范围内的数据的存取权限作出规定;
d)应能防止数据交换过程中可能出现的计算机病毒侵入,并具备检查和清除病毒的有效措施;
e)应根据需要对特殊数据的保密提供保护机制和保密措施。
6.1.8
易扩缩性
应能根据需求的变化,易扩充或缩减系统功能。
6.2
对计算机系统的要求
6.2.1
基本要求
6.2.1.1 术语库计算机系统应有较强的文字处理能力,能支持汉字信息处理。根据需要能支持多种语言、文字、符号、公式、图形、图像、声音等多媒体信息等。
6.2.1.2 大型术语库系统应能通过互联网与国内其他大型术语库及世界上主要术语库实现信息资源共享。
6.2.2
对硬件的基本要求
a)根据系统设计要求优选适用的计算机;
b)能较容易地实现主机与外设的配套;
c)有足够的内存和外存空间;
d)数据处理速度、系统输入输出能力应满足业务类型和用户数量等的需要;
e)系统应兼容性好,维修方便;
f)系统具有安全性和高可靠性;
g)具有联网功能;
h)具有较强的可扩充能力,能方便地实现现场升级。
6.2.3
对软件的基本要求
a)应完整、配套,形成系统。包括系统软件、汉字支持软件、数据库管理软件、通信控制软件、网络管理系统、安全保密及其他应用软件;
b)应具有较好的灵活性和可移植性,对运行环境有较强的适应能力;
c)具有较强的可扩充能力,能够根据需要升级;
d)有较好的人机交互能力;
e)数据库管理系统功能强,能方便地进行数据存取、检索、补充、修改和删除等;
f)具有较好的安全性和保密性。
g)应使用国家标准和有关国际标准所规定的字符集。应尽可能使字符集可扩充,使特殊字符可直接访问,并根据需要考虑多语种的兼容处理问题。
6.2.4
对通信系统的要求
根据需要,可支持实现先进的计算机网络通信,支持开放系统互联,能实现通过网络的数据库存取。
6.3
对术语数据的要求
6.3.1 基本要求
6.3.1.1
正确性
入库术语数据应是经核查正确无误、有效的。
6.3.1.2
一致性
应排除由于术语数据来源不同而产生的不一致。
6.3.1.3
完整性
应保证术语数据元、数据类目和数据结构的完整。
6.3.1.4
独立性
数据应独立于计算机系统,且独立于存储方法和存取方式。
6.3.1.5
适时性
及时更新术语数据。
6.3.2
数据类目的选择
数据类目应首先从以下五类中选择。
6.3.2.1
描述术语的数据
主要包括:
——[汉语]主条目术语;
——简称(缩略语);
——全称(当主条目术语为简称时);
——同义词;
——其他语种对应词;
——符号;
——词类;
——其他语法信息;
——注音;
——术语的注释;
——参见。
6.3.2.2
描述概念的数据
主要包括:
——概念的定义;
——概念的描述;
——语境;
——示例、公式、表格、图形等。
6.3.2.3
描述概念体系的数据
主要包括:
——分类(分类法);
——叙词(叙词表);
——上位词;
——广义词(如果上位词不清楚);
——下位词;
——狭义词(如果下位词不清楚);
——同位词。
6.3.2.4
用于管理的数据
主要包括:
——记录标识;
——语种代码;
——文献来源代码;
——记录的生成日期;
——数据修订日期;
——责任者代码;
——使用的地域限定;
——标准化或非标准化;
——现行用法或过时用法;
——首选或许用或拒用或被取代;
——行业用语(行业范围);
——机构内部的用语;
——可靠性代码。
6.3.2.5
表示文献的数据
主要包括:
——文献的类型(如标准、辞典、百科全书、手册等);
——文献信息:
a)著(作、编)者;
b)题目;
c)出版日期;
d)出版机构;
e)出版物的卷期号;
f)标准号
g)术语信息在文献中的页码。
6.3.2.6
其他数据项
应考虑到不同类型的术语库要求不同的数据类目,不同的用户群(如学生、翻译、学科领域的专家)需要不同类型的信息。一个多功能的术语库应具备灵活性,允许增加新的数据类目。
6.3.3
数据结构
在进行数据分析时,应建立起数据结构模型。
6.3.3.1
术语数据元之间的关系
术语数据元可以是面向概念的,可重复的或不可重复的。它们可以由其他数据元组合而成。
术语库中词条的数据元可以是与概念相关的信息(如定义、描述等),也可以是与术语相关的信息(如语法信息、语境等),如图2所示。

6.3.3.2
术语的多语种对应关系
同一概念的术语在不同的语种中的对应关系有以下三种类型:
a)完全对应
概念体系是在两个语种中独立地建立起来的,术语所表达概念的定义以及概念在概念体系中的位置在两个语种中完全相同。
b)不完全对应
当概念在两个语种中不能完全对应,但其差别能用两个概念的若干术语相互翻译时,则应将这些术语并列在该词条下,并加注解指出差别和相似性。
c) 完全无对应
当一个概念在另一语种中无对应时,可以翻译定名(或空缺),但应在术语库中特别标记。
6.3.3.3
数据结构的描述
可使用实体—关系图(E—R图)描述数据结构。见附录A。
术语库实体—关系图应将每个数据元独立地分开,并描述术语库中不同数据元之间的逻辑联系。
6.3.3.4
数据结构的修改
——增加一个字段;
——增加一个层次结构;
——改变字段的顺序;
——细分和(或)合并字段;
——改变字段名;
——改变字段的数据类型;
——其他修改。
6.4
对术语信息源的要求
6.4.1
科学性
入库概念、定义和术语应符合GB/T 10112的各项规定。
6.4.2
权威性
术语应从具有权威性的文献中选择并经有关专家审定。
6.4.3
系统性
术语的选择和收录应系统地进行,并保证概念体系的完整性。
6.4.4
一致性
审核入库术语时,应避免一个专业领域内的一个概念用多个术语表达,或一个术语指称多个概念,尤其要避免同一概念的定义不一致。
6.5
术语库的服务方式
服务方式应方便用户使用,建库时可根据需要加以选择。例如:
——查询;
——屏幕显示;
——打印;
——磁盘、光盘录制;
——排版;
——缩微;
——联机检索;
——通过互联网下载;
——其他可用的数据交换方式。
7 建立术语库的基本过程
7.1
术语库开发的基本过程及需备文件
术语库开发的基本过程及需备文件见表1。
表1 术语库开发的基本过程及需备文件
|
|
初 始 期 |
开 发 期 |
运 行 期 |
|||||||
|
|
规划论证 |
需求分析 |
系统设计 |
系统实施 |
审查与验收 |
系统运行 |
||||
|
应具备的工作文件 |
项目申请书 用户需求报告 可行性研究报告 系统开发任务书 |
数据要求说明书 功能要求说明书 硬件要求说明书 软件要求说明书 |
概念模式设计说明书 逻辑模式设计说明书 物理模式设计说明书 |
技术报告 程序编制说明书 数据录入规则 录入工作单 |
测试分析报告 用户报告 审查报告 验收报告 查新报告 |
操作手册 使用手册 维护手册 数据字典 (运行)管理守则 |
||||
|
|
工作计划及任务分配书 |
设计审查报告 |
|
|
||||||
|
|
|
测试计划书 |
|
|||||||
|
完整的系统开发文件档案 及项目工作总结报告 系统设计详细计划及工作流程图 |
|
|||||||||
注:表1描述的工作过程和文件对于建立一个高质量的大型术语库是必要的,可根据系统开发的规模和具体需要进行选择。
7.2
规划论证阶段
7.2.1
先期准备
在对用户需求进行广泛和重点的调查、分析基础上,从需要和现实可能两个方面提出项目申请书、用户需求报告、可行性报告,由相关部门批准后,形成任务书(合同书、协议书),组成项目工作组(机构),正式开始该系统开发工作。
7.2.2
制定工作计划及任务分配书
项目确定后,应首先制定一个详细的工作计划,编制工作计划书。包括:
——该项目进展的各阶段目录;
——各阶段工作安排及完成日期;
——工作分工等。
7.3
需求分析阶段
需求分析应详细、具体,并形成必要的工作文件。
7.3.1 详细地调查研究术语数据需求,收集、挑选和登录原始资料,确定收录术语的范围(可按阶段安排),明确对数据类目和数据结构的要求、数据处理的要求、输入输出的要求等。完成数据要求说明书和功能要求说明书。
7.3.2 根据数据需求分析,提出对系统功能、性能的要求,包括硬件要求、软件要求、质量要求等,明确待开发系统的目标。分析现有条件,提出待购置或开发软、硬件纲目表,并提出对原有系统进行改造与扩充的建议方案,完成软、硬件要求说明书。
7.4 系统设计阶段
7.4.1
概念模式设计
建立术语库的实体—关系图,并编制概念模式设计说明书。
7.4.2
逻辑模式设计
根据实体—关系图和所使用的数据库管理系统的类型,确定数据库的逻辑模式,并编写逻辑模式设计说明书。
7.4.3
物理模式设计
根据数据库管理系统所提供的功能,将逻辑模式映射到系统实现上,并编写物理模式设计说明书。
7.5
系统实施阶段
7.5.1
程序编制
根据术语库系统的要求完成程序编制工作,并编写程序编制说明书。
7.5.2
数据加工
根据确定的数据类目和数据结构编制录入规则,设计录入工作单,选择、分析、整理、审定入库的术语、定义、描述、示例等。根据需要和可能选择外文对应词,必要时,应先在汉语和选用的其他语种中建立概念对应关系,完成数据规范化预处理。
7.5.3
系统调试
对硬、软件进行安装与调试,对系统的功能、性能、质量等进行检验。对存在的问题作出改进设计,完善系统后建立模拟库,并试运行。
7.5.4
数据录入
对拟入库术语信息进行规范化处理后,完成大规模数据录入。
7.6
审查与验收
审查与验收应当有计划、有组织地进行。
7.6.1
审查
审查应贯穿于术语库建设全过程的各个阶段,伴随着各个工作步骤进行。
7.6.1.1
审查人员
审查人员构成应考虑以下因素:
a)与术语库相关的术语学、标准化、计算机、语言学等方面的专家;
b)用户。
7.6.1.2
审查方式
a)文件审查;
b)会议审查;
c)系统测试。
7.6.1.3
审查内容
应按第6章的各项要求及其他有关国家标准,审查7.1~7.4相应的工作项目。
7.6.1.4
审查报告
审查结果应有书面记录,包括:
a)审查时间;
b)审查方式;
c)审查内容;
d)审查人员;
e)审查结论性意见等。
应对审查中发现的问题提出或责成有关人员提出处理意见。必要时,进行设计改进或采取相应措施后再次审查,或指派专人进行追踪审查。
7.6.2
验收
术语库建成后,设计开发单位应提出验收申请报告,由相关单位组织验收。
7.6.2.1 正式的验收应公开进行。主要组织者和负责人由相关部门委派,但不应是该库研制开发的直接参与者。
7.6.2.2 正式验收应召开验收会议,并至少履行下列程序:
a)主要设计人员作开发设计报告;
b)主要设计人员回答验收人员的质疑;
c)检查系统文件档案和各阶段工作的审查报告;
d)审查测试报告;