元数据标准概述
韩 珏 赵 亮 刘 炜
一、引言
今天,网络的各个领域都充斥着大量的信息。通过网络你不仅能获取新闻、天气预报和金融等服务,还能购买到各种商品和服务。网络的用途看起来是无穷无尽的,但它在技术方面却缺少一个至关重要的部分。那就是网络上关于信息的信息这一部分。这部分的信息用途是使计算机能恰当地进行处理和搜索,它包括标签、编目和结构化的描述性信息。换句话说,现在网络发展最需要的就是元数据。
元数据也被称为是关于数据的数据。更为正式的表达是:元数据是与对象相联系的数据,潜在用户可以籍此数据减少对对象的存在或特征方面的全面高级知识的依赖。
元数据是专门用来描述数据的特征和属性的。它能用来支持电子资源的定位,发现,评估,选择等。而这些行为可由终端用户或他们的代理机构来处理。
由于电子文件所具备的多种多样的格式和控制方法,它们可能不能被每个用户直接使用:因为也许人们不熟悉或不了解它的格式;也许它的内容被加密了;或者它只有在交费后才能被接受;也或者这个资源太大,存取起来既困难又费时。在这些情况下,元数据能支持用户决策过程。它包含的数据元素集就是用来描述一个信息对象的内容和位置,以便能在网络中方便的查找和检索。万维网联盟(W3C)的元数据行动计划的目的是为了对元数据进行编码并构造元数据的模型。W3C对元数据的研究促使了RDF和PICS的标准诞生与发展。目前PICS的标准工作已结束,RDF的标准制定工作则还在进一步发展之中。
随着资源的无限增长,网络信息的有效管理将越来越依赖于元数据的管理。当前在因特网环境下元数据服务的需求也越来越明显。并且随着因特网逐渐发展成一个采用多种应用协议和格式的混合型信息经济实体,这种需求将会更加强烈。元数据不仅将成为资源发现的关键,它还可通过建立一定的技术或商业结构,成为有效应用资源的基础,并在各种协议之间进行交互操作。
二、元数据分类
英国的图书馆和信息网络部(UKOLN--www.ukoln.ac.uk)的DESIRE(Development of a European Service for Information on Research and Education)项目专门对现有的多种元数据类型进行了分析和比较(********),并把它们分为了三个级别:
| | 一 级 | 二 级 | 三 级 |
| 记录 | 简单格式 | 结构化格式 | 复杂格式 |
| 特征 | 私有 | 成为逐渐形成的标准 | 已成为国际标准 |
| | 全文索引 | 结构化字段 | 详细标识 |
| 记录格式 | Lycos | Dublin Core | ICPSR |
| | Altavista | IAFA templates | CIMI |
| | Yahoo etc | RFC 1807 | EAD |
| | | SOIF | TEI |
| | | LDIF | MARC |
级别一包括的是相对来说未经结构化的元数据,特别是从资源中自动抽取并索引的。这些数据一般是由搜索引擎产生的。如果用户用它们来查询一个已知条目,它们还比较有用。但用户必须对查出的大量资源进行筛选,并且还可能会错过一些潜在相关的资源,因为它们没有使用适当的术语进行索引。
级别二中包括的元数据允许使用者不用对资源进行检索或联系,就能对资源的潜在用途或重要性进行判断。这些数据已被结构化并支持字段查询。更重要的是这些简单的数据记录能让非专业用户自己来创造,而不需要什么特定的学科知识。描述一般是手工进行的,或借助自动抽取的描述来帮助手工编制。
级别三中复杂的描述格式可用于定位和发现,还可用于对对象的证明(document)和收藏(collection),它们一般用于研究与学术活动,需要专业知识来创造和维护,并迎合专家们在特定领域的要求。
三、常用的元数据标准
本文对目前网络界和数字图书馆界都颇为关注的几种元数据进行了概要性的阐述,包括都柏林核心(Dublin Core)、因特网内容选择平台(PICS)、资源描述框架(RDF)、编码档案描述(EAD)和文本编码倡议(TEI)。随着网上资源的不断增长,越来越多的资源和项目采用了这几种元数据作为网上资源描述的方式,因此研究它们具有一定的实际意义。
3.1 Dublin Core(都柏林核元数据)
3.1.1 简介
Dublin Core是1995年在都柏林召开的第一次元数据会议上被提出的。它的目的是生成一个简单的、并且在网络中为各个拥护团体所接受的标准化元数据元素集。DC能较好地解决网络资源的发现、控制和管理问题。
Dulin Core(DC)被认为是网上最有发展前景的元数据之一,它是由十五个核心元素构成的。它易于生成,不需要专业的编目人员来创造,就是一般的网页作者也能自己创造出DC元数据来。另外为了满足比较高级的编目要求,DC还可被扩展或与其它元数据进行桥接。DC元数据的表达有多种方式,一些简单的表述可以采用DC在HTML,XML和用XML格式的RDF结构中的镶嵌形式。DC目前已成为简单描述因特网资源的首选。
Dublin Core的标准化
1998年9月,因特网工程专题组(IETF)正式接受DC的15个未结构化的元素,将其做为一个正式标准予以发布(RFC2413)<http://info.internet.isi.edu/in-notes/rfc/files/rfc2413.txt> 。RFC 2413是第一个正式的关于DC语义的说明。它阐述的的十五个DC元素集被看成是DC1.0。
DC标准化的下一步将是对RFC2413进行润饰和略微的调整,使其符合国际信息标准组织(NISO--National Information Standards organization) 和欧洲标准化中心(CEN--Center for European Normalization)的要求。这两个组织在北美和欧洲扮演着类似的角色。DC目前已成为它们的一个工作内容。计划中的修改可分为两项。首先是为提高元素的准确性,对元素定义进行回顾,以期在使用时能有更好的一致性。其次是根据元数据资源描述模块ISO11179(ftp://sdct-sunsrv1.ncsl.nist.gov/x3l8/11179/)的标准把DC格式化。
目前,DC元素定义的讨论已基本完成。估计在99年内正式的文件能上交给NISO和CEN。
3.1.2 内容
Dublin Core的十五个元素
| Content | Intellectual Property | Instantiation |
| Title | Creator | Date |
| Subject | Publisher | Type |
| Description | Contributor | Format |
| Source | Rights | Identifier |
| Language | | |
| Relation | | |
| Coverage | | |
迄今为止,DC的这十五个元素已被翻译成了20多种语言,在各个洲都有很多国家项目采纳了DC。目前除澳大利亚和丹麦之外,芬兰也把DC当作国家级和地方级的政府官方文件描述基础。
3.1.3 描述实例
本节提出一个都柏林核在HTML文件中表述的简单实例:
<meta name="DC.Title" content="Digital Libraries: Resources and Projects">
<meta name="DC.Creator " content="上海科文工作室">
<meta name="DC.Subject" scheme="keyword"
content="digital libraries, digital library, virtual library, electronic library, libraries">
<meta name="DC.Identifier" content="http://www.libnet.sh.cn/dlib/">
3.1.4 最新发展情况
1998年11月,第六次DC会议在美国华盛顿特区召开。与前几次会议不同的是,DC-6的目的并不是要在大会上来解决什么具体问题,而是确认需要解决的问题,并把它们分派给各个正式的专题组来解决。在DC-6上提出了几个重要的问题。这些问题反映了专家们普遍关注的一些方面,如从加工处理到语用论,从结构到理论。每个问题都被列入了大会议程。而事实上,这些问题一直贯穿于DC的发展中:
- DC处理方式的正式化:怎样使DC的变革能反映各个不同利益集团的需要?
- 标准化:哪些文件会被标准化,被谁标准化?
- HTML编码:一个正式的规范取代非正式惯例是必须的。
- 限定词机制:一个基础数据模型能否为DC元素的修正提供调和的机制?怎样使用限定词?有没有推荐的DC限定词?RDF在DC元数据中扮演什么样的角色?
- 与其它元数据模型的关系:怎样使元数据模型间的差异缩小,以促进交互性合作?
1999年7月2日,DC1.1版本(http://purl.org/dc/documents/proposed_recommendations/ pr-dces-19990702.htm#)发布,这份文件总结了RFC2413公布以来的DC元数据元素定义的修改,代替了DC1.0版本中的内容。这些新的定义将被看作是DC1.1版本。每一个DC元素都使用ISO/IEC 11179(ftp://sdct-sunsrv1.ncsl.nist.gov/x3l8/11179/)中关于数据元素描述标准的10个属性来定义。
3.1.5 应用实施计划
联机资源合作目录(Cooperative Online Resource Catalog) 是OCLC的一个探求元数据的合作创造和使用的研究项目,它主要针对联机资源。现在,该系统提供MARC记录和DC元数据的创造和编辑。所有记录都可用这两种方式表示。
Open eBook是在1998年10月由Microsoft及几个主要的电子图书生产商所联合提出的,它是关于界定电子图书内容格式标准的一个项目。
Open eBook的处理对象是电子图书,因此它将极大地依赖于对如出处和出版细节等的外在元数据进行编目和记录。Open eBook标准是为了让内容提供者--出版商和书籍、论文网页的作者能用一种单一的格式来传递他们的作品。这个格式将被所有与Open eBook相适应的系统接受,这样出版者就不必为适应各种不同机器而改变格式。该标准的另一目的也是为了让现有的各种电子图书设计能尽快的容纳它。由于DC元数据本身所具备的特点和它目前的普遍性,Open eBook决定采用DC作为网上出版电子书刊的编目规则。
3.1.6 DC标准所在网址
3.2 Platform for Internet Content Selection (因特网内容管理平台)
3.2.1 简介
PICS说明规则最初的设计是为了让家长和教师把因特网上不适合儿童的内容遮蔽起来。PICS是一种把因特网资源与标签(元数据)相结合的基础结构。在PICS中信息加过一个标签之后,计算机就能在后台进行处理,过滤掉用户不需要的资料,或者指导用户到达他们可能会感兴趣的站点。这个基础结构的最初目的是内容过滤,现在涉及到了内容选择方面的更多问题,包括更丰富的资源描述方案,组织的管理,发现和检索,知识产权和隐私保护任务等。不同的组织能根据自己的目的和价值观来评估内容,用户能用自己的浏览器来过滤掉所有不符合他们要求的网页。 PICS标签还可被用在资源携带的数字签名上,或者保护计算机不受病毒的侵害。PICS说明规则是一组帮助人们以一种简单可机读的形式来发布关于数字材料内容信息的说明。PICS的出现早于RDF,它的目的是能为网络资源提供标签,而RDF则是提供一种更为普通的元数据处理方式,PICS以后的版本将被重新设计成RDF中的一个应用程序。
3.2.2 内容
PICS官方技术文件
PICS 1.1作为W3C的推荐文件于1997年12月22日发布。这是一种用来过滤的机器语言,它是建立在URL和PICS[ºú´ó¿É1] 标签匹配的基础上。这种过滤语言同样使过滤法则更容易被传送到搜索引擎,代理服务器,或其它为用户服务的服务器上。例如,一个搜索服务能传回与用户文件相匹配的链接,并以质量、隐私、年龄符合情况、或安全下载代码为基础制定标准。
1. PIC的分布标签结构和通讯协议(PICS Label Distribution Label Syntax and Communication Protocols )--http://www.w3.org/TR/REC-PICS-labels,在1996年10月31日,被W3C列为推荐文件。标签可以包含一个对站点的等级评价(rating),特别是使用客观语句来描述内容,使用户能采用它来控制他们的和他们孩子的存取。标签还可以包括其他信息,如创造者,有效期等。
2. PICS等级服务和等级系统(The Rating Services and Rating SystemsPICS) --http://www.w3.org/TR/REC-PICS-services于1996年10月31日成为W3C的推荐文件。文件制定了用来描述等级评价服务的词汇和规模的格式,类似于一个数据库模式体系。
3.PICS规则(PICSRules)--http://www.w3.org/TR/PR-PICSRules :制定了过滤参数的内部交换格式,使参数能容易地被安置或传送到搜索引擎。
4. PICS符号标签1.0方案(The PICS Signed Labels (DSig) 1.0 Specification)--http://www.w3.org/TR/REC-DSig-label/ 1998年5月27成为了W3C的推荐文件,在文件中描述了扩展PICS1.1标签的方法。
PICS规则
PICS规则(rules)使用RFC1123中的词汇来定义每种特定要求。这些词是:
- “MUST”或“必须的(required )”表示这个条目是方案中必须的要求。
- “SHOULD”或“推荐使用(recommended)”表示在特定环境下,可能存在忽视这个条目的正当理由,但是必须对其含义了解清楚,并在选择另一程序时仔细权衡。
- “MAY”或“可选择的(optional)”表示这个条目是可选择的。某些代理商会选择他认为重要的条目,而另一些代理商则可能会忽视它。
3.2.3 描述实例
以下是一个HTML中编入PICS 的例子:
<head>
<META http-equiv="PICS-Label" content='
(PICS-1.1 "http://www.gcf.org/v2.5"
labels on "1994.11.05T08:15-0500"
until "1995.12.31T23:59-0000"
for "http://w3.org/PICS/Overview.html"
ratings (suds 0.5 density 0 color/hue 1))
'>
</head>
3.2.4 最新发展情况
近两年来W3C一直支持着PICS的开发。除了普通的易于理解的含义外,随着越来越多的复杂结构和词汇的加入,PICS得到了更广泛的应用。1997年1月伦敦举行的PICS专题会议上显示,PICS在美国得到了广泛应用,同时在欧洲也被各国政府所认可。
3.3 RDF Resource Description Framework(资源描述框架)
3.3.1 简介
RDF是在W3C的主持下开发的,它是一个对结构化的元数据进行编码、交换和再利用的基础结构。它提供各种应用之间的交互性操作,在网络上交换可机读的信息。RDF突出了自动处理网络信息的功能。开发作为普通的元数据结构框架的RDF,很大程度上是受了PICS 的启发。资源描述框架(RDF)作为一个模型和结构说明的工作草案发布于1998年10月8日。
RDF开始只是作为PICS内容描述技术的一种扩展。现在它开始采用XML和一些其它的技术,如Microsoft's XML-Data paper和SiteMap proposals,并且它还受到了DC和Warwick框架的影响。RDF在设计中的一个要求是:它能用来表达PICS-1.1标签所能表达的任何事物,并且使PICS-1.1标签被自动翻译成RDF格式的同时,不丢失任何信息。PICS以后的所有技术工作都将涉及到RDF的应用。
RDF可被用于各种领域,如:在资源发现中提供更好的搜索引擎功能方面; 在某一网站、网页或数字图书馆的描述内容和内容关系的编目方面;在推动知识共享和交换的智能软件代理方面;在内容等级评定方面;以及在描述网页的知识产权等方面。带有数字签名的RDF将成为建立电子商务、合作和其它应用的“网络托拉斯”的关键。
在数字图书馆领域,RDF和RDF模式体系语言都是建立在元数据的基础上。特别是,RDF顺应Warwick框架,采用了一种元数据的模块方式。但RDF代表了Warwick 框架的一种演变,因为Warwick框架允许每一个元数据元素以不同的结构显示出来。而在RDF中,所有的元素都以一种单一的经详细定义的模型和结构显示。元内容框架 (MCF)是网络上最早的也是非常重要的元数据系统之一 ,1996年由苹果公司提出,至今仍被许多网站所采用。MCF由于它不能扩展,被限制在网站导航的应用中,Netscape将其开发成Navigator的一个插件程序,起名“HotSauce” 。
1999年2月22日,RDF的模型和句法规则(http://www.w3.org/Press/1999/RDF-REC)被批准成为W3C的推荐文件。同时,RDF 模式体系文件(http://www.w3.org/TR/PR-rdf-schema/)在1999年3月3日,被提议为W3C的推荐准则(Proposed Recommendation )。
3.3.2 内容
RDF模型、句法和模式体系
RDF数据模型是一种表示RDF的独立句法。在RDF的核心部位是RDF数据模型,它用来表示指定的属性和它们的值。这些工具用来表示资源属性以及资源之间的关系。
RDF句法采用XML语言。RDF采用XML语言作为编码结构,用RDF描述的资源,通常是可被URI命名的任何事物。RDF主要的目标是定义一种机制来描述资源。这个机制的定义是域名中立的,而机制本身则能用来描述任何域名信息。另外RDF通过使用XML中的命名域,以允许RDF能有效的引用特殊的RDF词表或模式体系。
RDF模式体系是一个关于RDF节点类别信息的组合,它包括节点的特征和关系。RDF 模式体系使用的语言受到了知识表达的影响,如语义网、框架、逻辑谓词、数据库模式表达模型和图表数据模型(semantic nets, frames, and predicate logic, as well as database schema representation models such as binary relational models, and graph data models)。
RDF的核心结构
RDF的基本模型是由节点、属性和它们的值组成。节点可以是任意的网络资源(如网页,服务器等任何有URI的资源),甚至是其它元数据。属性是节点指定的特性,它们的值既可以是自动的(字符串、数字等),也可以是其它资源或元数据。
例如:Ora Lassila is the creator of the resource http://www.w3.org/Home/Lassila.
这句话可以用图表这样来表示:
在这个图例中,可以这样认为资源http://www.w3.org/Home/Lassila有一个创建者Ora Lassila,或Ora Lassila是资源http://www.w3.org/Home/Lassila的创建者。
为了把这个模型放置到文件中,或让其在各个代理服务器之间传送,则需要一种图表编序句法。RDF采用了XML语言,XML是W3C正在讨论的一种语言,它为各种应用定义了一种更丰富的网络句法。RDF和XML互相兼容,对同一个RDF模型将会有各种不同的表示方式,其中一些将更适于直接创造。
RDF本身并没有什么预先设定的词汇来创造元数据, 但专家们正期望着标准词汇的出现,毕竟这是进行大规模交互操作的核心要求。在不远的将来这些词汇将会类似于PICS的等级结构,DC和表示数字签名的词表。任何人都可以设定出一个新的词表,只要在使用它时,用到这个词表的元数据里包含了一个指定的URI。而用URI来命名词表的方式是RDF的一个重要的设计特色。
3.3.3 描述实例
上例如果用RDF/XML来表示的话:
<?xml version="1.0"?>
<rdf:RDF
xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:s="http://description.org/schema/">
<rdf:Description about="http://www.w3.org/Home/Lassila">
<s:Creator>Ora Lassila</s:Creator>
</rdf:Description>
</rdf:RDF>
在这里RDF用到了XML中的命名域来限定它所使用的元数据类型。在本例中使用的RDF和s代表的schema是在http://www.w3.org/1999/02/22-rdf-syntax-ns和http://description.org/schema/ 中规定的。
以下是用RDF格式描述一个包含了DC元数据的网页:
<rdf:RDF
xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:dc="http://purl.org/metadata/dublin_core#">
<rdf:Description about="http://www.dlib.org">
<dc:Title>D-Lib Program - Research in Digital Libraries</dc:Title>
<dc:Description>The D-Lib program supports the community of people
with research interests in digital libraries and electronic
publishing.</dc:Description>
<dc:Publisher>Corporation For National Research Initiatives</dc:Publisher>
<dc:Date>1995-01-07</dc:Date>
<dc:Subject>
<rdf:Bag>
<rdf:li>Research; statistical methods</rdf:li>
<rdf:li>Education, research, related topics</rdf:li>
<rdf:li>Library use Studies</rdf:li>
</rdf:Bag>
</dc:Subject>
<dc:Type>World Wide Web Home Page</dc:Type>
<dc:Format>text/html</dc:Format>
<dc:Language>en</dc:Language>
</rdf:Description>
</rdf:RDF>
3.3.4 标准网址
3.4 Encoded Archival Description (文档描述编码方案)
3.4.1 简介
EAD是为适应档案馆和原稿库的需要而开发的一种资源描述方式。EAD的产生的目的是为档案描述的机读方式提供持久的标准,并帮助图书馆收藏的档案和原稿提供统一的网络存取。一般情况下,图书馆的MARC记录只提供简要的描述和存取,而EAD则可提供详细的描述和存取。并且这两种描述方式可相互补充,在书目数据库中,利用MARC记录为藏品提供的简要描述可指向基于EAD的详细目录。EAD为档案馆和图书馆的目录描述提供了一种结构,它主要针对目录清单和记录。它能适应任何长度的目录和记录,并能描述在各种媒介上的所有类型的档案。
EAD DTD的开发始源于1993年加州大学伯克立分校图书馆倡议的一个计划项目。这个计划的目标是为调查档案馆、图书馆、博物馆和原稿库(manuscript repositories)所创造的目录清单、记录、索引和其它文件的机读目录开发非私有的编码标准需求及可行性。
尽管EAD现在已取得了世界性的关注,但它还不是国际标准。美国国会图书馆的网络开发/MARC标准办公室是EAD的维护机构。 EAD第二版(Beta版)以及EAD标准的电子版已于1996年分布。
3.4.2 内容
EAD的组成
EAD由3部分组成,它们是数据模型、SGML文件类型定义(DTD)和档案目录(finding aids);UC伯克利的Daniel Pitti 负责EAD的开发。现在EAD已进入它的最后发展阶段。做为在档案自动化中的一个关键,EAD已在美国档案界广为宣传。 目前它已得到了几个国家主要机构的大力支持,包括美国档案家协会,保存与存取委员会和国会图书馆(LC)。 LC把EAD看作是实现国家数字图书馆倡议(NDLI)的一个关键组成部分,因此它同意负责DTD的长期维护工作,并与一SGML顾家公司合作来开发其中的标签图书馆。 .
由于SGML本身所具备的一些特征而被选为EAD的编码语言。 SGML是一套定义和表述文件的逻辑结构的标准,它能用软件控制这些文件的查寻、检索和结构化的显示。SGML以可嵌入电子文件的标示(标签)方式在结构化的部分中进行识别并建立联系。因为对与结构化文件类似的一致标示是成功地对它们进行电子处理的关键,所以SGML引入了文件类型定义(DTD)这个概念来突出这种一致性。在对文件以类似的等级编码时DTD规定了指定的SGML标示标签 。档案目录都有类似的格式和部分,它们本身构成了一种DTD格式的文件类型。
1995年3月的伯克利目录文件类型描述计划版本也被称为FINDAID DTD,它定义了一种文件类型,一般来讲它包括一个可选择的标题页,一个关于归档材料的描述单元,以及一个可选择的附属资料(back matter)。标题页可包括一些其它元素,如对集合鉴定或目录的类型。与DTD相一致的描述单元可包括一个对其的简要描述(同可标识的类似于MARC记录的元素相混合),一个较长的关于单元的叙述性描述和任意的可分离的部分(包括如标题、日期、范围和内容,以及一个格式化的容器列表)。
专题组认为一个目录文件在最基本的层次上应该包括两个部分:一部分是提供目录本身的信息(它的标题,编辑者和编辑日期),另一部分提供关于档案材料的信息(一个集合,一个记录群或是一个系列)。根据TEI的范例,专题组把目录本身这一部分称为“header”。在被描述材料的信息部分(即真正的目录),可包含两类信息:1)分级组织的信息用来描述一个记录或文件单元和它们的组成部分,2)辅助信息可能不直接描述记录或文件,但能方便用户对它们的使用(如:参考书目)。反映归档排列原则的分级描述性信息,通常由一个对整体内容的概述开头,并继续对局部的描述。 描述信息的等级化,反映了归档的原则,通常是由对整体的摘要开始,接着再对各个局部进行描绘。而对这些局部的描述是从整个内容的描述中得来的。
3.4.3 应用实例
网络上的EAD应用站点
以往,目录是被印成列表形式,并对档案文件内容进行描述的。现在由于SGML和EAD DTD的使用,这些文件可被编码成可机读的标准形式,并通过互联网对它们进行电子存取。
EAD DTD已完成了它的第二阶段(beta)的测试。EAD DTD1.0版本已公开发布。美国国会图书馆的网络开发和MARC标准办公室担任了EAD标准的维护机构。从http://www.loc.gov/ead/eadsites.html可以获得网上的EAD应用站点。美国的国会图书馆也已开始用EAD为已有的目录进行编码。EAD是一种使用SGML的DTD。
美国遗产虚拟档案项目(http://sunsite.berkeley.edu/amher/)是一个合作项目,参与者有加州大学伯克利分校,斯坦福大学,Duke大学和弗吉尼亚大学,并部分由国家人文捐赠协会赞助。
项目建立了一个分布式EAD编码目录数据库,用来对美国历史和文化文件进行描述和存取。项目将在智能化、政治、技术和经济方面进行探讨。项目将论证一种可行性,即为学者和普通美国公民提供对全世界的研究收藏的用户友好的和全球因特网存取。
另外还有Duke大学的EAD计划(http://scriptorium.lib.duke.edu/findaid/ead/) 和弗吉尼亚大学的手稿和档案收藏指南(http://www.lib.virginia.edu/speccol/ead/ )。
3.4.4 标准网址
3.5 Text Encoding Initiative(文本编码倡议)
3.5.1 简介
文本编码倡议(TEI)是一个国际性的合作研究计划,它的目标是为表示电子形式的文本材料定义一系列的通用标准。这个项目由三个在这一领域占主导地位的专业协会赞助并组织,它们是:计算机语言协会(ACL),文学与语言计算协会(ALLC)和计算与人文协会(ACH)。
TEI项目最初的目标包括两个方面:首先是考虑在一电子文本中有哪些文本特性要进行编码(使其明确化),其次是考虑怎样使编码以不丢失,独立平台及互换的方式显示。在项目初期,SGML(SGML; ISO 8879)语言因其最合适该项目而被选中。起初纯粹是为了从实际角度出发,在项目中SGML被证明完全符合研究者的要求。 五年后它在软件业领域的应用范围在不断增加,每年都会有新的产品问世。因此TEI就能借助SGML把其重点放在文本特性的表述上,即它的第一个目标范围。
3.5.2 内容
TEI标签集
我们用标签来表示SGML元素的定义集和它们的属性。这些标签集是TEI 方案的基本组织原则,并被分为四组。
1. 核心标签集:用来定义所有文件都必须具备的元素,因此在所有场合中为缺省值。
2. 基本标签集:用来定义文件的各自类别,文件的总体结构可能有所不同,但对一给定的文件通常只有一个基本标签适用。
3. 附加标签集:可在任何类型的文件中出现,但它也与一些专门应用或细节主题有特别的联系。
4. 辅助标签集:这是一个比较特殊的角色,尤其在编码方案某些部分的描述上,并生成了一个独立于主要的DTD 的DTD(and which make up a DTD independent of the main one. )。
TEI文本的结构:
所有的TEI文本都包括:(1)一个TEI标题,用<teiHeader>元素来标示;(2)文本本身的副本,用<text>元素标示。
TEI标题是TEI文件中少数几个必要的元素之一。每一个TEI文本都有一个标题,它所提供的信息与印刷文本的标题页的作用类似。标题由<teiHeader>开始,它由四个主要部分组成,用来为以下几种文件提供详细的结构:
*<fileDesc>电子文件本身和它源文件;
*<encodingDesc>所采用的编码系统;
*<profileDesc>文件和其主题内容编目的描述性信息;
*<revisionDesc>文件的修改历史 。
<fileDesc> 元素是必须具备的元素。它包含了一个文件的完整书目描述,包括以下几个元素:
<titleStmt> <publicationStmt>
<seriesStmt> <editionStmt>
<notesStmt> <sourceDesc>
<extent>
如上所述,TEI不是一个固定的编码计划,但是它为不同的情况提供了一系列的选择。因此,TEI标题里的编码描述对与电子问用户来讲非常重要。它以结构化或非结构化的形式提供编辑惯例或方针的必要信息,以及设计决议,甚至包括文件中所用到的标签的选择。
3.5.3 描述实例
下面是一个最小标题结构:
<teiHeader>
<fileDesc>
<titleStmt> ... </titleStmt>
<publicationStmt> ... <publicationStmt>
<sourceDesc> ... <sourceDesc>
</fileDesc>
</teiHeader>
3.5.4 应用实例
TEI的应用还不是很多。主要的应用是在人文档案领域,如:牛津文本档案项目<http://sable.ox.ac.uk/ota/>和弗吉尼亚的电子文本中心<http://etext.lib.virginia.edu/ >。在欧洲的相关项目有:语言工程标准专家顾问组--EAGLES<http://coral.lili.uni-bielefeld.de/~gibbon/EAGLES/rwpaper/node5.html>和Multext-East http://nl.ijs.si/ME/.
.
.
3.5.5 标准网址
3.6 Warwick框架
Warwick框架是一个集合元数据对象的容器结构。 它是在1996年第二次DC会议上被提出的,主要是为了适应DC的发展而考虑的。因为DC带出了元数据中的一个特殊问题:DC是一个简单的资源描述格式,那么它怎样满足不同领域对元数据的需要呢?
Warwick框架是一个元数据包内部交换的容器结构。所谓包就是专为特定目的设计的元数据对象。象以DC为基础的记录就是一个包,还有GILS记录等。这个元数据结构必须模块化,能容纳不同类型的元数据对象;必须可扩展,以容纳新的元数据;必须是分布式的,以参考外部的元数据对象;还必须是可重复的,以使元数据对象被当作“信息内容”并使之与其相联系。
Warwick框架具有两个方面的重要性。首先,它提供了一个广阔的定义和使用各类元数据的结构框架。其次,把Warwick框架作为一个环境,它能允许有特定目的的元数据集开发者对自己的工作进行限定和集中,使其它对元数据感兴趣的团体能独立的在满足自己特定需要上取得进展。
尽管Warwick框架被认为是一个实用的方法,并且它的理论与方法对后来的许多元数据都产生了深远的影响,但迄今为止还没有实际应用。
最后更新:2000/7/22
版权所有:上海图书馆数字化部(shuzic@online.sh.cn)。对本文的任何节选、转载、下载、复制,必须获得版权所有人同意,并注明出处。