基于OEB规范电子书的结构及优化

基于OEB规范电子书的结构及优化
中美百万册书数字化工程(CADAL)是由中美双方科学家共同发起的旨在建设包含1万册图书的数字图书馆研究与开发项目。该项目基于开放框架结构,并且资源数量将达到50―100TB.目前国内外流行的电子图书制作标准基本上互不兼容,发布的电子书格式有文本格式、HTML格式、特殊开放格式(如PDF,DVu等)、特殊封闭格等等,多样的格式必然导致资源的重复建设以及难以交互。

成立于1998年的开放电子图书论坛(OpeneBookForum)是由IT界、图书馆、出版机构和图书销售公司等共同发起的电子图书的标准制定组织,在1999年发布了电子图书框架结构标准OEBPS1.0(OpeneBookPublicationStructure1.0),其目的是为了更好地表现电子书的内容,即提供给作者及出版商*简单*通用的电子图书出版格式标准,同时,也给电子图书阅读系统开发者提供电子书文档结构的标准,按照该标准制作的电子书,能通过多种阅读系统精确地再现。OEBPS标准建立于XML体系基础上,具有可互操作性、可扩展性、开放性和易用性等优点,作为一种开放框架的规范目前已被业界广泛采用。OEBPS当前*新的版本是2002年8月发布的OEBPS1.2.经过中美专家的共同研讨,CADAL选用了OEBPS作为工程实施标准。

1基于OEBPS的电子书结构在CADAL项目中,一本电子书的制作要经过扫描、图像校正、转换格式、元数据录人、目录录人、封装等过程,*后生成的电子书半成品数据包含若干OEB文件、扩展名为Pf的包文件和反映电子书内容的图像文件。

OEB规范规定符合该规范要求的电子图书文挡必须是有效的XML文档,并建议包文件使用Pf扩展名。该文件描述了一本电子图书的完整框架,包括文档、图像和其它对象以及它们之间的相互关系。

根据规范的要求,该文件由metadata(元数据)、manifest(文件清单)、spine(书脊)、tours(导读)、guide(指南)构成。下面是一个具体的OPF文件示例:封二〃作为一个规范的XML文件,*外层元素是包标DcMetadata元素包含电子图书的DC元数据信息,每一个子元素代表一个DC字段,子元素的内容就是DC字段的值。例如,沈宗敬表示作者是沈宗敬。

Manifest元素包含的是组成电子书的所有文件列表。子元素item用于描述文件类型和地址,每个item都有**的ID号标识。例如制作单位编号”>如上XML显示的树状结构,每个XML元素的Name属性为计算机上建的目录名,Description属性为这个目录的简单描述。从上例可知,电子书存放在元素描述的06目录下,06目录下是以电子书的每个proect作为分类,而每f

元素是可以重复的。对于目录存储来说,就是ebook下可以存放多个目录,每个目录就是一个分类。由于CADAL是一个百万级别的电子书库,所以每个项目目录下,又建立了一个编号集目录,每个编号集目录存放200本电子书,编号集的目录名为起始两本编号再加上中间一个“一”做间隔。如上XML元素描述编号集目录为000001000200,表示编号为000001―2之间的电子书存放在此目录下。

以上结构,以电子书库概念替代了单本电子书,更便于电子书的存储、发布和管理。

4展望CADAL项目的实施将推动海量数据存储、管理、检索和多媒体处理等方面的研究工作,促使我国在大规模数字图书馆建设和信息服务领域向世界先进水平迈进。电子书格式及结构的研究,只是其中*基础的一步。CADAL应用的电子书结构既遵从了OEB规范,又吸收了DVu格式的优势,符合建设开放数字图书馆的要求。我们也希望通过这个应用,能提供一种简单、高效、经济、功能强大的电子书结构模型,供大家在数字图书馆建设中。

泊祎回收网遵循行业规范,任何转载的稿件都会明确标注作者和来源;

发布者:泊祎回收网,转载请注明出处:https://www.huishou5.net/dianzi/23260.html

(0)
打赏 微信扫一扫 微信扫一扫
泊祎回收网泊祎回收网
上一篇 2021年5月7日 上午4:30
下一篇 2021年5月7日

相关推荐

电话

联系我们

1388-0022-916

在线咨询:点击这里给我发消息

邮件:1395700887@qq.com

工作时间:周一至周日,9:30-18:30,节假日无休

微信
微信
分享本页
返回顶部