瀚堂典藏
人类有一个古老的梦想:在一个地方装下古往今来所有的知识——以所有语言写成的所有的书籍。许多年以前,人们曾大致造出了这样的图书馆, 建造于西元前300年的亚历山大图书馆,当时就是被设计成用来放置已知世界的所有羊皮卷。 在相当一段时间内,它裏面放置了约50万个羊皮卷,大概占了当时所有图书的30%~70%。 但是即使在亚历山大图书馆被毁坏之前,能够把所有知识放在一幢房子的时代也已经过去了。 从那以后,持续的资讯膨胀超越了我们的保存能力。
从苏美尔人的黏土写字版时代至今,人类至少已经“出版”了3200万册书、7.5亿篇文章、2500万首歌、5亿幅图画、50万部电影、300万个视频短片和电视节目。 所有这些东西大都分布在世界各地的图书馆、档案馆和私人收藏者手中。
网路技术的出现和检索引擎的发展,使得人类可以从新审视将所有的知识放在一个地方的古老梦想了。 目前人类已经完成了将人类第一个10%的知识,网页形态的非可信知识,进行收集和管理的工作。 进入新的世纪以来,资讯产业出现了一个巨大的变化,这个变化虽然悄无声息,却是最基本的,也是革命性的,那就是Unicode替换了ASCII码作为资讯高速公路的基石, 人们使用全世界统一的数学符号在单一平台上进行资讯交换的理想变成了现实。
2006年7月发布的Unicode 5.0标准已经将世界统一的字元总数推进到98,884个(过去国标是七千二百个,台湾Big5为一万三千个,我们在这种环境下生活了二十年), 而目前的编码字元绝大部分是东亚字元,并且大部分采用四位元组编码的方式进行字元管理。Unicode的最终目标是90万个字元编码。这一变革不仅给西方的硬体和软体巨头们带来巨大的商机, 也为建构超级知识库提供了可能性,使得人们可以开始整理存在于世界上的第二个10%的知识——印制在纸质媒介上的、图文对应的可信知识。一个值得关注的现像是, 由于历史原因,东亚的文献在数量上和字元使用量上都具有压倒性的优势,东亚应该也必将能够成为建构超级知识库的主力军。从中国历史上看文字字元的使用情况, 不论什么朝代,超过三千个字以上都属于生僻字,只要不进行文字学和古文献研究,三千字都可以解决99%的问题。但是,要完整保存所有的文献,则必须瞭解和掌握全部字元。 从这个意义上讲,西方主导的Unicode编码舞台,上演的将是东方的歌舞。
《瀚堂典藏》是目前唯一采用国际通用的超大字元集进行加工校勘的古籍资料库,其最大特色是文本精准无缺字,并采用高速检索技术整合各个分库。 瀚堂在广泛收集版本和精细校勘的基础上,致力于建构巨型文献平台,以图文对照的电子图书馆的高新技术形式,以档案夹分类的书目树模式,完整保存典籍文献,提供读者存真、 快捷,并可以方便查询、研究、阅读和推广的资讯服务。
(截取自原网站。)