抓好信息库和信息系统的建设
――牢牢地抓住中华民族的生存与发展
王永成
(上海交通大学电子信息工程学院计算机系 200030)
摘 要 本文分析了世界发展的需求,论证了抓好信息库和信息系统的建设,牢牢地抓住中华民族的生存权与发展权的必要,并抛砖引玉式地提�了建设信息库的若干具体建议。
关键词 信息库 信息系统 信息时代
1 信息巳成为当今世界人类赖以生存的三大资源中最重要、最具有决定性意义的资源
众所周知:资源历来都是人们重点争夺的对象,特别是赖以生存的资源。
在古代,游牧社会和农业社会,绿色的农业资源和土地是人们重点争夺的对象。正因为此,作为世界第一农业大国的中国,不仅国土辽阔,而且据全国人大许嘉璐副委员长讲:在中国唐朝时的GDP,竟雄占世界的75%;随着世界其他国家,特别是工商业的发展,坚持以农业为基础的封建制的中国,在世界上的贡献和地位日益下降。不过,宋朝时中国的GDP,还占着世界的60%;即使到清朝鸦片战争前,中国的GDP,仍还占世界的33%。
由于人类社会日益步入了工业化社会,于是黑色的矿产资源(石油、铀矿等)已逐渐上升成为人们争夺的重点。至今连绵不断的中东战争的背后,反映了人们对工业资源的拼死争夺;由于没有重视矿业资源及工业的开发,清末与民国初年,中国的GDP已下降为世界的6%-8%,;到20世纪70年代,中国的GDP据说已下降为世界的l%;直到改革开放后的最近几年才重又上升为世界的4%。
中国土地辽阔,是世界第三,人口占全世界人口的l/4强,只占全世界4%的GDP实在太少了!中国要在新时期赶上并超过发达国家、重振雄风,也就是要实现多少优秀中华儿女,不惜为其抛头颅、洒热血的中华复兴的梦寐追求,就必须看准时代的特征与需求,采取有力措施,大干快上。
那么,当代的特征与最重要的需求是什么呢?谁在这个至关重要的问题上把握不准,他就可能会受制于人,坐失良机!
我们认为:当今时代的最重要的特征就是人类已进入了信息时代。今天,信息已成为现代工业三大支柱(信息、材料和能源)中最有活力的支柱,成了支持人类生存的三大资源(绿色的农业资源、黑色的矿业资源和灰色的信息资源)中的最重要的资源,它甚至已成为影响人们生死存亡的决定性因素。
信息时代的第一个特征是:信息与知识的价值飚升。
因此,有不少人在鼓吹:人类已进入知识经济社会(所谓知识经济,它就是以知识作为经济活动中起决定性因素的经济。世界经济合作和发展组织(OECD)定义它为: 建立在知识和信息的生产、分配和使用上的经济。
我们认为:在知识经济社会不仅“知识就是力量”、“知识就是社会发展的第一生产力”,而且至少它已显现出下述特性:
1. 脑力资源比体力资源更受人青睐;
2. 信息业比制造业有更大的社会和经济效益;
3. 信息网比传统网、交通网、电网等发展更为迅速;
4. 知识资本比金融资本更能增值;
5. 无形资产比有形资产更应受到重视。
比尔・盖茨的发迹、王选院士地位与作用的迅速上升,都是这一特征的明证;陈天桥从事IT行业,5年内就拥有180亿人民币财产,是最新证明。
信息时代的第二个特征是:信息如爆炸般地增长。特别是网上信息爆炸般产生,亿万人正如蜂拥般地上网,再加上汉语信息的飞速增加,更形成了一道特别的风景线。
2004年上网人数的语言分布
正因为信息与知识的价值飚升,自20世纪70年代美国筹建“网上网”Internet以后,网上的信息已如爆炸般地产生,如海潮般地向人们涌来,金沙滚滚,海啸频频,灾难也不少。
1995年Internet上的网页只有5千万页,1997年就增加到3.2亿页,1999年则上升到18亿页, 2000年则超过310亿页。2003年ChinaInforBank的总裁估计:每天在网上发布的有关中文财经新闻,即有3万条左右,每条平均1千汉字, 约30KB。2004年,台湾的Openfind已宣称:它已标引了40多亿网页。美国的Google己标引了80多亿网页。
信息时代的第三个特征是:Internet已成为全人类的一个信息宝库。而由几个美国学生搞起来的Google,已成为最有全球性影响力的搜索引擎。Google为什么这么疯涨?第一个原因是因为它筹建了一个世界上最大的、全开放式的全球信息库。在它建设早期,几个学生产生了一些想法,竟然很快地得到了2500万美元的资助,他们立即着手筹建全球信息库。最近,它宣称:它用一万多台�性能的电脑,已标引了80多亿网页(我们估计:目前,全世界已有1000亿左右网页)。所以,它已成为全球最大、最丰富、最完整的信息库。不仅任何人有问题都可查询它,它也可从大家的提问中,反过来搜集到你正在关心什么?急于了解什么?从而推算�你正在研究什么?你最缺什么?总之,一句话:它已逐渐地掌握了你和你的国家的大量的情报,它将透彻地了解你,掌握了你。任何国家,任何组织,如果对此不加注意,大祸必有一天会从天而降!
我们早就知道:在某国派驻中国的某著名公司总裁办公室内,曾从上到下,挂满了我国直到部级全部领导人的照片,并按其权力地位分层。人们能以照片为索引,利用它,可迅速地找到有关领导人的详细资料(经历、家人、亲友以及最近的行踪、讲话等等情报) 。据说,它已成功地用来预估我国主要领导人的活动,并找到他们猎狩的目标与非常成功地选准对付我们的策略。据说,该公司凭这一公开合法的活动,就在我国大获其利。今天,还有大量的人在积极主动地使用Google,把我们的需求,毫无保留地告诉了Google。此时,我们还有多少密可保?
中国已有l亿多网民,我们自己迄今仍没有丰富与高超的信息库(为什么?是没有钱吗?据我们所知:国家每年在科技创新的名义下,已开支了数以千亿的人民币。“科教兴国”的口号早就提出来了。但应当先抓什么?怎么抓?迄今仍没有组织全国人民认真研究、认真落实!在以后的叙述中,我们要试估一下,建一个不比Google差的信息库究竟要花多少人民币?显然,不是没有钱的问题!是没有人才和相关技术吗?我们可以肯定地说:不是!)
因为创建信息库的人才和基本技术我国并不落后。关键在于能否将它变成实用的成果!关键在于能否杜绝科技骗子、科技贩子,而能深入基层,发现、支持并重用真正实干的科技尖子。我们自己不能为亿万人民提供他们所需要的信息,有谁能挡得住人民对Google的使用?什么防火墙能防得住人们把需求信息与公开信息主动地送�去?
第二个重要原因是它的高超技术与全开放性。
下面我们要讲到:Google的技术不见得是世界上最好的(但确实是较好的) 。但它受到美国和世界众多国家和技术人员的认可与支持,它收录颇丰、资金雄厚、又是免费向全世界提供等等,所以,它才受到了全世界的重视和欢迎,有那么快的发展速度(它筹建于1998年。至今还不到十年!),有全球刮目相看的世界政治、经济、文化、科技乃至军事上的影响力。
2 必须狠抓、急抓全球信息库与信息系统的建设,否则,危险日近!
综上所述,我们说:只有迅速地筹建我们自己的超Google的信息库和信息系统,我们才能不受国外反我力量的控制,牢牢地掌握时代的主动权。
因此,我们认为:抓好信息库乃是今日掌握民族生存权与发展权的关键。当今我国急需一个“库上库”,才能确保我国对信息的利用,才能使我们获得确保无误的民族生存与发展的主动权,才能真正地避免被动挨打局面的再现。
“农民问题”、“经济问题”都非常重要,但哪一个问题比中国的“科教问题”更重要?其他的问题,都是眼前的紧迫问题,但“科教问题”则是关系到民族生死存亡的带长期性的战略问题。中央虽然早已提出了“科教兴国”的正确口号,但很多人都像对待邓小平的“让一部分人先富起来”的口号一样,只叫好,而并不花力气去研究如何正确地落实。于是,看起来热闹,实际上很浮躁。其结果是:居然“以教育为产业”与“学校以学生为中心”等等极端错误的口号,频频出现在红头文件和大众媒体上,造成了一系列的重大失误。什么时候,中国才能走得稳一点呢?科学、科学!教育、教育!不狠抓科教,中国的发展一定是事倍功半!
根据我们的几十年实践,我们以为:要抓好信息库,至少要抓好下述几件具体的工作:
(1)信息的采集。它包括信息的输入和网上搜集。
它要求采集得快与全。我们筹建纳讯网站(http://naxun.sjtu.edu.cn)的实践说明:中国人只要能得到一些支持,我们是可以在这方面与世界任何网站竞争的。因为,我们只用了一台微机,就已几乎能搜遍、搜全全国网上的新闻(有人测试网上新闻搜到的时差是:Google用30分钟,百度用6分钟,纳讯是2分钟,也就是说:我们可以做到很快!);台湾OPENFIND,据说只用了不到100台机器,即可与Google媲美。
(2)信息的建库。建库的成败关键在索引。
中国早就成立了中国索引学会,现在又有了一个《中国索引》刊物,这里集聚了大量的专业人才。如何加强领导,发挥大家的积极性与能动性,狠抓现代技术的学习、研究和实用,将对中国信息库的建设起着重要的作用。建库强调的是智能、快速、准确、节省。
可概括成一个字“好”。就像建设图书馆一样,有了图书,关键就在编目索引。在信息采集到以后,成败的关键就在于能否快速地编制�各种各样的完备而又实用的索引(如按捡索项索引、主题的自动抽取、自动分类、自动文摘等等)以便于快速查找与浏览。由于上海交大纳讯高新技术应用研究所一直在从事这方面的863计划的研究,并早已获得了具有世界公认的领先技术和成果,这也是引发Google的创建人之一,提出与我们今后加强合作的原因。
(3)信息查找。信息的查找不仅指在已建信息库中高效地查找,而且也在于可利用世界上一切查找工具为我查找。
查找不仅强调快而且强调准。目前的Google在“准”上就不尽如人意,我们正在想�各式各样的办法改进它;准不仅在于查得准,而首先在于善解人意,对各式各样的提问要求把握得准。这里,很重要的问题是要突破对自然语言的正确理解问题。因为中文语法太复杂,理解中文提问尤为困难。但是,只要突破中文的研究,对其他文种也就找到了理解的钥匙。我国在这方面也早已有领先并且实用的成果,但若再不重视,它很可能还是要遭到埋没的命运!
(4)信息分发。信息的分发就是要把用户所要的信息以用户喜闻乐见的方式快速、安全地送给用户。
这里有个难题,就是机器翻译。虽然困难,但并不等于在短期内不能提供可实用的产品!关键在于思想是不是对路。为什么大部分小孩去国外花不了几年,就基本上实现了在日常生活与学习中能读、能讲、能写呢?我们使用仿人的方法,已成功地建成部分翻译原型系统,已使我们对解决这一难题,充满了信心。
3 只要认识到并下定决心,我们就一定会建成自己的强大信息库与信息系统
虽然,由于我们的条件所限,我们不能纵观全局,不能全面地分析比较各种信息系统,但是,我们比较认真地分析比较过Google与我们纳讯系统的差别。我们认为:只要认识到并下定了决心,我们就一定会在短时间内,建成强大的并可与全世界任何系统媲美的信息库与信息系统。
纳讯网站只有1-2台微机,而Google不过是用了1万台高性能的微机。现在微机并不贵,�性能的就算一万元一台吧,我们只要筹集一亿人民币就可做到。
关键是人才。为了集聚人才,假设我们能平均提供每人30万元年薪。这点年薪,虽然在美国等国家,并不稀罕(30万元年薪,仅相当于不足4万美元,相当于人均3千元左右美元的月薪,还不如一位电脑方面刚毕业的博士生工资)。但是,对中国国内的知识分子,足够其无后顾之忧与减少其跳转动机。用此高薪,如果我们能在浦东聚集上300位左右的人才,当然,更要挑选好一群志同道合的领军人。我估计:最多5年,就能初步建成自己的实用并可与Google争雄的系统。
每人30万元年薪乘以300人,每年人头费就算一亿元,5年用五亿元,再加上其他费用,粗估,总共10亿元大概也就够了。十亿元,看起来不少,但比起体育奥运金牌来说(《奥运金牌的陷阱》一文中说:我们差不多要用7亿元人民币才可换来一块金牌),我们即使用20亿元人民币,换来一块科技金牌,恐怕这也绝对是值得的。所以,只要认识到并下定决心,我们就一定会建成自己的强大信息库与信息系统。我们将因此而得到了信息金库,在当今的战略性的竞争中,得到了主动。
希望能有更多的志士仁人能与我们产生共鸣!并尽快地采取果断的行动!
希望同行们能在这方面有所作为或响应。
王永成 上海交通大学电子信息工程学院计算机系教授,中国索引学会常务理事。