超算下凡

  • 来源:计算机世界
  • 关键字:超算,下凡
  • 发布时间:2010-05-12 17:04
  去年6月,科技部正式批复同意建立国家超级计算深圳中心,由国家投资2亿元,于2010年底在深圳建成计算能力达千万亿次的超级计算机。几乎在相同时间,天津滨海新区与国防科技大学签署合作协议,由科技部、天津滨海新区、国防科技大学共同投资6亿元,在滨海新区共建国家超级计算天津中心,研制千万亿次超级计算机。

  日前,有消息显示,北京将建立更大规模的万万亿次超级计算中心,相关事宜也在筹备之中。除此之外,广州、沈阳、成都、长沙、武汉等城市几乎都在新建或者扩容超级计算中心,目标均在千万亿甚至万万亿次的水平。

  仿佛一夜之间,超级计算中心在全国遍地开花。我们到底有没有如此大的计算需求?《计算机世界》记者走访了上海、成都、甘肃等地具有代表性的超算中心,它们有的已经成功运营,有的尚在建设中。而这些超算中心都面临着相同的问题——如何走下神坛,走入平凡。

  贴钱找用户

  上世纪90年代,人们对高性能计算有了一定的认识。上海市气象局发现,现有的计算能力已经无法满足日常的计算需求,于是,他们准备新采购一台“大机器”。当计划上报给政府采购部门后,上海市政府考虑到购买一台“大机器”的费用太过昂贵,而气象局的使用频率却并不高,长时间闲置会造成资源的极大浪费。如果这种高级计算机能够作为公共设备提供给更多用户,便能发挥更多的效益。因此当时就提出用“大机器”成立一个公共服务平台,由此产生了超级计算机中心的理念。“我们在1999年开始组建,座落于浦东张江高科技开发园区内的上海超级计算中心在2001年初正式面向社会运行。”上海超级计算中心主任奚自立介绍。

  奚自立是服务于超级计算中心的第一批人,他在这个行业已经超过十年了。每当谈到上海超算中心在运营初期拓展用户的难度,奚自立都唏嘘不已。“当时政府投了重金运营这个超级计算中心,如果用不起来就等于失败,就意味着大量资本的浪费,因为硬件设备摆在那里已经收不回来了。”奚自立说。前期最困难的过程,就是必须自己去找到用户。“开始的时候,我每个星期要拜访3~5家用户,了解他们的背景、运营和需求,希望吸引他们到中心来。”奚自立举说,有时候甚至贴钱给用户来用机器。

  一开始,上海超算中心选定了商用飞机公司作为工业用户,但那时恰逢商用飞机公司不太景气。在上世纪90年代中期,商用飞机公司也够买过IBM4381大机器,但因为公司资金有限、项目也不多,这些机器就摆着没有发挥作用。虽然他们很想搬进中心,但既没有钱支付计时费,也没有多少项目。了解到这些情况后,奚自立向对方表示,愿意支付20万元作为其搬进中心的补助,这才做成了这笔生意。

  除了用户少,机器本身的能力也是制约当时上海超算中心发展的一个主要原因。因为第一批在上海超算中心服役的大型机器都是神威系列超级计算机,由于机器的兼容性问题,限制了很多潜在应用领域和用户范围。直到2004年,上海超算中心迎来了开放架构的曙光4000A,曙光系列机器的架构、软件、操作系统都是开放且标准化的,这就意味着系统可以和国际上一些通用软件更好地兼容。兼容性问题解决了,2004年起,上海超算中心的用户得到了空前的发展。去年,上海超算中心又引进了曙光5000A系列超级计算机,计算规模达230万亿次。如今,上海超算中心的用户遍已经遍及各个行业。

  目前,上海超算中心是国内运营最成功的公共计算平台之一。令人遗憾的是,国家曾经投资的数十家超算中心,现在已经所剩无几。除了上海超算和少数几家超算中心存活外,有些甚至接近倒闭。

  需求从哪儿来

  “只有用起来,才能真正发挥作用,体现公共计算平台的价值,这也是政府投资建立超算中心的初衷。”奚自立这样对《计算机世界》记者说。

  如今,许多正在建设的超算中心都已经明白这个道理。虽然千万亿次规模的天津超算中心还没有正式投入使用,但中心的领导早已奔走于用户之间。

  天津超算中心把目标锁定在了对超级计算有强烈需求的“气象”、“石油”、“医药”、“建筑”等领域。为此,国家超级计算天津中心主任刘光明先后调研了天津气象局、中国建筑科学院建筑工程软件所、天津国际生物医药联合研究院、中海油,以及胜利油田物探研究院。他发现,这些“超算大户”和过去相比已经大大不同。当初没有钱、没有人的公司,现在不仅不缺人才,有的甚至还建了自己的计算中心,他们对于公共超级计算平台还会产生强烈的需求么?

  “需求还是很大的。”就像奚自立所说,小规模的作业处理可以在自己的计算中心完成,大型计算和要用到大型商业软件的项目,就必须到大型公共计算平台上才能运行了,因为只有超级计算中心才有巨大的计算能力以及应用软件实力。

  记者在调查中发现,超算中心的用户80%以上都是科研机构和大学,而另20%用于工业生产。

  南京物探局就是上海超算中心的典型工业型用户。实际上,南京物探局也有自己的计算中心,但是他们时常会有更大规模的计算需求。有一年,南京物探局要参与一个国际竞标,必须在一周内把他们的成果上交给对方,其计算中心的规模远远不够完成这样规模的运算,于是他们就找到了上海超算中心。奚自立亲自去游说其他用户,用节省下来的1000个CPU释放给南京物探局的项目,使他们及时拿到了结果去投标。“如果没有这样的大型公共计算平台,企业们会错过很多这样的大型国际项目。”奚自立说。

  因此,企业对超级计算的需求是非常大的。甘肃超算中心虽然比上海超算中心的规模小很多,但是他们的用户价值得到了很好的体现。

  据甘肃省超算中心主任胡铁军介绍,甘肃超算中心在建设过程中,采取了一边建设一边使用的策略。“虽然我们中心不大,但是很注重科技的前瞻性,在2004年扩容的时候就准备打造成以高性能计算为突破口,以IPv6下一代互联网以及数据交换中心为辅助的网络应用研究平台,并分年度完成建设。”

  如今,甘肃超算中心已经拥有41万亿次的机群,21套商业软件、13套共享源代码软件,也拥有了包括兰州大学、兰州理工大学、兰州交通大学等高校,甘肃省气象局、中科院寒区旱区研究所等政府部门和科研院所,以及企事业单位在内的广泛用户群。在这些用户中,最有针对性、最能体现中心现阶段重点支持方向的,是与兰州大学合作的药物大规模虚拟筛选研究项目。

  新药开发是一项耗时长、投资高的科研工作。传统的新药研发过程费用昂贵、时间冗长、淘汰率高,平均一个新药的研发需要花费10亿多美元,耗时10年左右,还有约90%的候选药物在临床期间被淘汰。在药物虚拟筛选阶段,要对上百万甚至上亿的分子进行模拟,传统的试验方法不仅工作量巨大,而且消耗时间长。“而超级计算机就显现出了无可比拟的优势。”据胡铁军介绍,超级计算机的试验模拟用时很短,只需几周时间就可以淘汰掉大量不符合要求的化合物,筛选范围也要比传统试验大得多,实验结果也更加精确,能够大幅度提升新药研发效率,大大节省研发资金。

  但是,虽然上海超算中心的奚自立、甘肃超算中心的胡铁军都表示,他们目前的应用已达到资源的70%~80%,从某种意义上开说,基本上已经满负荷。但仍然有业内人士质疑,在全国那么多城市建设那么多千万亿次、甚至万万亿次规模的超算中心,都能够派上用场吗?

  软件应用环节弱

  目前,超算中心的应用规模远远低于硬件规模。因此很多业内人士认为,“如果应用跟不上,造再大的机器也没有作为”。

  “如果没有超前的硬件资源,肯定造不出更高的应用软件。”奚自立却不赞同这种观点。他认为,很难界定所有城市建设超级计算中心的初衷和能力,也不排除有些地方政府跟风、搞形象工程心理,“但是公共计算平台确实比较超前。在超级计算领域,需要硬件牵引整个产业的发展。”奚自立这样解释。

  他认为,只有硬件先发展了,这些应用软件才能跟得上。如果现在的超级计算平台能够达到百万亿次的规模,才有可能运行百万亿次的软件。“所以超级计算机是肯定需要的,但是不能超前得太多,那样就会造成浪费。”

  即将打造千万亿次超级计算机“天河一号”的国防科技大学教授窦文华也认为,人类对于高性能计算机的需求是没有止境的,每一个台阶都需要从基础理论到实践技术以及应用技术的重大创新和跨越。

  首先,公共计算平台对推动高新技术产业的发展具有深远的意义。高新技术产业发展的制高点在于高新技术产品的研发能力,在新材料设计、生物工程、新医药以及环保与资源综合利用等方面,高性能计算可以发挥巨大作用。其次,公共计算平台作为现代服务业的创新载体之一,必将为企业自主创新的发展推波助澜。“互联网、电信网、广电网融合是一种必然趋势,而3G是三网融合的重要切入点。网络的融合和发展,将有力促进新计算模式、新服务模式的形成和发展。”窦文华说。

  但是,在众多在建和已建成的中小规模区域型公共计算平台,以及各地政府大张旗鼓筹建的千万亿次超算中心里,除了上海超算中心实力稍强,很多省市的公共计算平台在基础设施建设、配套服务、运行机制上都没有得到系统的发展。简单地说,就是应用环节还相当的弱。

  “其实有时候,国内的超算中心很悲惨。”奚自立对记者说。虽然上海超算中心的计算规模是两百万亿次,但是平时每天只能达到两万亿次、10万亿次的使用规模就很不错了,最多的时候也不过50万亿次。

  为什么会这样呢?“因为我国超算领域的软件水平还很差,系统的应用规模上不去。”奚自立说。

  例如美国材料分析领域的超前性比我国高10倍甚至百倍,其超算中心的作业规模也非常大,基本都是5~10万个CPU同时运行,而我国每天最多只有几百或上千个CPU同时运行。“并非我们硬件比人家差几百倍,而是我们在高性能计算的软件方面非常落后,我们的并行计算能力还很差。”成都云计算中心主任王建波无奈的表示。因此,即使建设了规模巨大的硬件计算平台,如果没有很强的软件程序支持,“这群机器也无异于一堆废铜烂铁。”

  在这种情况下,我国的超算中心只能购买发达国家的商业软件,有些专用软件的价格非常昂贵,甚至比建一个硬件平台还要贵,一般的超算中心根本承担不起。还有一些高科技产品,由于国外出口限制的政策,即使有钱也买不到。

  据相关人士介绍,近十年来我国在软件上虽然投入了大量资金,但收效却并不大。除了气象、石油等几大支柱行业有一定的软件研发能力,大型的、商业化的软件依然少之又少。

  究其原因,因为超算中心是一个跨学科的交集,所涉及的行业广泛,它的“婆婆”也就不只一个,软件和硬件的资金也不是同一个部委分管,这就造成研发软件的人不懂硬件架构,研发硬件的人也不知道大型软件的特性,“这是一个最致命的问题。”奚自立说。

  但是,在“核高基”等国家重大科技专项出台后,为了把“核心电子器件、高端通用芯片及基础软件产品”做强做大,国家任命了相应的机构来协调各部委的工作。“这对中国公共计算平台的发展是一件大好事,我们希望工业与信息化的融合越来越深入。”王建波表示。

  评论:

  超算中心需要更好的规划

  超算中心是一个具有学科交叉性质的综合平台,它的发展可以带动服务器、软件、芯片、机械制造等相关产业的共同进步。同时,超算中心的最终成果也要通过各行各业的进步来呈现:第一次用超级计算机寻找油田,第一次用超级计算机预报天气,第一次用超级计算机分析基因……超级计算影响着各行各业的发展,它已经成为国家在科技领域的核心竞争力。

  虽然我们欣喜地看到各地都在酝酿更大型的超算中心,但在某种程度上,政府应该对各地的行为进行指导,并在规模和地域上有所规划。超算中心不同于中小企业建设那样越多越好、百花齐放,它是一个巨大的工程,耗钱、耗时、耗力。据介绍,上海超算中心一年的电费就达到1200万元。因此,政府应该在电力、人力、政策等各方面辅助超算中心的运营。

  此外,除了在高端应用软件领域的水平极为落后,我国公共计算平台还存在着许多问题。

  首先,地域分布不均匀。这种资源分布的不均匀造成了两难的局面——有需求的用户难以获得资源,宝贵的资源面临闲置和浪费。

  其次,建设缺乏统一规划和功能定位,各个超算中心隶属于不同的部门,相关经济发达区域重复投资建设严重,部分公共计算平台服务功能定位模糊,缺乏特定的优势学科领域。

  第三,没有承担起交叉学科领域研究服务的职能。

  第四,没有完善中国高性能计算的产业链。公共计算平台直接服务于终端用户,能够具体了解用户需求、应用特征以及技术的发展趋势。公共计算平台也是高性能计算软硬件厂商的主要用户,公共计算平台作为整个产业的关键环节,必须维持整个产业生态系统的协同发展。

  不过,这些问题都不是超算中心自己能解决的,其掌握权在政府手中。例如,国家可以有规划地调控超算中心的建设地点,让未来的超算中心形成一个覆盖面广的网络,能够辐射到全国的用户;另外,超算中心虽然有先天的“实际操作优势”,但是没有“育人”的资格,在这方面,国家应出台相关政策,使得超算中心能够培养大量的行业人才。

  总之,公共计算平台既能体现我国的计算能力,也相当于一个以高性能为核心的产业链条,它的进步理应得到相关机构的高度重视。(文/刘丽丽)
……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: