您现在的位置: 环境生态网 >> 资讯 >> 环境要闻 >> 环球热点 >> 正文

数百万幅图像迫使科学家寻找储存数据新方法

Eedu.org.cn 作者:宗华    资讯来源:中国科学报    点击数:    更新时间:2016/6/14
  对于生物和物理学界的研究人员来说,“图像过剩”的挑战正日益成为一大负担。

美国宇航局太阳动力学天文台每天会收集1.5兆兆字节关于太阳活动的数据。

图片来源:SDO/NASA

随着果蝇幼虫在视频中向前蠕动,呈裂纹状的神经活动快速传导至其半毫米长的身体。当它向后蠕动时,“波浪”朝另一个方向起伏。这段在YouTube上被观看了10万多次的11秒长视频剪辑,以几乎单个神经元的分辨率展现了该幼虫的中枢神经系统。创建这段视频的试验则产生了几百万张图像和几万亿字节的数据。

美国霍华德·休斯医学研究所珍利亚农场研究园区发育生物学家Philipp Keller领导的团队制作了该视频。对于Keller来说,这类产生大量图像的试验带来了巨大挑战。“过去5年里,我们光在用于数据处理的计算方法上便花费了约40%的时间。”问题并不在于储存图像——数据存储的花费并不高,而在于组织和处理图像,以便其他科学家能理解它们并且获得想要的东西。

对于生物和物理学界的研究人员来说,“图像过剩”的挑战正日益成为一大负担。Keller和两个其他领域——天文学和结构生物学——的科学家向《自然》杂志解释了他们正如何解决这个问题。

为太阳成像

在新墨西哥州拉斯克鲁塞斯市上空地球同步轨道的某个地方,太阳动力学天文台(SDO)追踪着天空中的一个八字结。该卫星对太阳进行着持续观察,并利用3台仪器记录它的每一次“打嗝”。这些仪器通过10个滤镜对太阳进行成像,记录其紫外线输出量并追踪它的地震活动。随后,这些数据被传送到下方的地面卫星接收站。美国宇航局(NASA)的承包商——ADNET系统的太阳科学家Jack Ireland介绍说,SDO每天产生“约1.5万亿字节的图像数据”。根据NASA的说法,这一数据量相当于音乐软件iTunes上约50万首歌曲。

Ireland表示,为帮助研究人员驾驭这些图像,ADNET团队和欧空局一起开发了用于浏览SDO图像的网站Helioviewer以及可下载的应用程序。利用这些工具的研究人员和天文学爱好者看到的并非初始数据,而是其较低分辨率的图像。

每张原始SDO科学图像是4096像素×4096像素的正方形,大小约有12兆。它们每隔12秒被拍摄下来,迄今已收集了数千万幅图像。

用户可跳转到自SDO于2010年启动以来的任何特定时间,选择滤色镜并获取到数据。随后,他们可放大图像,浏览、裁切,并将其串在一起形成影片,从而使太阳动力学可视化。Ireland介绍说,用户每天平均创建约1000个影片,而且自2011年起,至少有7万个影片被上传到YouTube。

一旦他们选择了某张图像或某个被裁剪的区域,比如围绕特定太阳耀斑的区域,用户仍能下载初始的高分辨率图像。如果需要,他们还能下载较小的1兆图像的完整档案。

更快速的文件格式

对于Keller在珍利亚农场研究园区的发育生物学团队来说,将他们的数据发布到网上供外部人员获取并不存在此类问题。如果其他人想要数据,该团队可利用专门的文件传输工具,或者简单地通过运送硬盘,实现图像共享。不过,该团队首先必须管理并分类以每秒10亿字节从实验室显微镜下流出的图像。“这是一项巨大的挑战。”Keller说。

Keller实验室利用显微镜向诸如果蝇、斑马鱼、小鼠等小型生物体的大脑和胚胎内发射光。这些生物体经过了基因改造,因此它们的细胞能发出荧光作为回应,从而使该团队得以数小时对3D下的每个细胞进行成像和追踪。为储存这些数据,实验室在可提供约1拍字节存储量的文件服务器上花费了约14万美元。

这些服务器上数百万张图像的高度结构化组织,让团队成员保持着理智。每台显微镜都在自己的目录内储存着相应的数据;文件按照树状结构排列,而该结构描述着一项既定试验完成的数据、哪种模式生物被利用及其发育阶段、用于可视化细胞的荧光标记蛋白等信息。Keller介绍说,实验室构建的数据处理管道便按照上述结构行事。

然而,目录并未包括大多数显微镜学家所熟悉的JPEG图像文件。JPEG格式会压缩图像文件的大小,使其更容易处理和传送,但在读取并将这些数据写入磁盘方面要相对缓慢,并且对3D数据来说效率太低。Keller的显微镜在收集图像方面是如此的迅速,以至于他需要一种能像JPEG那样进行高效压缩但被读写时要快很多的文件格式。由于该实验室通常研究的是单独的数据子集,因此Keller需要一种简单的方法提取特定空间位置或时间点。

Keller及其团队开发了凯勒实验室数据块(KLB)文件格式。它将图像数据切割成可被多个计算机处理器同时压缩的组块。这使文件读取速度快了3倍,因此KLB在压缩文件大小方面表现得和JPEG格式一样好。

共享原始数据

拍摄照片以判定分子结构的生物学家还产生了海量的图像数据。一项日趋流行因此也产生了更多数据的技术是冷冻电镜技术(cryoEM)。

CryoEM用户向快速冻结的蛋白质溶液发射电子束,收集上千幅图像,并将它们结合起来以接近原子水平的分辨率重建蛋白的3D模型。大多数这样的重建小于10千兆字节,而研究人员可将它们存放在电子显微镜数据银行(EMDB)中。不过,如此存放用于创建它们的原始数据却行不通,因为后者比得到的模型要大两个数量级左右。在英国剑桥附近的欧洲生物信息研究所(EBI)领导EMDB欧洲蛋白质数据库(PDBe)项目的Ardan Patwardhan表示,成立EMDB并不是为了处理这些数据。再现性因此遭殃:在无法获取到原始数据的情况下,研究人员既不能验证其他试验的有效性,也无法开发新的分析工具。

2014年10月,PDBe启动一项试点方案:同样由Patwardhan主导、被称为冷冻电镜试验性图像档案(EMPIAR)的原始cryoEM数据资料库。目前,EMPIAR包括49个条目,其中每个条目的大小平均有700千兆字节,最大的超过12太字节,同时整个系列约有34太字节。总体上,用户每个月下载约15太字节。

下载如此大量的数据带来了自身的问题:用于在电脑间传输文件的标准协议FTP不得不应对大规模数据集;连接损耗变得很常见,而下载速度会在长距离内大幅放慢。EBI为EMPIAR用户支付了获取两项高速文件传输服务——Aspera和Globus在线的费用。Patwardhan介绍说,两项服务均以“每24小时若干兆兆字节”的速度传输数据。同样利用这些服务传输大规模基因组学数据集的EBI为这项业务的另一面付出了代价。EBI提供Aspera服务的开支每年高达好几万美元。

不过,EMPIAR原始数据已证实了它的价值。弗吉尼亚大学结构生物学家Edward Egelman与别人合作发表了一种被称为MAVS的蛋白结构。MAVS是一种聚合性的丝状结构蛋白,而最新发表的成果与此前的另一种模型存在分歧。Egelman通过下载并且重新处理原始数据集,证实此前的结构是错误的。EMPIAR的资助将在2017年用完,但Patwardhan表示,cryoEM研究人员告诉他,他们已将EMPIAR视为一种必需,并且想把“试验性”字眼从档案的名字中去掉。“他们觉得,这应当被视为生物学界的一份重要档案。听上去还不错。”Patwardhan说


  • 上一篇资讯:
  •  
  • 下一篇资讯:
  • 责任编辑:ahaoxie

    >> 相关资讯:


    没有相关资讯
      网友评论:(只显示最新10条。评论内容只代表网友观点,与本站立场无关!)
    您的评论
    姓 名: * Oicq:
    性 别: Msn:
    E-mail: Icq:
    主 页:
    评 分: 1分 2分 3分 4分 5分
    评论内容:
      验证码: *
  • 请遵守《互联网电子公告服务管理规定》及中华人民共和国其他各项有关法律法规。
  • 严禁发表危害国家安全、损害国家利益、破坏民族团结、破坏国家宗教政策、破坏社会稳定、侮辱、诽谤、教唆、淫秽等内容的评论 。
  • 用户需对自己在使用本站服务过程中的行为承担法律责任(直接或间接导致的)。
  • 本站管理员有权保留或删除评论内容。
  • 评论内容只代表网友个人观点,与本网站立场无关。
  • 内容搜索

    绿色生活


    | 设为首页 | 加入收藏 | 关于我们 | 广告服务 | 联系站长 | 友情链接 | 版权申明 | 管理登录 |