人类基因组中有数以万计的基因:DNA和RNA的微不足道的扭曲,它们结合在一起,表达了使我们每个人独一无二的所有特征和特性。每个基因都有一个名称和字母数字代码,即所谓的符号,科学家用它来协调研究。但在过去的一年多时间里,大约有27个人类基因被重新命名,这都是因为微软Excel一直把它们的符号误读为日期。
这个问题并不像最初听起来那么意外。Excel是电子表格界的庞然大物,科学家经常使用它来跟踪他们的工作,甚至进行临床试验。但它的默认设置是以更平凡的应用为目的的,所以当用户在电子表格中输入一个基因的字母数字符号时,比如MARCH1,即"膜关联环-CH型手指1 "的缩写,Excel会将其转换为日期:1-Mar(3月1日)。
研究发现,论文中的基因数据有五分之一受到EXCEL错误影响。这是非常令人沮丧的,甚至是危险的,科学家们不得不用手整理恢复被破坏的数据。它也令人惊讶地广泛存在,甚至影响到同行评审的科学工作。2016年的一项研究检查了3597篇发表论文旁共享的基因数据,发现大约五分之一的数据受到了Excel错误影响。
这种错误也没有简单的解决方法。Excel并没有提供关闭这种自动格式化的选项,避免这种情况的唯一方法就是改变各个列的数据类型。即使这样,科学家可能会修正自己的数据,但只要别人不假思索地在Excel中打开同样的电子表格,错误就会重新引入。
不过,帮助已经到来了,那就是负责基因名称标准化的科学机构--HUGO基因命名委员会,即HGNC。本周,HGNC发布了新的基因命名指南,包括针对影响数据处理和检索的符号。从现在开始,人类基因和它们所表达的蛋白质在命名时将考虑Excel的自动格式化。也就是说,符号MARCH1现在变成了MARCHF1,而SEPT1变成了SEPTIN1,以此类推。HGNC将存储旧的符号和名称的记录,以避免今后出现混乱。到目前为止,大约有27个基因的名字在过去的一年里被这样改变,但指导方针本身直到本周才正式公布。