世界华人消化杂志

期刊简介

主要报道和刊登国内外、特别是我国消化病学者具有创造性的、有较高学术水平的基础和临床研究论文、研究快报等. 对具有中国特色的研究论文, 如食管癌、胃癌、肝癌、大肠癌、病毒性肝炎、幽门螺杆菌、中医中药、中西医结合和基于作者自己研究工作为主的综述性论文, 将优先发表. 读者对象为基础研究或临床研究的消化专业工作者。

医院突然要原始数据?别慌,这份“应急求生指南”请妥善收好

时间:2025-09-30 11:08:17

“喂,是XX吗?医院要对你那篇文章的原始数据进行抽查,下周三之前打包发送过来。”

接到这通电话时,我的脑海中瞬间涌现出一堆问号:原始数据?我当年不是已经存放在旧电脑里了吗?SPSS文件还能否正常打开?Excel里那些通过“Ctrl C + Ctrl V”复制粘贴的表格,是否算作原始数据?还有那些纸质记录,是不是也得扫描成电子版一并提交?……

别急,这种情况并非你一人遇到。最近半年,全国大大小小的医院都在开展“回头看”行动,从论文到课题,从伦理批件到原始数据,审查得比春运安检还要细致。群里每天都有人哀嚎:“我导师说,如果数据找不到,就会被视同学术不端,这可怎么办?”“我之前整理数据的时候太随意了,现在根本分不清哪些是原始的,哪些是处理过的,这可如何是好?”

今天这篇文章,就来聊聊当“医院突然索要原始数据”时,我们该如何应对,尽量将混乱的局面整理得井井有条,避免陷入学术困境。

一、先弄清楚:他们究竟想看什么?

很多人一听到“原始数据”就感到头皮发麻,以为需要把做实验那天穿的袜子也交上去。其实,医院或杂志社的要求大同小异,无非是以下几类,了解这些能让我们在准备数据时更有针对性。

能回溯的“裸数据”

并非要求你把病人重新拉回来再抽一次血,而是需要当时录入的第一手数字。比如Excel的原始行数据,它记录了实验或观察过程中最初收集到的未经任何加工的信息;实验室LIS系统导出的PDF文件,包含了检验仪器直接输出的原始报告;病理报告扫描件,保留了病理诊断的最初依据。只要这些数据上的时间戳能对得上实验或观察的实际时间,就能顺利过关。例如,一份血液检验数据,其采集时间、送检时间和报告生成时间都符合逻辑且与实验安排一致,就可以作为有效的原始数据。

能对应上的“流水账”

病例报告表(CRF)、随机化序列、药物编号、温度记录本——这些看似“边角料”的材料,才是稽查老师的最爱。他们像侦探一样,喜欢核对时间线。比如,病人2022年3月入院,你的体温单却显示是2023年打印的,这就会成为一个明显的漏洞。随机化序列能证明实验对象的分组是随机且公平的;药物编号可以追溯药物的来源和使用情况;温度记录本对于一些需要特定温度保存的样本或药物来说至关重要,它能确保实验条件的可控性。

能自圆其说的“统计脚本”

SPSS的.sav文件、R的.Rmd文件、Stata的.do文件,统统打包发送。这些文件记录了数据分析的具体过程和参数设置。别耍小聪明,把p值从0.08手动改成0.03,原始日志文件里一翻就能现形。如果实在找不到代码,就把输出结果截屏,附上一句“由于时间太久,脚本已丢失,但结果可以复现”,也比装死强。同时,最好能对统计方法的选择和结果的解释进行简要说明,让审查人员能够理解数据分析的逻辑。

二、找不到原始数据就等于直接完蛋?

先给你一颗速效救心丸:“数据丢失”并不等同于“学术不端”,但处理方式将决定你是“情节轻微”还是“顶格处罚”。下面通过两个真实案例来具体说明。

真实案例1:积极补救,化险为夷

上海某三甲医院的主治医生,2018年发表了一篇SCI论文,后来硬盘摔坏了,原始Excel文件丢失。他立即做了三件事:
① 撰写声明,并附上硬盘损坏的照片(SMART报错截屏),详细说明硬盘损坏的时间、原因以及之前存储数据的大致情况;
② 重新从医院HIS系统中导出检验记录,并与论文表格一一对应,对于导出的数据,仔细核对每一个数值,确保与论文中的结果一致;
③ 找统计室的同事复现分析过程,并出具新的报告,在复现过程中,详细记录每一步的操作和结果,以便审查人员能够清晰了解。
最终,编辑部只要求他补发了一篇勘误,影响因子依然保留。这个案例说明,只要积极采取补救措施,展示出自己的诚意和努力,就有可能得到宽容的处理。

真实案例2:消极应对,自食恶果

北京某博士,面对稽查时直接摆烂:“时间太久,找不到。”他没有尝试任何补救措施,也没有提供任何相关的说明或证据。
结果:文章被撤稿,学位被学校重新审议,导师被停招2年。这个惨痛的教训告诉我们,在面对数据丢失的问题时,消极逃避只会让事情变得更糟。

区别就在于——你有没有“尽力补救”的态度。学术圈最怕的不是犯错,而是沉默不语。当出现问题时,主动沟通、积极解决,才能最大程度地减少损失。

三、临时抱佛脚,三步“拼凑”数据包

如果你现在电脑里只剩一张“final表”,别急着哭,按照下面的顺序翻找一遍,多少能挽回一些局面。

翻找邮箱

搜索关键词“data”“结果”“revision”,附件里常常藏着“data_20201012_old”这样的宝藏版本。在科研过程中,我们经常会通过邮件与合作者、导师进行沟通,发送和接收各种数据文件。这些邮件附件可能包含了我们之前忽略的原始数据或相关材料。仔细查看每一封与项目相关的邮件,说不定就能找到关键的数据文件。

翻找微信/QQ

课题组群文件、师兄的“最终最终绝对不改版.xlsx”,甚至你发给导师的“汇报PPT”,都可能截取过原始屏幕。在课题组的工作中,大家会通过即时通讯工具分享文件和资料。群文件里可能保存着不同版本的数据表格、实验记录等。而汇报PPT中为了展示数据,可能会包含一些原始数据的截图或简要统计结果。这些都可以作为补充材料来证明数据的真实性和可追溯性。

翻找医院系统

检验科、影像科、病理科大多能重新导出PDF文件,虽然时间戳是新的,但内容对得上就行。记得让科室盖章确认“与原件一致”,稽查老师认章不认人。医院的信息系统通常保存了患者的各种检查和检验记录,这些记录是原始数据的重要来源。与相关科室沟通,说明情况并请求重新导出数据,然后按照要求进行盖章确认,确保数据的合法性和有效性。

实在找不到?写一页“数据不可用说明”

(英文称为Data Availability Statement),老老实实解释:“由于存储设备损坏/搬迁/疫情等原因,原始数据无法完整获取,但已尽力提供可替代的溯源材料。”在说明中,要详细描述数据丢失的具体情况,包括时间、原因、涉及的数据范围等。同时,列出已经提供的可替代材料,如重新导出的医院系统记录、部分保存的邮件附件等。只要态度到位,即使证据部分缺失,也能保住底线。

四、为未来留条后路:三个习惯,下次不再手忙脚乱

为了避免下次再遇到类似的问题时手忙脚乱,我们需要养成以下三个良好的习惯。

“三二一”备份策略

至少保留3份拷贝,使用2种介质(硬盘 + 云存储),1份存放在外地(如导师家/闺蜜电脑)。硬盘可以作为主要的存储介质,但硬盘可能会出现故障,所以还需要将数据备份到云存储中,如百度网盘、腾讯微云等。同时,为了防止本地发生意外情况导致所有数据丢失,可以将一份拷贝存放在外地可靠的地方。这样即使遇到硬盘损坏、云存储服务出现问题或本地发生灾害等情况,也能确保数据的安全。

“带日期的文件名”

别再使用“final”“final2”“final绝对不改”这样的文件名了,改用“20220916_BMI_analysis_doNotDelete.R”这样的格式。在文件名中包含日期、项目名称、文件类型等信息,10年后你都能一眼认出自己的文件。例如,在进行BMI分析时,使用包含分析日期和项目名称的文件名,可以方便地查找和管理文件。同时,在文件名中注明“doNotDelete”可以提醒自己不要随意删除重要文件。

“分析日志”随手记录

每运行一次模型,就新建一个txt文件,复制代码、粘贴结果,并写上两行:“今天把gender从2分类改成3分类,因为发现跨性别选项。”在日志中,还可以记录模型运行的时间、参数设置、遇到的问题及解决方法等。稽查时,这就是你的“航海日志”,比任何辩解都更有说服力。通过详细的分析日志,审查人员可以清晰地了解数据分析的全过程,判断结果的可靠性和科学性。

五、结语:数据并非危险物,心虚才是

坦白说,医院这次“回头看”行动把大家吓得够呛,但换个角度想,这也是给所有人一次“补作业”的机会。只要你不是主观造假,剩下的都是技术问题:硬盘坏了可以修,系统换了可以导出数据,统计不会可以学。

最怕的是,你把“找不到”当作挡箭牌,把沉默当作护身符——那才真把路走死了。在学术研究中,诚信和责任是至关重要的。当遇到问题时,要勇于面对,积极解决,用实际行动证明自己的学术态度和能力。

最后一句话,送给正在屏幕前疯狂翻找电脑的你:
“数据丢了可以补,信任丢了难找回。”在学术道路上,信任是我们最宝贵的财富之一。一旦失去了他人对我们的信任,就很难再重建起来。所以,我们要时刻保持谨慎和负责的态度,妥善保管好原始数据,维护学术的公正和诚信。