譬如,在实际工作中,Watson 合作医院的医生们真的会主动用它来处理病患信息吗?医生输入数据过程中是否会遇到各种问题?给出的诊断结果是否会参考不同国别、人种的差异? 作为加州大学洛杉矶分校的计算机视觉博士,VoxelCloud 的创始人丁晓伟并没有否认研发与应用之间横亘着巨大的鸿沟。那些在实验室中熠熠闪光,让人十分兴奋的技术与样品,其实很容易「见光死」。 这也是他为何通常在产品研发过程中,选择与医生们一待就是 6 个月的原因: 「我虽然学的是计算机视觉这一学科,但是我家人都是医生,我基本从小就长在中国的医院里。哪个科室做什么,到底怎样运转,我都见过。我觉得,做医疗产品必须走到医院里,去观察医生的每一步到底是怎么做的。 譬如我们在研发无创肺癌筛查诊断系统的时候,就跟医生长时间一起工作,大概要相处半年吧,天天在一起讨论。这不是说我们一定要掌握哪一种病症,而是要去了解这个病的知识难点,看看医生处理的时候会有哪些问题。然后我们再独立去分析一个病种的时候,再去考虑怎么与深度学习技术融合。 另外在临床实验过程中,对某一项任务的安全编制,医生的需求是什么,这里面的容错空间有多大,做成什么样子是最能为他们解决问题的,这些都是非常细节的问题。 你不走进医院,你绝对不知道有哪些很棘手的问题。
但是,即便与医院进行长时间无缝隙合作,也不能保证机器给出的治疗方案给出的一定是精准的,或者是被医生认同的解决方案。这就像欧洲一些曾对 Watson 系统多有抱怨的医生透露,Watson 给出的建议带有针对美国患者与美国医院治疗方案的倾向。 对于这个疑问,丁晓伟首先提出了一个大部分人对人工智能医疗应用的理解误区:机器诊断报告一定需要与某个医生的主观印象高度匹配。 他认为,与医生主观印象做比对是一种错误的认知,机器诊断结果,应该在有条件的情况下,去对比该疾病的金标准检查结果(Gold Standard)。 「早期疾病的筛查在绝大多数状况下,不确定性是不可避免的。而且医生也知道,在初步筛查结果下得到的只是初步意见,不能作为金标准来下定论。我们能够保证的,是基于数据信息量,让病症在某一阶段的诊断准确率无限接近金标准。 当然,如果出现某一特殊病症没有现有的金标准可以参考,也同时为了保证诊断结果的客观性,我们会请权威医疗专家,把他们分成 4~5 组,分别独立去做一批数据诊断,对数据做质控标记。 这就相当于,把我们的系统作为第 6 组医生,它与每一组医生的差异率要维持在这几组医生之间差异率之内。
实际上,一些市场中现有计算机辅助诊断系统出现的问题,在某种程度上也被丁晓伟认为是 AI 医疗产品之间存在的目标性差异。 譬如,有些公司可能只做图像诊断,给出一个辅助性的诊断结果,而有些产品是既给出诊断结果,也会改进医生的工作流程,把医生写报告、做随访的时间也给一同安排了。「大概我们的产品在人性化方面会要求的更高一些」,丁晓伟说得比较委婉。 「你看市面上的大部分的诊断应用,可能都是机械地去做特定疾病检测与判断。这起到的是查缺补漏的作用,因为我们显然不可能完全相信算法。 但我想让自己的系统多一点特性,就是能给予医生一种信任感,让人不会觉得那么生硬。你看,就像完成一个机械动作,人与机器都能完成,但是过程与感觉是不一样的。 作为医生,除了给出一个诊断,他还具备『处理不确定性的能力』。他知道哪些是不确定的,会去找上级医生寻求帮助,会去寻求更进一步的但代价更大的医学检查。 举个例子,某一种病的治疗方案如果没有特别有说服力的信息量,医生的选择总是通过各种各样的方式去验证,譬如不断地去随访,或者寻求外部援助。而这些机制机器都是通通忽略的,妄图在一次检查中给出最好的答案。」 (责任编辑:admin) |