天桥脑科学研究院资助的首个中文脑电图数据集研究项目登上《自然》子刊

(图片来源:unsplash)

  钛媒体 App 6 月 7 日消息,南方科技大学刘泉影教授、澳门大学伍海燕教授联合课题组日前在英国自然子刊《Scientific Data》上发表了一项突破性研究成果——首个专门针对中文语言的脑电图数据集“ChineseEEG”。

  研究团队表示,ChineseEEG 数据集不仅对神经科学、语言学及相关领域有着深远的意义,还将在脑机接口、语义解码等领域带来广泛的应用前景。例如,可以利用基于脑信号的文字转换技术,帮助残障人士通过大脑活动直接控制计算机或其他设备,为他们提供更便捷的交流和生活方式。

  这项研究是天桥脑科学研究院(TianQiao & Chrissy Chen Institute, TCCI)资助的首个中文脑电图数据集研究项目,同时也是 TCCI 发起的 MindD 数据支持计划的第一个资助项目,并且还是《Nature》子刊上首个用于语义对齐和神经解码的中文语言的脑电图数据集。

  实际上,语言是人类交流的核心,无论是使用母语还是学习新语言,大脑都能迅速理解和表达。这种能力源于大脑对语言的复杂处理机制。当接收语言信息时,大脑会启动一系列神经活动来解析这些数据。通过研究这些神经活动,科学家们可以揭示大脑如何处理和理解语言。

  近年来,脑电图(EEG)、功能磁共振成像(fMRI)和皮层脑电图(ECoG)等技术在研究大脑语言处理机制方面发挥了关键作用。然而,大量神经信号数据的获取依然困难,尤其是针对中文的脑电图数据集相对稀缺。不同语言的结构差异意味着大脑处理这些语言的方式也不尽相同,因此创建基于非英语刺激的脑电图数据集显得尤为重要。

  为了填补这一空白,刘泉影教授和伍海燕教授的研究团队通过使用两部经典中文小说《小王子》和《狼王梦》作为实验材料。这些文本不仅包含了丰富的常用汉字和表达方式,而且为实验提供了多样化的语言刺激。每位参与者默读了长达 12 小时的中文文本。期间,研究团队记录了他们的脑电图等数据。实验包括了一个练习阅读阶段和两个正式的阅读阶段,每个阶段均由数个实验运行组成。

  实验设备和相关数据模态

  ChineseEEG 数据集的优势在于,除了提供多种预处理后的脑电图传感器级数据外,还提供了由 BERT-base-chinese 模型生成的中文文本嵌入,为研究自然语言处理模型中的文本表示与大脑神经活动之间的关系提供了新的视角。研究人员可以利用这些数据集深入分析大脑如何处理中文,推动跨语言神经科学研究的发展。

  那么,ChineseEEG 可以具体用来做什么呢?

  • 首先,由于参与者接受了长达 12 小时的中文语言刺激,涵盖了丰富的词汇和语义,这对于研究大脑长期处理语言的变化十分有益;
  • 其次,利用 128 个通道的高密度脑电图数据和每秒 1000 次的采样率,研究人员能够精确追踪大脑在阅读中文时的微妙变化;
  • 最后,更为重要的是,研究者提供了经过处理的脑电图数据和文本嵌入,使得不具备神经科学或计算机科学背景的人也能够直接使用这些数据进行研究。

  举例来说,这些数据可用于:1、脑电图的时频分析,帮助提取神经振荡的不同频段;2、脑电图源重建,揭示大脑活动的源头;3、文本嵌入,利用预先训练好的技术计算小说的嵌入,探索脑电图与文本之间的关系;4、数据对齐,帮助研究者更好地理解他们收集到的数据,将脑电图数据与文本内容和眼动追踪数据对齐。

  伍海燕教授表示:“海量脑科学数据的采集、管理和分析是公认的难题,这也极大地制约了以大模型为代表的新一代 AI 在相关领域的应用。天桥脑科学研究院推出的 MindD 数据支持计划及时满足了科学家和临床医生群体的需求。”

  MindD 数据支持计划面向中国神经科学家、认知科学家、心理学家,以及神经和精神疾病医生开放,在安全合规的前提下,资助人类大脑及相关全身和行为数据的采集、分析和训练。该计划首期计划提供 1 亿元经费资助,同时免费提供存储服务器、算力等基础设施,创新数据采集技术,以及 AI 和数据专业人才资源。天桥脑科学研究院与澳门大学伍海燕、南方科技大学刘泉影联合课题组达成的资助正是该计划的首批项目之一。

  天桥脑科学研究院(TCCI)是由陈天桥、雒芊芊夫妇出资 10 亿美元创建的全球最大私人脑科学研究机构之一,主要推动三大领域的关键性大脑研究:大脑的探知,大脑相关疾病治疗以及大脑功能的开发。TCCI 与华山医院、上海市精神卫生中心设立了应用神经技术前沿实验室、人工智能与精神健康前沿实验室;与加州理工学院合作成立了 TCCI 加州理工神经科学研究院。TCCI 建成了支持脑科学研究的生态系统,项目遍布欧美、亚洲和大洋洲,包括学术会议和交流、夏校培训、AI 加速科学大奖、科研型临床医生奖励计划、特殊病例社区、中文媒体追问等。

  展望未来,团队表示,随着技术的进一步成熟和数据集的不断丰富,预计将有更多创新研究成果涌现,深化人类对大脑如何处理语言和其他复杂任务的理解。MindD 计划也将继续帮助相关研究领域突破数据瓶颈,为“AI+ 脑科学”的发展奠定良好基础,同时吸引更多国际合作和跨学科研究,加速 AI 技术在医疗和健康领域的实际应用。

  (本文首发于钛媒体 App,作者|林志佳,编辑|胡润峰)