您的位置:首页 > 新闻 > 热点要闻 > 【Colab代码调试】End-to-end reproducible AI pipelines in radiology using the cloud

【Colab代码调试】End-to-end reproducible AI pipelines in radiology using the cloud

2024/12/24 3:11:06 来源:https://blog.csdn.net/verse_armour/article/details/142172844  浏览:    关键词:【Colab代码调试】End-to-end reproducible AI pipelines in radiology using the cloud

文章目录

    • 报错MessageError: Error: credential propagation was unsuccessful
      • 解决办法
      • 原理
    • 找不到GPU
      • 解决办法
    • 关于文件结构
      • RTSTRUCT是什么
      • nrrd是什么格式
    • !gcloud config set project $GCP_PROJECT_ID
    • 报错Access Denied: User does not have bigquery.jobs.create permission
      • 解决办法
      • BigQuery访问公开数据集的原理
      • 数据集展示
    • Use SimpleITK to inspect the resampled volumes

第一在Colab上运行代码: https://colab.research.google.com/github/ImagingDataCommons/idc-radiomics-reproducibility/blob/main/notebooks/hosny_processing_example.ipynb#scrollTo=1ZXwYFoEuRM6

报错MessageError: Error: credential propagation was unsuccessful

解决办法

from google.colab import auth
auth.authenticate_user()

报错:MessageError: Error: credential propagation was unsuccessful
解决办法:将google Colaboratory Runtimes可以访问的权限都勾选上,再运行就不会报错了
参考链接:https://github.com/googlecolab/colabtools/issues/4343
在这里插入图片描述
翻译:我在尝试只允许我认为可能需要的权限时遇到了同样的问题。一旦我点击了启用全部选项,它就起作用了。

原理

from google.colab import auth
auth.authenticate_user()

这段代码是用于在 Google Colaboratory(Colab)环境中进行用户身份验证的。Colab 是一个免费的 Jupyter 笔记本环境,由 Google 提供,允许用户编写和执行代码,同时利用 Google Cloud Platform 的计算资源。
from google.colab import auth:这行代码从 Colab 的库中导入了 auth 模块。auth 模块包含了用于处理身份验证和授权的功能。
auth.authenticate_user():这行代码调用 auth 模块中的 authenticate_user() 函数。这个函数会启动一个身份验证流程,通常是通过弹出一个窗口来提示用户登录其 Google 账户。用户需要在这个弹出的窗口中输入他们的 Google 账户凭据。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

当用户成功登录后,Colab 笔记本将获得授权,可以访问那些需要用户权限的 Google 服务,比如 Google Drive。这样,用户就可以直接从 Colab 笔记本中读写 Google Drive 上的文件。

在执行需要访问用户个人数据或服务的代码之前,通常需要先执行这段身份验证代码。例如,如果你的 Colab 笔记本需要从用户的 Google Drive 中读取数据文件,或者需要将结果保存到用户的 Drive 上,那么在进行这些操作之前,你需要确保已经通过 auth.authenticate_user() 进行了身份验证。

找不到GPU

# check wether the use of a GPU was correctly enabled
gpu_list = !nvidia-smi --list-gpushas_gpu = False if "not found" in gpu_list[0] else True

print(has_gpu)返回false

解决办法

在这里插入图片描述

没有配置硬件加速器为GPU当然找不到GPU啦~

在这里插入图片描述

关于文件结构

在这里插入图片描述

  • the download folder will store the .dcm files cross-loaded from the buckets, without a defined structure.
  • The sorted folder, on the contrary, stores the output of the sorting process through dicomsort (details on dicomsort follow later in the notebook).
  • The processed folder stores the result of the different processing and pre-processing steps, such as conversion from DICOM to NRRD and resampling
  • the model_input and cropped_masks folder store, respectively, the subvolumes the pipeline uses for predicting survival and the corresponding segmentation mask (exported mainly for visualization purposes)

在这里插入图片描述

RTSTRUCT是什么

RTSTRUCT:在医学影像领域,RTSTRUCT 是一种特殊的 DICOM (Digital Imaging and Communications in Medicine) 文件格式,用于存储放射治疗的结构集信息。

RTSTRUC一般包含:

  • 轮廓数据:医生或放射治疗师在影像上绘制的轮廓,用于定义肿瘤(GTV - 肿瘤体积)、临床目标体积(CTV - 临床目标体积)、计划目标体积(PTV - 计划目标体积)以及需要保护的正常组织和器官。
  • 剂量体积直方图:与结构集相关的剂量分布信息,用于评估治疗计划的质量。
  • 其他放射治疗相关信息:可能包括治疗计划的详细信息,如射束方向、能量、剂量等。

RTSTRUCT 文件使得放射治疗团队能够可视化和量化治疗区域,确保治疗的精确性,同时最大限度地减少对周围正常组织的损伤。这些文件通常与 RTDOSE(用于存储剂量分布的 DICOM 文件)一起使用,以实现放射治疗计划的优化。

nrrd是什么格式

NRRD(Nearly Raw Raster Data)是一种用于存储三维多维影像数据的文件格式,它被广泛用于医学成像和科学可视化领域。NRRD格式由美国芝加哥大学(The University of Chicago)开发,特别适用于存储体数据(volume data),例如医学成像中的CT(计算机断层扫描)MRI(磁共振成像)数据

医学影像文件格式Value
NIfTI (.nii)神经影像学研究,功能磁共振成像(fMRI)、结构磁共振成像(sMRI)和正电子发射断层扫描(PET)。包含一个头文件(.nii)和一个数据文件(.img),头文件描述了数据的元数据,而数据文件包含了实际的图像数据。
NRRD (.nrrd)适用于各种类型的三维或多维图像数据,NRRD 文件包含一个文本头文件,描述了数据的维度、数据类型和元数据,后跟实际的图像数据。
DICOM (.dcm)医学影像的国际标准,广泛用于临床环境,包括放射科、核医学和心脏病学等,DICOM 文件包含图像数据和大量的元数据,如患者信息、扫描参数、设备信息等。

总结:

  • NIfTI 主要用于神经影像学研究,NRRD 更通用,适用于各种医学影像数据,而 DICOM 用于临床环境和医院信息系统
  • NIfTI 和 NRRD 都支持多维数据,但 NRRD 更加灵活,可以处理任意维度的数据。DICOM 文件则包含更详细的临床和设备信息。
  • NIfTI 和 NRRD 支持数据压缩,有助于减少文件大小,而 DICOM 文件通常不压缩,以确保图像质量。
  • DICOM 文件包含最详细的元数据,包括患者信息和扫描参数,而 NIfTI 和 NRRD 则侧重于图像数据和相关的技术参数。

!gcloud config set project $GCP_PROJECT_ID

是将当前 Colab 会话的默认项目设置为你的 Google Cloud Platform 项目。这样,当你运行其他 gcloud 命令时,它们将与你指定的项目相关联。这在处理与特定项目相关的资源(如存储桶、数据集等)时非常有用。

WARNING: [verse.armour@gmail.com] does not have permission to access projects instance [idc-sandbox-000] (or it may not exist): The caller does not have permission. This command is authenticated as verse.armour@gmail.com which is the active account specified by the [core/account] property Are you sure you wish to set property [core/project] to idc-sandbox-000?

Do you want to continue (Y/n)? Y

Updated property [core/project].

报错Access Denied: User does not have bigquery.jobs.create permission

具体报错信息:
ERROR:403 POST https://bigquery.googleapis.com/bigquery/v2/projects/idc-sandbox-000/jobs?prettyPrint=false: Access Denied: Project idc-sandbox-000: User does not have bigquery.jobs.create permission in project idc-sandbox-000.
Location: None
Job ID: 9f15e4e0-2358-4e3b-bcee-c34ea7a0666e

# initialize this variable with your Google Cloud Project ID!
my_ProjectID = "idc-sandbox-000"import os
os.environ["GCP_PROJECT_ID"] = my_ProjectID!gcloud config set project $GCP_PROJECT_ID

解决办法

出现这个问题主要是因为我自己没有很清楚BigQuery的工作原理。
只需要在google cloud上面创建一个名为my_ProjectID的项目即可。
一开始google cloud上面没有这个项目,自然就没有访问权限了。创建一个即可。
tips:项目名称和项目ID不是一个东西。
在这里插入图片描述
代码里面应该改成项目ID。

在 Google Cloud Platform (GCP)中,当你创建一个项目时,你会给它指定一个项目名称,但系统还会自动生成一个唯一的项目ID。项目ID是用于程序化操作的标识符,它在整个Google Cloud 中必须是唯一的。项目名称可以更改,但项目ID一旦创建就不能更改。

# initialize this variable with your Google Cloud Project ID!
my_ProjectID = "idc-sandbox-000-435408"import os
os.environ["GCP_PROJECT_ID"] = my_ProjectID!gcloud config set project $GCP_PROJECT_ID

在这里插入图片描述
From the cohort DataFrame we parsed, we can get additional information on PatientID, SeriesInstanceUID, and so on. For example:

patients_list = np.unique(cohort_df["PatientID"].values).tolist()
print(patients_list[:5])

在这里插入图片描述

BigQuery访问公开数据集的原理

Google BigQuery 是 Google Cloud Platform (GCP) 上的一项服务,它专门用于数据仓库和分析。而一个 Google Cloud 项目(Project)是 GCP 的基本构建块,用于组织资源、启用服务和控制权限。

在某些开发环境(如 Google Colab 或本地开发环境)中,你可能需要设置一个默认项目,这样当你执行 BigQuery 操作时,系统知道应该在哪个项目上下文中执行。

!gcloud config set project $GCP_PROJECT_ID

数据集展示

display(subcohort_df.info())

在这里插入图片描述

display(subcohort_df.head())

在这里插入图片描述

  • Patient ID:患者的唯一标识符或医疗记录号
  • StudyInstanceUID:代表一个医学影像研究的唯一标识符,通常在DICOM(数字成像和通信医学)标准中使用。
  • SeriesInstanceUID:代表医学影像系列的唯一标识符,一个研究可能包含多个系列。
  • SOPInstanceUID:代表单一医学影像对象(如CT或MRI图像)的唯一标识符。
  • gcs_url:代表Google Cloud Storage(GCS)中的URL,这通常是指向存储在GCS上的医学影像文件的链接。

Use SimpleITK to inspect the resampled volumes

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com