【Colab代码调试】End-to-end reproducible AI pipelines in radiology using the cloud

文章目录

- 报错MessageError: Error: credential propagation was unsuccessful
- - 解决办法
  - 原理
- 找不到GPU
- - 解决办法
- 关于文件结构
- - RTSTRUCT是什么
  - nrrd是什么格式
- !gcloud config set project $GCP_PROJECT_ID
- 报错Access Denied: User does not have bigquery.jobs.create permission
- - 解决办法
  - BigQuery访问公开数据集的原理
  - 数据集展示
- Use SimpleITK to inspect the resampled volumes

第一在Colab上运行代码： https://colab.research.google.com/github/ImagingDataCommons/idc-radiomics-reproducibility/blob/main/notebooks/hosny_processing_example.ipynb#scrollTo=1ZXwYFoEuRM6

报错MessageError: Error: credential propagation was unsuccessful

解决办法

from google.colab import auth
auth.authenticate_user()

报错：MessageError: Error: credential propagation was unsuccessful
解决办法：将google Colaboratory Runtimes可以访问的权限都勾选上，再运行就不会报错了
参考链接：https://github.com/googlecolab/colabtools/issues/4343
在这里插入图片描述
翻译：我在尝试只允许我认为可能需要的权限时遇到了同样的问题。一旦我点击了启用全部选项，它就起作用了。

原理

from google.colab import auth
auth.authenticate_user()

这段代码是用于在 Google Colaboratory（Colab）环境中进行用户身份验证的。Colab 是一个免费的 Jupyter 笔记本环境，由 Google 提供，允许用户编写和执行代码，同时利用 Google Cloud Platform 的计算资源。
from google.colab import auth：这行代码从 Colab 的库中导入了 auth 模块。auth 模块包含了用于处理身份验证和授权的功能。
auth.authenticate_user()：这行代码调用 auth 模块中的 authenticate_user() 函数。这个函数会启动一个身份验证流程，通常是通过弹出一个窗口来提示用户登录其 Google 账户。用户需要在这个弹出的窗口中输入他们的 Google 账户凭据。
在这里插入图片描述

当用户成功登录后，Colab 笔记本将获得授权，可以访问那些需要用户权限的 Google 服务，比如 Google Drive。这样，用户就可以直接从 Colab 笔记本中读写 Google Drive 上的文件。

在执行需要访问用户个人数据或服务的代码之前，通常需要先执行这段身份验证代码。例如，如果你的 Colab 笔记本需要从用户的 Google Drive 中读取数据文件，或者需要将结果保存到用户的 Drive 上，那么在进行这些操作之前，你需要确保已经通过 auth.authenticate_user() 进行了身份验证。

找不到GPU

# check wether the use of a GPU was correctly enabled
gpu_list = !nvidia-smi --list-gpushas_gpu = False if "not found" in gpu_list[0] else True

print(has_gpu)返回false

解决办法

在这里插入图片描述

没有配置硬件加速器为GPU当然找不到GPU啦~

在这里插入图片描述

关于文件结构

在这里插入图片描述

the download folder will store the .dcm files cross-loaded from the buckets, without a defined structure.
The sorted folder, on the contrary, stores the output of the sorting process through dicomsort (details on dicomsort follow later in the notebook).
The processed folder stores the result of the different processing and pre-processing steps, such as conversion from DICOM to NRRD and resampling
the model_input and cropped_masks folder store, respectively, the subvolumes the pipeline uses for predicting survival and the corresponding segmentation mask (exported mainly for visualization purposes)

在这里插入图片描述

RTSTRUCT是什么

RTSTRUCT：在医学影像领域，RTSTRUCT 是一种特殊的 DICOM (Digital Imaging and Communications in Medicine) 文件格式，用于存储放射治疗的结构集信息。

RTSTRUC一般包含：

轮廓数据：医生或放射治疗师在影像上绘制的轮廓，用于定义肿瘤（GTV - 肿瘤体积）、临床目标体积（CTV - 临床目标体积）、计划目标体积（PTV - 计划目标体积）以及需要保护的正常组织和器官。
剂量体积直方图：与结构集相关的剂量分布信息，用于评估治疗计划的质量。
其他放射治疗相关信息：可能包括治疗计划的详细信息，如射束方向、能量、剂量等。

RTSTRUCT 文件使得放射治疗团队能够可视化和量化治疗区域，确保治疗的精确性，同时最大限度地减少对周围正常组织的损伤。这些文件通常与 RTDOSE（用于存储剂量分布的 DICOM 文件）一起使用，以实现放射治疗计划的优化。

nrrd是什么格式

NRRD（Nearly Raw Raster Data）是一种用于存储三维或多维影像数据的文件格式，它被广泛用于医学成像和科学可视化领域。NRRD格式由美国芝加哥大学（The University of Chicago）开发，特别适用于存储体数据（volume data），例如医学成像中的CT（计算机断层扫描）或MRI（磁共振成像）数据。

医学影像文件格式	Value
NIfTI (.nii)	神经影像学研究，功能磁共振成像（fMRI）、结构磁共振成像（sMRI）和正电子发射断层扫描（PET）。包含一个头文件（.nii）和一个数据文件（.img），头文件描述了数据的元数据，而数据文件包含了实际的图像数据。
NRRD (.nrrd)	适用于各种类型的三维或多维图像数据，NRRD 文件包含一个文本头文件，描述了数据的维度、数据类型和元数据，后跟实际的图像数据。
DICOM (.dcm)	医学影像的国际标准，广泛用于临床环境，包括放射科、核医学和心脏病学等，DICOM 文件包含图像数据和大量的元数据，如患者信息、扫描参数、设备信息等。

总结：

NIfTI 主要用于神经影像学研究，NRRD 更通用，适用于各种医学影像数据，而 DICOM 用于临床环境和医院信息系统。
NIfTI 和 NRRD 都支持多维数据，但 NRRD 更加灵活，可以处理任意维度的数据。DICOM 文件则包含更详细的临床和设备信息。
NIfTI 和 NRRD 支持数据压缩，有助于减少文件大小，而 DICOM 文件通常不压缩，以确保图像质量。
DICOM 文件包含最详细的元数据，包括患者信息和扫描参数，而 NIfTI 和 NRRD 则侧重于图像数据和相关的技术参数。

!gcloud config set project $GCP_PROJECT_ID

是将当前 Colab 会话的默认项目设置为你的 Google Cloud Platform 项目。这样，当你运行其他 gcloud 命令时，它们将与你指定的项目相关联。这在处理与特定项目相关的资源（如存储桶、数据集等）时非常有用。

WARNING: [verse.armour@gmail.com] does not have permission to access projects instance [idc-sandbox-000] (or it may not exist): The caller does not have permission. This command is authenticated as verse.armour@gmail.com which is the active account specified by the [core/account] property Are you sure you wish to set property [core/project] to idc-sandbox-000?

Do you want to continue (Y/n)? Y

Updated property [core/project].

报错Access Denied: User does not have bigquery.jobs.create permission

具体报错信息：
ERROR:403 POST https://bigquery.googleapis.com/bigquery/v2/projects/idc-sandbox-000/jobs?prettyPrint=false: Access Denied: Project idc-sandbox-000: User does not have bigquery.jobs.create permission in project idc-sandbox-000.
Location: None
Job ID: 9f15e4e0-2358-4e3b-bcee-c34ea7a0666e

# initialize this variable with your Google Cloud Project ID!
my_ProjectID = "idc-sandbox-000"import os
os.environ["GCP_PROJECT_ID"] = my_ProjectID!gcloud config set project $GCP_PROJECT_ID

解决办法

出现这个问题主要是因为我自己没有很清楚BigQuery的工作原理。
只需要在google cloud上面创建一个名为my_ProjectID的项目即可。
一开始google cloud上面没有这个项目，自然就没有访问权限了。创建一个即可。
tips:项目名称和项目ID不是一个东西。
在这里插入图片描述
代码里面应该改成项目ID。

在 Google Cloud Platform (GCP)中，当你创建一个项目时，你会给它指定一个项目名称，但系统还会自动生成一个唯一的项目ID。项目ID是用于程序化操作的标识符，它在整个Google Cloud 中必须是唯一的。项目名称可以更改，但项目ID一旦创建就不能更改。

# initialize this variable with your Google Cloud Project ID!
my_ProjectID = "idc-sandbox-000-435408"import os
os.environ["GCP_PROJECT_ID"] = my_ProjectID!gcloud config set project $GCP_PROJECT_ID

在这里插入图片描述
From the cohort DataFrame we parsed, we can get additional information on PatientID, SeriesInstanceUID, and so on. For example:

patients_list = np.unique(cohort_df["PatientID"].values).tolist()
print(patients_list[:5])

在这里插入图片描述

BigQuery访问公开数据集的原理

Google BigQuery 是 Google Cloud Platform (GCP) 上的一项服务，它专门用于数据仓库和分析。而一个 Google Cloud 项目（Project）是 GCP 的基本构建块，用于组织资源、启用服务和控制权限。

在某些开发环境（如 Google Colab 或本地开发环境）中，你可能需要设置一个默认项目，这样当你执行 BigQuery 操作时，系统知道应该在哪个项目上下文中执行。

!gcloud config set project $GCP_PROJECT_ID

数据集展示

display(subcohort_df.info())

在这里插入图片描述

display(subcohort_df.head())

在这里插入图片描述

Patient ID:患者的唯一标识符或医疗记录号
StudyInstanceUID:代表一个医学影像研究的唯一标识符，通常在DICOM（数字成像和通信医学）标准中使用。
SeriesInstanceUID:代表医学影像系列的唯一标识符，一个研究可能包含多个系列。
SOPInstanceUID:代表单一医学影像对象（如CT或MRI图像）的唯一标识符。
gcs_url:代表Google Cloud Storage（GCS）中的URL，这通常是指向存储在GCS上的医学影像文件的链接。

Use SimpleITK to inspect the resampled volumes

在这里插入图片描述

【Colab代码调试】End-to-end reproducible AI pipelines in radiology using the cloud

文章目录

报错MessageError: Error: credential propagation was unsuccessful

解决办法

原理

找不到GPU

解决办法

关于文件结构

RTSTRUCT是什么

nrrd是什么格式

!gcloud config set project $GCP_PROJECT_ID

报错Access Denied: User does not have bigquery.jobs.create permission

解决办法

BigQuery访问公开数据集的原理

数据集展示

Use SimpleITK to inspect the resampled volumes

最新新闻

热搜词