PDF2Markdown - 大型 PDF 文档智能文章提取工具
项目概述
PDF2Markdown 是一个专门用于处理大型扫描件 PDF 文件的智能内容提取工具。结合传统 OCR 技术与现代 AI 大模型,智能提取文档中的纯文章内容,自动过滤图片、表格等非文章元素。完美支持中英文混合文档处理。
这是一份高浓缩资料:结构清晰、要点到位,涵盖 CPU/GPU 基础、张量与数值精度、CUDA 与 PyTorch 实操、硬件选型、常见问答与排错清单。
device = "cuda" if ...; model.to(device); data.to(device)| 维度 | CPU | GPU |
|---|---|---|
| 架构 | 少核、复杂控制流 | 海量小核、SIMT 并行 |
| 擅长 | 分支/系统任务/小规模计算 | 矩阵乘、卷积、注意力、图形渲染 |
| 任务模型 | 时间片轮转、低延迟切换 | 批处理&吞吐导向 |
| 典型用法 | 业务逻辑、调度、I/O | 训练/推理主算子(GEMM、Conv 等) |
flowchart LR
subgraph CPU["CPU(顺序/少核)"]
A1[任务1-片段A] --> A2[任务2-片段B] --> A3[任务3-片段C]
end
subgraph GPU["GPU(并行/多核)"]
B1[元素1计算]:::p
B2[元素2计算]:::p
B3[元素3计算]:::p
B4[元素4计算]:::p
end
classDef p fill:#e9f5ff,stroke:#3b82f6,stroke-width:1px;
3.14[1,2,3]batch×channel×height×width)图像例子:一批 32 张 224×224 RGB 图 → 32×3×224×224(或 N×H×W×C,视框架而定)。