如何从 Excel 文档中提取文字内容?
初始 LLM 接受的输入通常只包含文本信息,而不具备多模态理解的能力。如果需要LLM接受单元格数据并进行处理,我们通常需要先将其文本化以与 LLM 的输入接口对齐。Excel 文件(.xls / .xlsx)在本质上是一种富结构的二进制或压缩 XML 文件,其内容不仅包括了基本的表格数据(即单元格中的文字和数值),还可能包含:合并单元格图表、图像、批注单元格格式(颜色、字体、对齐方式)数学公式(如 =SUM(A1:A5))宏脚本(如 VBA)上述内容对于传统的文本 LLM 来说是不可直接解析的非文本模态,因此我们需要一个合理的文本化方...
