如何使用 Synapse 从 ADLS gen2 读取 python 中的 pdf 或 pptx 或 docx 文件?

问题内容
,我希望在 synapse 笔记本中使用 python 读取不同格式的文件。其中包括 .pdf、.pptx、.docx、.msg 和 .eml。我希望能够读取文件,然后用 python 解析和操作它们。我能够使用不同的 python 库在数据块中做到这一点。,这就是我在 data bricks 中完成此任务的方式:,在 synapse 中我收到错误:
filenotfounderror:[errno 2]没有这样的文件或目录。,这些文件路径可以使用 spark 或 pandas 读取 csv、excel 或 txt 数据,因此我认为不存在授权或连接问题。格式为:abfs[s]://file_system_name@account_name.dfs.core.windows.net/file_path,我还尝试安装存储位置。这确实有助于读取文本文件,但对其他格式没有帮助。在 synapse 中安装存储位置,安装是正确的方法,此答案进行了解释。我正在使用 synapse studio 。关键是使用从挂载存储的路径命令获取的文件格式。否则我基本上可以使用我之前在问题中提到的内容。只有 pdf 我必须从使用 pypdf 库更改为 pypdf2。,有效的格式是:,从 mssparkutils fs 获取的格式不起作用,
返回顶部
跳到底部

Copyright 2011-2024 南京追名网络科技有限公司 苏ICP备2023031119号-6 乌徒帮 All Rights Reserved Powered by Z-BlogPHP Theme By open开发

请先 登录 再评论,若不是会员请先 注册