将PDF文件拆分为指定格式的图片,并以表的形式返回每页对应的图片内容。
语法
PDF_TO_IMAGES(content [, image_format] [, dpi] [, start_page] [, pages])入参
参数 | 数据类型 | 是否必填 | 说明 |
content | VARBINARY | 是 | PDF文件内容。可以结合FETCH_CONTENT函数获取远程文件内容。 |
image_format | STRING | 否 | 输出图片格式,支持 |
dpi | INT | 否 | 渲染分辨率,决定输出图片的清晰度。默认值为 |
start_page | INT | 否 | 起始页码,从 |
pages | INT | 否 | 要处理的页数,需要与start_page组合使用,不能单独指定。处理[start_page, start_page + pages)区间的页面。不指定时默认处理start_page及之后的全部页面。 |
出参
参数 | 数据类型 | 说明 |
mime_type | STRING | 输出图片的内容类型,例如 |
page_no | INT | 对应的PDF页码,从 |
image_content | VARBINARY | 拆分出的图片内容。 |
示例
测试语句
SELECT p.mime_type AS mime_type, p.page_no AS page_no FROM ( SELECT FETCH_CONTENT(pdf_url) AS pdf_content FROM ( VALUES ('https://example.com/sample.pdf') ) T (pdf_url) ) AS t1, LATERAL TABLE(PDF_TO_IMAGES(t1.pdf_content, 'jpg', 150)) AS p(mime_type, page_no, image_content);测试结果
mime_type(STRING)
page_no(INT)
image/jpeg
0
image/jpeg
1
image/jpeg
2
image/jpeg
3
该文章对您有帮助吗?