PDF 转Word 是一个非常非常普遍的需求,可谓人人忌危,为什么如此普遍的需求,却如此难行呢,还得看为什么会有这样的一个需求。
PDF文档遵循iOS32000的规范是由Adobe 公司推出的文档格式,之所以应用如此广泛,是因为PDF精确定位了每个字符的坐标、根据坐标绘制的各种形状,使用PDF格式传输和打印文档可以保证格式的一致性,然后很多PDF文件是可用于阅读,展示,打印,但编辑起来是非常困难,如格式调整,文字修改,样式调整等,那么就衍生了PDF 转Word这一历史性的需求,但因为两者之间采用的编码规范以及布局机制的完全不一致,导致转换起来会非常复杂,一般的工具不是格式错乱,就是内容错乱,很难达到客户的原生期望。
其难点在于建立从PDF基于元素位置的格式到Word基于内容的格式的映射。PDF文档实际并不存在段落、表格的概念,PDF转Word要做的就是将PDF文档中“横、竖线条围绕着文本”解析为Word的“表格”,将“文本及下方的一条横线”解析为“文本下划线”,等等。
两个工具两套规则,自古以来两个工具之间的兼容转换,除非是为一家所有,会有通用的标准和接口预留,达到很好的兼容性,但 Adobe和微软都是巨大的科技企业,且两款软件功能都是非常强大且覆盖面全,要做到完美的匹配所有规则更是非常苦难。
对于报表用户来说,很多用户会将报表理解为报告,报告自然会联想到Word,那么就很希望在页面中展示的内容能够成 Word 文件来进行存档,编辑等作用。
ActiveReportsJS 是一款前端的报表开发工具,不与后端关联,因此想要将展示的HTML 生成Word,研发团队经过一些调研发现整个过程会非常复杂非常困难,正如他们反馈:“不是一个sprint能解决的问题”,就PDF.js 背后都有强大的Mozilla支撑,更何况Word文档是依托微软的Office开发组件去生成的。
但在实际接触客户的时候,许多用户都会来询问相关内容包括如何用报表设计类似审批表、人事履历表、检测报告等很常见的Word报告。用户对结果都比较满意,但唯一用户不满的是报表结果只能生成pdf。这是传统,这也是核心需求,也是痛点。
本葡萄就有些很着急,于是不信这个邪,在前端工具如此丰富的情况下,竟没有一个这样可用的工具?
开始搜索,打开google,榨干全部脑汁的词汇量输入了我需要的关键词,搜索到了以下结果。
乍一看,第一条完全吻合,Node.js 虽说是服务端也不是不可以接受,只要有方案即可。
看着非常有戏。
代码简单:
但仔细看看代码,果然老天在为我们送东西的时候都在背后的标好了价格:
心想如果可以,付费就付费吧,毕竟我们也是做付费商业软件的专业er,版权意识还是需要有的。
点击登录,用谷歌账号登陆成功后,即可在项目中引用cloudmersive-convert-api-client 安装包。
该JS 库提供了将近几十种的API及Class用于处理转换不同的格式文件:除了将PDF转Word外,还有其他发的文件格式转换,使用起来也是非常简单,
可以识别本地的PDF 文件,转换结果:
因为整个转换API 只是CloudMersive 的一个API功能,整个产品还附加其他的安全检验等功能,因此产品是按月及并发数收费的。大家可自行搜索了解,不过他们网站倒是提供好了几个文件转换的工具非常好用,无需登录直接获取转换结果
通过搜索发现PDF对象流直接用JS 转换为Word 文件是非常困难的, 而且经过验证ARJS 导出PDF 文件可以用Word软件打开,那么突然想到是否可以找一个中间件,将PDF流直接转换为doc或docx格式,但搜索一番,尝试之后,只是在.pdf前面加了document.docx.pdf
该方法尝试失败。
跟技术大咖聊了之后,才发现pdf和word虽然本质都是二进制流,但内部的声明等都是各自文件特有的属性,因此不能直接转换,简而言之就是是什么文件流就只能保存什么文件流。且PDF 和 Word是两大技术公司背书,直接转换得用专业的工具,因此此路不通。
于是乎,退而求其次,HTML 是万能的,HTML 可以转万物, HTML 转PDF, HTML 转图片,HTML 转Excel等等等,那么 ActiveReportsJS 提供了可将报表导出为HTML 文件且格式完全一致,那么方法来了,我直接使用HTML 转 Word不是更方便些?Google搜索果然此类资料比PDF 转Word多了百倍,而且看代码也是操作非常简单:
只需3步骤:
1、将报表导出HTML
var pageReport = new ARJS.PageReport();
pageReport.load('./BandedReport.rdlx-json')
.then(function() { return pageReport.run() })
.then(function(pageDocument) { return HTMLExport.exportDocument(pageDocument) })
2、加工HTML 代码增加office 标记
var header = "<html xmlns:o='urn:schemas-microsoft-com:office:office' "+
"xmlns:w='urn:schemas-microsoft-com:office:word' "+
"xmlns='http://www.w3.org/TR/REC-html40'>"
let reg=/<html>/;
console.log(reg.test(htmlcode));
var test= htmlcode.replace(reg,header);
var sourceHTML='data:application/vnd.ms-word;charset=utf-8,'+encodeURIComponent(test);
3、 创建 a 标签,直接下载 doc格式
var fileDownload = document.createElement("a");
document.body.appendChild(fileDownload);
fileDownload.href = sourceHTML;
fileDownload.download = 'document.doc';
fileDownload.click();
document.body.removeChild(fileDownload);
看看结果:效果很Nice
两种转化结果总结如下:
通过一番尝试也算是有一个Workaround,考虑到报告类的报表一般以文本内容为主,样式也比较朴素,所以使用html到Word转换不失为一个快速简洁的方法,大部分需要保存为Word 还是为了进行二次编辑。本葡萄也在努力寻找HTML 转Word 样式保留的方法,有新的进展会给大家更新第二篇。
转载请注明出处:葡萄城官网,葡萄城为开发者提供专业的开发工具、解决方案和服务,赋能开发者。微信公众号:“葡萄城社区”。
AVA中将WORD转换为HTML导入到CKEDITOR编辑器中(解决图片问题,样式,非常完美),ckeditor粘贴word,ckeditor3粘贴word,ckeditor4粘贴word,ckeditor5粘贴word内容,ckeditor复制word图片,ckeditor复制粘贴word图片,ckeditor复制word内容,ckeditor粘贴word图片,复制word图片粘贴到ckeditor,
前端用了VUE2,VUE3,React,HTML5,也是一个新项目,为了方便用的这些框架,实际上这个是无所谓,功能的实现和前端这些框架没什么关系。
后端用了PHP,JSP,ASP,ASP.NET,SpringBoot,功能实现和后端用的什么开发语言无关,后端只提供一个文件上传的接口,HTTP form协议,图片上传时会调这个接口。
编辑器是ckeditor5,为ckeditor编辑器增加粘贴Word图片的功能,支持快捷键操作(Ctrl+V),支持多种系统:Windows,macOS,Linux,信创国产化环境,中标麒麟,银河麒麟,统信,龙芯。
支持word粘贴,word内容粘贴,word图文粘贴,word图片粘贴,粘贴后图片能够自动上传到服务器中,然后将图片和内容HTML添加到编辑器中,上传接口地址能够自定义
用户使用操作起来更方便一些,一般发新闻,或者发文章用的比较多,基本上每天发新闻,发文章都会用到,
这个功能确实为用户带来了方便。
主要步骤如下:
1.上传WordPaster文件夹
一般将WordPaster.cab放在WordPaster目录下。
2.上传CKEditor插件目录
3.引入JS,初始化控件
注意:不要重复引入jquery,如果您的项目已经引入了jq,则不用再引入jq-1.4
如果希望添加到默认工具栏中,请修改ckeditor.js,在toolbar_Full中增加imagepaster,netpaster
为ckeditor增加插件(imagepaster,netpaster,pptpaster,pdfimport):
注意:
1.如果接口字段名称不是file,请配置FileFieldName。ueditor接口中使用的upfile字段
参考:http://www.ncmem.com/doc/view.aspx?id=c3ad06c2ae31454cb418ceb2b8da7c45
2.如果接口返回JSON,请配置ImageMatch
参考:http://www.ncmem.com/doc/view.aspx?id=07e3f323d22d4571ad213441ab8530d1
3.如果接口返回的图片地址没有域名,请配置ImageUrl
参考:http://www.ncmem.com/doc/view.aspx?id=704cd302ebd346b486adf39cf4553936
4.如果接口有权限验证(登陆验证,SESSION验证),请配置COOKIE。或取消权限验证。
参考:http://www.ncmem.com/doc/view.aspx?id=8602DDBF62374D189725BF17367125F3
常见问题:
1.为什么整合到项目中图片无法上传?
请先测试接口:http://www.ncmem.com/doc/view.aspx?id=61f361025c9247098f6a15c3dfc53db5
TML编辑器 复制WORD里面带图文的文章,图片可以直接显示,JSP – 支持WORD上传的富文本编辑器,EWEBEDITOR 从WORD中复制内容带多张图片,如何从WORD文档复制公式到富文本编辑器,复制word图片,从word中复制图片,
从word中粘贴图片,粘贴word内容,粘贴word图片,粘贴word图文,复制粘贴word文档,复制粘贴word图片,复制粘贴word图文,复制粘贴word内容,
之前在网上找过相关的资料,论坛里面也有网友交流过,还加过不少QQ群和微信群,但是结果都不太令人满意。相关的文章提问的人多,能够给出方案的人少,能够给出成熟产品的就更少了,说的直接一点根本就没有,纯属浪费时间。要示例没示例,要代码没代码,根本就用不了,
有几个方面的原因吧,一个是网上的资料提的一些都是开源的方案,也不是说开源的方案不行,关键是提到的这些方案,公司项目组去评估发现联系不到开发人员,而且方案本身也停止更新了,处于没有人维护的状态,所以项目组这边不太敢用。主要是之前在这块也踩过坑。
客户那边也不差这点钱,之前公司项目组就是在这块踩过坑,用了开源的方案,客户那边提了一个新需求,但是由于项目组对产品本身并不熟悉,导致没办法进行二次开发。
从word中复制图片和文字内容,然后粘贴到web富文本编辑器中,粘贴后word图片自动上传到web服务器中,自动将图片和文字HTML添加到编辑器中,保留word中的文字格式,文字颜色,字体,样式,
用户发布新闻的时候是从word里面复制图片和文字,然后将word图文内容粘贴到web富文本编辑器中,希望能够将word的图片自动上传到服务器中,服务器地址能够自定义,
后端的话需要支持任意开发语言,比如ASP,ASP.NET,JSP,PHP,PYTHON等。只要是基于标准HTTP协议的都要支持。如果能够不装控件最好,视频教程:https://www.ixigua.com/7233953214108795407
1.下载示例:
http://www.ncmem.com/webapp/wordpaster/versions.aspx
2.复制WordPaster插件目录
3.引入插件文件
注意:不要重复引入jquery,如果您的项目已经引入了jq,则不用再引入jq-1.4
4.在工具栏中增加插件按钮
6.初始化控件
注意:
1.如果接口字段名称不是file,请配置FileFieldName。ueditor接口中使用的upfile字段
参考:http://www.ncmem.com/doc/view.aspx?id=c3ad06c2ae31454cb418ceb2b8da7c45
2.如果接口返回JSON,请配置ImageMatch
参考:http://www.ncmem.com/doc/view.aspx?id=07e3f323d22d4571ad213441ab8530d1
3.如果接口返回的图片地址没有域名,请配置ImageUrl
参考:http://www.ncmem.com/doc/view.aspx?id=704cd302ebd346b486adf39cf4553936
4.如果接口有权限验证(登陆验证,SESSION验证),请配置COOKIE。或取消权限验证。
参考:http://www.ncmem.com/doc/view.aspx?id=8602DDBF62374D189725BF17367125F3
效果
订阅版报价单:https://drive.weixin.qq.com/s?k=ACoAYgezAAw70JsA8m
政企版报价单:https://drive.weixin.qq.com/s?k=ACoAYgezAAwuqJtN30#/
年费版报价单:https://drive.weixin.qq.com/s?k=ACoAYgezAAwFouDIB4#/
OEM版报价单:https://drive.weixin.qq.com/s?k=ACoAYgezAAwV00mQSY
产品源代码:https://drive.weixin.qq.com/s?k=ACoAYgezAAwz13B5Tr
授权码生成器:https://drive.weixin.qq.com/s?k=ACoAYgezAAwzYuEEY1
*请认真填写需求信息,我们会在24小时内与您取得联系。