整合营销服务商

电脑端+手机端+微信端=数据同步管理

免费咨询热线:

Word中七十四条详细教程,实用!

Word中七十四条详细教程,实用!

. 问:WORD 里边怎样设置每页不同的页眉?如何使不同的章节显示的页眉不同?

答:分节,每节可以设置不同的页眉。文件――页面设置――版式――页眉和页脚――首页不同。

2. 问:请问word 中怎样让每一章用不同的页眉?怎么我现在只能用一个页眉,一改就全部改了?

答:在插入分隔符里,选插入分节符,可以选连续的那个,然后下一页改页眉前,按一下“同前”钮,再做的改动就不影响前面的了。简言之,分节符使得它们独立了。这个工具栏上的“同前”按钮就显示在工具栏上,不过是图标的形式,把光标移到上面就显示出”同前“两个字来。

3. 问:如何合并两个WORD 文档,不同的页眉需要先写两个文件,然后合并,如何做?

答:页眉设置中,选择奇偶页不同/与前不同等选项。

4. 问:WORD 编辑页眉设置,如何实现奇偶页不同? 比如:单页浙江大学学位论文,这一个容易设;双页:(每章标题),这一个有什么技巧啊?

答:插入节分隔符,与前节设置相同去掉,再设置奇偶页不同。

5. 问:怎样使WORD 文档只有第一页没有页眉,页脚?

答:页面设置-页眉和页脚,选首页不同,然后选中首页页眉中的小箭头,格式-边框和底纹,选择无,这个只要在“视图”――“页眉页脚”,其中的页面设置里,不要整个文档,就可以看到一个“同前”的标志,不选,前后的设置情况就不同了。

6. 问:如何从第三页起设置页眉?

答:在第二页末插入分节符,在第三页的页眉格式中去掉同前节,如果第一、二页还有页眉,把它设置成正文就可以了

在新建文档中,菜单―视图―页脚―插入页码―页码格式―起始页码为0,确定;菜单―文件―页面设置―版式―首页不同,确定;将光标放到第一页末,菜单―文件―页面设置―版式―首页不同―应用于插入点之后,确定。第2 步与第三步差别在于第2 步应用于整篇文档,第3 步应用于插入点之后。这样,做两次首页不同以后,页码从第三页开始从1 编号,完成。

7. 问:WORD 页眉自动出现一根直线,请问怎么处理?

答:格式从“页眉”改为“清除格式”,就在“格式”快捷工具栏最左边;选中页眉文字和箭头,格式-边框和底纹-设置选无。

8. 问:页眉一般是---------,上面写上题目或者其它,想做的是把这根线变为双线,WORD 中修改页眉的那根线怎么改成双线的?

答:按以下步骤操作去做:

选中页眉的文字,包括最后面的箭头格式-边框和底纹选线性为双线的在预览里,点击左下小方块,预览的图形会出现双线确定上面和下面自己可以设置,点击在预览周围的四个小方块,页眉线就可以在不同的位置。

9. 问:Word 中的脚注如何删除?把正文相应的符号删除,内容可以删除,但最后那个格式还在,应该怎么办?

答:步骤如下:1、切换到普通视图,菜单中“视图”――“脚注”,这时最下方出现了尾注的编辑栏。2、在尾注的下拉菜单中选择“尾注分隔符”,这时那条短横线出现了,选中它,删除。3、再在下拉菜单中选择“尾注延续分隔符”,这是那条长横线出现了,选中它,删除。4、切换回到页面视图。尾注和脚注应该都是一样的。

10. 问:Word 里面有没有自动断词得功能?常常有得单词太长了,如果能设置下自动断词就好了

答:在工具―语言―断字―自动断字,勾上,word 还是很强大的。

11. 问:如何将word 文档里的繁体字改为简化字?

答:工具―语言―中文简繁转换。

12. 问:怎样微调WORD 表格线?WORD 表格上下竖线不能对齐,用鼠标拖动其中一条线,可是一拖就跑老远,想微调表格竖线让上下对齐,请问该怎么办?

答:选定上下两个单元格,然后指定其宽度就可以对齐了,再怎么拉都行press"Alt",打开绘图,其中有个调整坐标线,单击,将其中水平间距与垂直间距都调到最小值即可。打开绘图,然后在左下脚的绘图网格里设置,把水平和垂直间距设置得最小。

13. 问:怎样微调word 表格线?我的word 表格上下竖线不能对齐,用鼠标拖动其中一条线,可是一拖就跑老远,我想微调表格竖线让上下对齐,请问该怎么办?

答:可以如下操作:按住ctl 键还是shift,你have atrydouble click the line, try it 打开绘图,设置一下网格(在左下角)。使水平和垂直都为最小,试一把!?press "Alt"

14. 问:怎么把word 文档里已经有的分页符去掉?

答:先在工具――> 选项―― > 视图――>格式标记,选中全部,然后就能够看到分页符,delete 就ok了。

15. 问:Word 中下标的大小可以改的吗?

答:格式―字体

16. 问:Word 里怎么自动生成目录啊

答:用“格式>>样式和格式”编辑文章中的小标题,然后插入->索引和目录

17. 问:Word 的文档结构图能否整个复制? 论文要写目录了,不想再照着文档结构图输入一遍,有办法复制粘贴过来吗?

答:可以自动生成的,插入索引目录。

18. 问:做目录的时候有什么办法时右边的页码对齐?比如:1.1 标题..........11.2 标题...............2

答:画表格,然后把页码都放到一个格子里靠右或居中,然后让表格的线条消隐就可以了,打印出来就很整齐。

19. 问:怎样在word 中将所有大写字母转为小写?比如一句全大写的转为全小写的答:格式->更改大小写->小写

20. 问:在存盘的时候,出现了问题,症状如下:磁盘已满或打开文件过多,不能保存,另开新窗口重存也不管用。如何解决?

答:把word 文档全选,然后复制,然后关掉word,电脑提示你粘贴板上有东西,要不要用于别的程序,选是,然后,再重

新打开word,然后粘贴,然后,保存。

21. 问:WORD 中的表格一复制粘贴到PPT 中就散掉了,怎么把WORD 里面的表格原样粘贴到PPT 中?

答:1)比较好的方法是:先把表格单独存为一WORD 文件,然后插入-->对象,选由文件创建,然后选中上面的WORD 文件,确定;2)还可以先把表格copy 到excel中,然后copy 到PPT 中,这个也是比较好的办法;3)可以先做成文本框,再粘贴过去;4)复制粘贴,但是在PPT 中不能粘在文本框里面;5)拷屏,做成图片,再弄到PPT 里面。

22. 问:有没有办法将PPT 的文字拷入WORD 里面?

答:另存就可以了。只要以.rtf 格式另存即可

23. 问:word 中图片的分栏如何处理?假如有:1 2 图3 4 这样的结构,我想实现:1 3 图(要横跨两栏)2 4 但是,试了半天总是:1 2 图34 怎么办呀?help!

答:设置图片格式――版式――高级――文字环绕――环绕方式选上下型――图片位置――对齐方式选居中――度量依据选页面,要先改文字环绕,然后才能改图片位置

24. 问:用word 写东西时字距老是变动,有时候自动隔得很开,有时候进入下一行的时侯,上一行的字距又自动变大了,这是为什么?怎么纠正啊?

答:是因为自动对齐的功能,格式――>段落――>对齐方式可以选。还有允许断字的功能如果check 上,就不会出现你说的情况了。

25. 问:在使用WORD 的样式之后,如标题1、标题2 之类的,在这些样式前面总会出现一个黑黑的方块,虽然打印的时候看不到,但看着总是不舒服,有没有办法让它不要显示呢?

答:“视图”-->“显示段落标志”,把前面的勾去掉。其实这个很有用,可以便于知道哪个是标题段落

26. 问:文章第一页下面要写作者联系方式等。通常格式是一条短划线,下面是联系方式,基金支持等。这样的格式怎么做出来?就是注明页脚吗?

答:插入――脚注和尾注

27. 问:文字双栏,而有一张图片特别大,想通栏显示,应该怎么操作?

答:可以选择的内容,按双栏排。选择其他内容,按单栏排。

28. 问:Word 里面如何不显示回车换行符?

答:把视图->显示段落标记的勾去掉或工具->选项->视图->段落标记

29. 问:有没有方法把WORD 里的软回车一下子替换掉?识别出来的文字全带着软回车,能把他们一次全删掉吗??

答:查找+替换,按CTRL+H;软回车好象是^l,在特殊字符里有

30. 问:在WORD 里的框框里怎么打勾?

答:画个文本框,文本框里写一个钩,然后拖过去;或者先在WORD 里插入符号“√”,然后选中“√”,到-》格式-》中文版式-》带圈字符-》选“□”

31. 问:还是不行,这样拷过去的框框字体是windings 的,而原来的是宋体的,两者有很大的区别。

答:根据模板新建专业型传真,里面有框,双击后打勾,copy 就ok

32. 问:Word 中怎么在一个英文字母上打对号?

答:透明方式插入图片对象,内容是一个√

33. 问:WORD 里怎么显示修订文档的状态?文档修订后,改后标记很多,但是在菜单里没有“显示修订最终状态”等,怎么调出来?

答:工具->自定义->命令->类别(工具)->命令(修订)->把“修订”等拖到工具栏上

34. 问:怎样把许多分开的word 文档合并成一个文档。我的论文是按照章节分开写的,但现在图书馆要提交电子版的学位论文,是一个文档的,我找了很多选项但好象不能合并,选择插入文件功能,可以加入内容,但文档中的页眉却插不进去,有谁有高见?

答:acrobat6 可以直接把多个文档打印成一个pdf 文档。可以提交pdf 格式的论文,先一个一个word 文档转换为pdf 格式的,然后在pdf 文档菜单的文件菜单中,选上作为pdf 格式打开,追加上就可。

35. 问:Word 里面要写方程式怎么办啊?

答:插入-对象-公式编辑器equation,如果没有公式编辑器Equation,要自己从光盘中安装,或者安装Mathtype 公式编辑器按右键把它拖出来--插入--命令--自定义--工具应该是倒过来

36. 问:想在WORD 里面表示矩阵,怎样才能画出那个很大的矩阵括号?

答:装公式编辑器mathtype 好了~:)

37. 问:Word 的公式编辑器怎么安装?

答:工具-自定义-插入-公式编辑器,把它拖到工具条上即可;或者安装OFFICE 后,再次安装,选增加功能吧,会有提示的

38. 问:Word2000 下调用公式编辑器的快捷键?

答:点击菜单[工具]->[自定义],点击对话框下方[键盘],在[类别]里选择[插入],在命令里选择[InsertEquation],指定你的快捷方式

39. 问:WORD 中出现公式的行往往要比只有文字的行来得宽,如何把这些行改的跟只有文字的行一样宽?

答:段落行距设为固定值即可。这样会有一个问题,比如设置为18 磅,有些公式符号(特别是有下标的)不能全部显示打印稿可以显示。黑客师怎么解决这个问题?这个如何解决还需要考虑。

40. 问:我的文档就是公式多,应该怎么办?

答:公式多的时候,最好的消除这个问题的办法就是每打几个公式就要存盘,如果连续打太多,就会出现这个问题。出现问题的时候:选中所有内容,ctrl+C把WORD 所有文档关闭。

最关键:出现一条信息,务必选择“是”重新打开WORD 编辑器,ctrl+V,粘贴ctrl+S,存盘

41. 问:怎样在word 里面的公式编辑器中输入空格?

答:ctrl+shift+space

42. 问:如何使word 中公式全都小一号?一个一个选实在麻烦

答:在Mathtype公式编辑器中:首先,在Mathtype 中的菜单Size 中选define,定义所需的字号大小;再次,在Mathtype 中的菜单preferences 中的equation preference 的save to file 存贮所定义的字号文件;返回word 中:在Mathtype菜单中选Formatequation:1)在MathType preference file 中,选你刚才所定义的文件;2)在Range 中,选Wholedocument。最后,选OK,即OK了。

43. 问:如何将WORD 中的公式编缉拉到外面?

答:工具-自定义-命令-插入-右边找公式编辑器,往上脱

44. 问:怎样可以去掉word 里面公式,或是图片上方总是出现的灰色的横条啊?以前没有的,不知道怎么跑出来了,看着怪晕糊的。。。。。

答:工具->选项->视图->域底纹,选不显示,或选取时显示,就可以了

45. 问:整个论文用一个WORD 文档,太大,不好编辑,一个地方有增删,后面那么长一个文档版面分布会变得乱七八糟,特别是图表之类的东东。想让每章的偶数页自动显示自己的章号和题目,WORD 里这个能够自动实现吗?

答:不要整个论文放一个WORD 文档,一章一个,然后每章就可以奇偶分开处理了

46. 问:论文按照章节写的,想把它们合并成一个文件,并保持原有的文件格式。采用了在文件末尾插入分节符的方法,但插入后有些文件的部分格式发生了变化,请问如何解决?

答:用主控文档的方法比较好,在大纲模式里设置的;采取插入文件的方式,格式有些变化

47. 问:WORD 里边怎样显示行号?

答:在页面设置那里,板式选项,最下面有个行号选项

48. 问:Word 里面怎么插入半个空格?

答:先在word 的工具栏上,点中双箭头那个纽,就可以看到原先看不到的空格,然后再编辑一下这个空格的大小,比如小五或小四什么的。

49. 问:只要一回车,或是改变光标位置的任何操作,都会使上一行的)变成=,有人遇到过这个问题么?

答:是不是设置了自动替换啊,符号里的自动替换看看吧!

50. 问:WORD 有没有可以按单词的首字母进行排序?就是从A-Z 进行排

答:表格中的内容可以按照拼音排序,弄到excel 里,排序,再回来

51. 问:怎么在word 里面打R^2?

答:先打R2,然后用鼠标选中2,同时按"Ctrl",“shift”和"+"

52. 问:Word 中发现空格都是小圆点,是怎么回事情?每输入一个空格就出现一个小圆点,怎么把它消除掉啊?这个空格会打印出来吗?

答:不会打印出来,如果想不显示:工具-选项-视图格式标记中前面的勾去掉即可

53. 问:word 如何使两个表格能排在一起?我做的表格每一个都比较小,但是表格数比较多,我想两个表格排成一行,请问该怎么做?

答:试试在局部分栏,每个分栏中一个表格。

54. 问:为什么换机器打开WORD 文档排版变了?在一台机器上排好板的WORD 文档换在另一台机器打开就变了?页码都不对了,怪哉。

答:是默认的页面设置不一样吧,或者版本不同

55. 问:Word 里面插入表格的问题,同一表格前后两行被分在了不同的页上,想**他们在同一页怎么做?

答:转换成图文框可能更容易排版一点,或者加个文本框

56. 问:怎么在word 里画坐标图?在word 里有了坐标图,文字却加不加去怎么办?

答:作图时直接将文字加上去;word 中的绘图工具条,文字环绕里面寻找合适的方案,把图放在文字的底层

57. 问:WORD 文件有密码,怎么办呢?

答:找破解软件,比如advanced_office_2000_password_recovery_pro_v1.03,但不一定好用。

58. 问:怎么给word 文档加密?

答:打开文档,另存为―工具―常规选项―打开、修改权限密码,保存

59. 问:Word 文件怎么转化为postscript 文件?

答:先转化为pdf,然后打印到文件,通过distiller 生成ps。

60. 问:Word 无法识别origin 中的汉字怎么办?用origin 做的图形中有汉字,copy 到word 中就成了问号,因此我不得不先用export 把图形变为jpg 文件才能解决这个问题,有没有方便的解决办法?

答:ORIGIN 里面的字体改成宋体或者仿宋

61. 问:请教怎么把Origin 中的图表拷贝到Word?

答:点origin 的Edit 菜单里的copypage 到word 里粘贴就行了

62. 问:把origin 的图复制粘贴到word,总有一大块的空白,这个空白有什么工具可以去掉吗?还有就是用word 自带的图表工具画图时,也是有一大块空白去不掉,这个可以解决吗?

答:右键选择图片工具栏,点裁减

63. 问:插入的图片为什么老是处于页面的顶端,想拖下来放到其他地方,却又自动跑到顶端去,就是拖不下来,请问该如何处理

答:改变图片的属性,就可以了。

64. 问:如何保证一幅图像固定在某一段的后面,另一段的前面,而不会因为前面段落的删减而位置改变?

答:右键点击图片->设置对象格式―>版式―>嵌入型

65. 问:如何把在WORD 里面图形工具画的图转化为jpg?

答:另存为html 格式,然后在html 文件对应的文件夹里找

66. 问:请问什么格式的图片插入word 最清晰?手头持有png 和tif格式,复制粘贴到word 中模糊一片,请问转换成什么图片格式用于word 最清晰?什么方法(插入图片来自文件还是直接复制粘贴)对清晰度有否影响?

答:emf,eps 等矢量图最清晰,不会因为缩放损失分辨率,而jpeg,bmp 等点阵图就不行了。

67. 问:在WORD 中如何让图片的左、上、下边都是文本?

答:在分栏的数量为1的情况下实现。图片选中后右键,设置图片格式--版式-四周型就可以了

68. 问:jpg 文件插入word 文件以后怎么让文件变小?jpg 格式图片插到word文件以后文件变的巨大,有什么方法可以让它小一点?最好能一张软盘放的下。

答:两个方法:用photoshop 改变图片的分辨率,当然要看得清楚,然后插入wordword 有强大的压缩功能,把文档另存为比如:temp.doc,看看是不是小了很多。

69. 问:Matlab 仿真图片大家一般怎么弄到word 里面的?相对横轴和纵轴修改一下的说

答:一般都是在Matlab 里面把所有的直接修改好了,然后再保存的时候用jpg 格式,在word 中间导入就好了

70. 问:如何向WORD 中的图片添加文本?想在图片上输入一些说明文字

答:插入文本框,将版式设成“悬浮”在WORD 的绘图工具里面有个自选图形,找到你要的括号,直接在页面上画就可以了。可以移动,大小也可以改。新浪微博黑客师然后把他挪到文字边上,即可。

一个小窍门就是用CTRL+箭头可以进行微调。如果你觉得经常需要对这些文字编辑,怕图形错位的话,可以将需要的文字打在一个文本框里,记得将文本框设置成透明无色的(这样就看不见文本框了),然后将文本框和你的括号(或其他符号)组合成一个图形,就万无一失了

71. 问:AUTOCAD 的图拷贝到WORD 下如何处理?

答:有几种办法:一是可以在WORD 中进行CAD 编辑的方法:将CAD的背景设为白色,然后将CAD 窗口缩小,到你想复制的图形的大小,正好可以容纳就可以了,否则WORD 里面有很大的空白,然后,拷贝,选中所有的图形中的线条,右键。到WORD 中粘贴。二是,先转为wmf 文件,具体先将窗口缩小,如上,然后,按emport,选中线条,存储。WORD 中,插入,图形,来自, 文件,找到文件就可以插入了。

72. 问:文章用WORD 打开时,原有的公式全是红叉,以及WORD 中图变成red cross(红叉)怎么办?

答:基本上没有办法挽救回来了,只能重新插一遍图。据微软的技术支持所说,红叉是由于资源不够引起的。也就是说,如果你所编辑的文档过大,可能因为资源问题导致图片无法调入,从而显示红叉。@黑客师 整理制作 可是实际情况是,有时候所编辑的文档并不大,可是还是出现红叉。这就可能是因为你设置了快速保存,在选项菜单中可以找到。

这是由WORD 的文档结构所决定的。当你设置为快速保存时,每次保存的时候只是把你改动过的部分添加到文档尾部,并不重写文档本身,以达到快速的目的。所以,你会看到一个本来并不长的文档的实际大小可能有好几兆。当取消了快速保存后,文档长度将大大减小。还有一个减小红叉出现可能性的办法是把图片的属性中的"浮动"去掉。这样可能在编辑的时候有一定的困难,但是对于避免红叉的出现确实很灵。再说一句,一旦红叉出现了,应该是没有办法恢复的,只有再重新贴图。

73. 问:如果Word 突然定在那里了怎么办?

答:重新打开会回复,或者在word自身的templates 里面找到近期文件,重写的不用太多。

74. 问:如何解决word 说磁盘已满不让保存的问题?

答:有时候,当要保存一个文件时,Word 会弹出一个对话框说是磁盘空间已满,无法保存文件,可实际上磁盘上空间还很大。

这是非常令人恼火的一件事情。这一信息最常见的原因是Temp 文件夹已经达到了一个文件夹中可以包含的最多文件数的上限。

这时的解决方法很简单:在【资源管理器】中右击安装有Windows 系统的磁盘,在出现的快捷菜单中单击【属性】,将出现【属性】对话框,从【常规】选项卡中选择【磁盘清理】按钮,此时将出现【磁盘清理】对话框。

执行磁盘清理完毕以后,Windows 会弹出一个新的对话框。在【要删除的文件】框中选中【临时文件】选项,然后选择【确定】。Windows 将删除临时文件。

要人工删除临时文件,进入临时文件夹,删除任何旧的临时文件(临时文件以波浪号开始,以.tmp 扩展名结束),返回Word,再次试着保存文件。@黑客师整理制作 如果此时还不能正确保存文档,可以采取以下的方法,步骤如下:

(l)按Ctrl+A 选定整个文档。

(2)按Ctrl+C 将整个文档复制到内存中。

(3)关闭Word 程序。此时系统会提示:"您将大量文本放在了'剪贴板'中,是否希望在退出Word 后这些文本仍可用于其他程序?"。

(4)选择【是】按钮。

(5)重新打开Word 程序。

(6)按Ctrl+V,将复制下来的文本粘贴到新文件中。注意:在删除临时文件时,可能会出现一个对话框,提示不能删除正在使用的文件。这是因为Windows 运行的时候,需要不断地用到一些临时文件。因而,在人工删除临时文件时,试着在开始时只删除几个文件,然后对桌面上的回收站进行清空。否则可能无法删除所有选择的文件

TML基本语法

认识网页

网页主要由文字、图像和超链接等元素构成。当然,除了这些元素,网页中还可以包含音频、视频以及Flash等。

常见浏览器内核介绍

浏览器是网页运行的平台,常用的浏览器有IE、火狐(Firefox)、谷歌(Chrome)、Safari和Opera等。我们平时称为五大浏览器。

浏览器内核(理解)

浏览器内核又可以分成两部分:渲染引擎(layout engineer 或者 Rendering Engine)和 JS 引擎。
渲染引擎 它负责取得网页的内容(HTML、XML、图像等等)、整理讯息(例如加入 CSS 等),以及计算网页的显示方式,然后会输出至显示器或打印机。浏览器的内核的不同对于网页的语法解释会有不同,所以渲染的效果也不相同。
JS 引擎 则是解析 Javascript 语言,执行 javascript语言来实现网页的动态效果。

最开始渲染引擎和 JS 引擎并没有区分的很明确,后来 JS 引擎越来越独立,内核就倾向于只指渲染引擎。有一个网页标准计划小组制作了一个 ACID 来测试引擎的兼容性和性能。内核的种类很多,如加上没什么人使用的非商业的免费内核,可能会有10多种,但是常见的浏览器内核可以分这四种:Trident、Gecko、Blink、Webkit。

(1)Trident(IE内核)

国内很多的双核浏览器的其中一核便是 Trident,美其名曰 "兼容模式"。

代表: IE、傲游、世界之窗浏览器、Avant、腾讯TT、猎豹安全浏览器、360极速浏览器、百度浏览器等。

Window10 发布后,IE 将其内置浏览器命名为 Edge,Edge 最显著的特点就是新内核 EdgeHTML。

(2)Gecko(firefox)

Gecko(Firefox 内核): Mozilla FireFox(火狐浏览器) 采用该内核,Gecko 的特点是代码完全公开,因此,其可开发程度很高,全世界的程序员都可以为其编写代码,增加功能。 可惜这几年已经没落了, 比如 打开速度慢、升级频繁、猪一样的队友flash、神一样的对手chrome。

(3) webkit(Safari)

Safari 是苹果公司开发的浏览器,所用浏览器内核的名称是大名鼎鼎的 WebKit。

现在很多人错误地把 webkit 叫做 chrome内核(即使 chrome内核已经是 blink 了),苹果感觉像被别人抢了媳妇,都哭晕再厕所里面了。

代表浏览器:傲游浏览器3、 Apple Safari (Win/Mac/iPhone/iPad)、Symbian手机浏览器、Android 默认浏览器,

(4) Chromium/Blink(chrome)

在 Chromium 项目中研发 Blink 渲染引擎(即浏览器核心),内置于 Chrome 浏览器之中。Blink 其实是 WebKit 的分支。

? 大部分国产浏览器最新版都采用Blink内核。二次开发

(5) Presto(Opera)

Presto(已经废弃) 是挪威产浏览器 opera 的 "前任" 内核,为何说是 "前任",因为最新的 opera 浏览器早已将之抛弃从而投入到了谷歌怀抱了。

移动端的浏览器内核主要说的是系统内置浏览器的内核。

Android手机而言,使用率最高的就是Webkit内核,大部分国产浏览器宣称的自己的内核,基本上也是属于webkit二次开发。

iOS以及WP7平台上,由于系统原因,系统大部分自带浏览器内核,一般是Safari或者IE内核Trident的

Web标准(重点)

通过以上浏览器的内核不同,我们知道他们工作原理、解析肯定不同,显示就会有差别。

Web 标准的好处

1、让Web的发展前景更广阔
2、内容能被更广泛的设备访问
3、更容易被搜寻引擎搜索
4、降低网站流量费用
5、使网站更易于维护
6、提高页面浏览速度

Web 标准构成

Web标准不是某一个标准,而是由W3C和其他标准化组织制定的一系列标准的集合。

主要包括结构(Structure)、表现(Presentation)和行为(Behavior)三个方面。

结构标准:结构用于对网页元素进行整理和分类,咱们主要学的是HTML。 最重要
表现标准:表现用于设置网页元素的版式、颜色、大小等外观样式,主要指的是CSS。
行为标准:行为是指网页模型的定义及交互的编写,咱们主要学的是

理想状态我们的源码: .HTML .css .js

HTML 初识

一般先学习HTML+CSS, 这里我们先定一个小目标,先学HTML,后学习CSS。

HTML(英文Hyper Text Markup Language的缩写)中文译为“超文本标签语言”。是用来描述网页的一种语言。

所谓超文本,因为它可以加入图片、声音、动画、多媒体等内容,不仅如此,它还可以从一个文件跳转到另一个文件,与世界各地主机的文件连接。

<h1> 我是一个大标题 </h1>

注意: 体会 文本 标签 语言 几个词语

  • HTML 指的是超文本标记语言 (Hyper Text Markup Language)
  • HTML 不是一种编程语言,而是一种标记语言 (markup language)
  • 标记语言是一套标记标签 (markup tag)

总结: HTML 作用就是用标记标签来描述网页,把网页内容在浏览器中展示出来。

用文字来描述网页标签

HTML骨架格式

日常生活的书信,我们要遵循共同的约定。

同理:HTML 有自己的语言语法骨架格式:

<HTML>   
    <head>     
        <title></title>
    </head>
    <body>
    </body>
</HTML>
1 HTML标签:

作用所有HTML中标签的一个根节点。 最大的标签   根标签

2 head标签: 文档的头部

文档的头部描述了文档的各种属性和信息,包括文档的标题、在 Web 中的位置以及和其他文档的关系等。绝大多数文档头部包含的数据都不会真正作为内容显示给读者。

注意在head标签中我们必须要设置的标签是title

3.title标签: 文档的标题

作用:让页面拥有一个属于自己的标题。

4.body标签:文档的主体  以后我们的页面内容 基本都是放到body里面的

body 元素包含文档的所有内容(比如文本、超链接、图像、表格和列表等等。)

HTML标签分类

在HTML页面中,带有“< >”符号的元素被称为HTML标签,如上面提到的 <HTML>、<head>、<body>都是HTML骨架结构标签。所谓标签就是放在“< >” 标签符中表示某个功能的编码命令,也称为HTML标签或 HTML元素

1.双标签

<标签名> 内容 </标签名>

该语法中“<标签名>”表示该标签的作用开始,一般称为“开始标签(start tag)”,“” 表示该标签的作用结束,一般称为“结束标签(end tag)”。和开始标签相比,结束标签只是在前面加了一个关闭符“/”。

比如 <body>我是文字  </body>

2.单标签

<标签名 />

单标签也称空标签,是指用一个标签符号即可完整地描述某个功能的标签。

比如  <br />

HTML标签关系

标签的相互关系就分为两种:

1.嵌套关系

<head>  <title> </title>  </head>

2.并列关系

<head></head>
<body></body>

倡议: 如果两个标签之间的关系是嵌套关系,子元素最好缩进一个tab键的身位。如果是并列关系,最好上下对齐。

文档类型<!DOCTYPE>

<!DOCTYPE html> 

同学你用啥手机?你咋回答?

这句话就是告诉我们使用哪个html版本? 我们使用的是 html 5 的版本。 html有很多版本,那我们应该告诉用户和浏览器我们使用的版本号。

<!DOCTYPE> 标签位于文档的最前面,用于向浏览器说明当前文档使用哪种 HTML 或 XHTML 标准规范,必需在开头处使用<!DOCTYPE>标签为所有的XHTML文档指定XHTML版本和类型,只有这样浏览器才能按指定的文档类型进行解析。

注意: 一些老网站可能用的还是老版本的文档类型比如 XHTML之类的,但是我们学的是HTML5,而且HTML5的文档类型兼容很好(向下兼容的原则),所以大家放心的使用HTML5的文档类型就好了。

字符集

utf-8是目前最常用的字符集编码方式,常用的字符集编码方式还有gbk和gb2312。

gb2312 简单中文 包括6763个汉字

BIG5 繁体中文 港澳台等用

GBK包含全部中文字符 是GB2312的扩展,加入对繁体字的支持,兼容GB2312

UTF-8则包含全世界所有国家需要用到的字符

记住一点,以后我们统统使用UTF-8 字符集, 这样就避免出现字符集不统一而引起乱码的情况了。

HTML标签的语义化

白话: 所谓标签语义化,就是指标签的含义,使用做合适的标签做做合适的事,比如标题用 h 标签而不是 div 标签。

为什么要有语义化标签

  1. 方便代码的阅读和维护
  2. 同时让浏览器或是网络爬虫可以很好地解析,从而更好分析其中的内容
  3. 使用语义化标签会具有更好地搜索引擎优化

核心:合适的地方给一个最为合理的标签。

语义是否良好: 当我们去掉CSS之后,网页结构依然组织有序,并且有良好的可读性。

白话,一眼看去,就知道那个是重点,结构是什么,知道每块的内容是干啥的。

遵循的原则:先确定语义的HTML ,再选合适的CSS。

HTML常用标签

首先 HTML和CSS是两种完全不同的语言,我们学的是结构,就只写HTML标签,认识标签就可以了。 不会再给结构标签指定样式了。

HTML标签有很多,这里我们学习最为常用的,后面有些较少用的,我们可以查下手册就可以了。

排版标签

排版标签主要和css搭配使用,显示网页结构的标签,是网页布局最常用的标签。

标题标签 (熟记)

单词缩写: head 头部. 标题 title 文档标题

为了使网页更具有语义化,我们经常会在页面中用到标题标签,HTML提供了6个等级的标题,即

<h1>、<h2>、<h3>、<h4>、<h5>和<h6>

标题标签语义:  作为标题使用,并且依据重要性递减

其基本语法格式如下:

<hn>   标题文本   </hn>

注意: h1 标签因为重要,尽量少用,不要动不动就向你扔了一个h1。 一般h1 都是给logo使用,或者页面中最重要标题信息。

段落标签( 熟记)

单词缩写: paragraph 段落

在网页中要把文字有条理地显示出来,离不开段落标签,就如同我们平常写文章一样,整个网页也可以分为若干个段落,而段落的标签就是

<p>  文本内容  </p>

是HTML文档中最常见的标签,默认情况下,文本在一个段落中会根据浏览器窗口的大小自动换行。

水平线标签(认识)

单词缩写: horizontal 横线 [?h?r??zɑntl] 同上

在网页中常常看到一些水平线将段落与段落之间隔开,使得文档结构清晰,层次分明。这些水平线可以通过插入图片实现,也可以简单地通过标签来完成,


就是创建横跨网页水平线的标签。其基本语法格式如下:


<hr />是单标签

在网页中显示默认样式的水平线。

换行标签(熟记)

单词缩写: break 打断 ,换行

在HTML中,一个段落中的文字会从左到右依次排列,直到浏览器窗口的右端,然后自动换行。如果希望某段文本强制换行显示,就需要使用换行标签

<br />

这时如果还像在word中直接敲回车键换行就不起作用了。

div span标签(重点)

div span 是没有语义的 是我们网页布局主要的2个盒子 css+div

div 就是 division 的缩写 分割, 分区的意思 其实有很多div 来组合网页。

span, 跨度,跨距;范围

语法格式:

<div> 这是头部 </div>    <span>今日价格</span>

文本格式化标签(熟记)

在网页中,有时需要为文字设置粗体、斜体或下划线效果,这时就需要用到HTML中的文本格式化标签,使文字以特殊的方式显示。

标签属性

属性就是特性 比如 手机的颜色 手机的尺寸 ,总结就是手机的。。

手机的颜色是黑色 手机的尺寸是 8寸

水平线的长度是 200

图片的宽度 是 300 键 值对

使用HTML制作网页时,如果想让HTML标签提供更多的信息,可以使用HTML标签的属性加以设置。其基本语法格式如下:

<标签名 属性1="属性值1" 属性2="属性值2" …> 内容 </标签名>

在上面的语法中,

1.标签可以拥有多个属性,必须写在开始标签中,位于标签名后面。

2.属性之间不分先后顺序,标签名与属性、属性与属性之间均以空格分开。

3.任何标签的属性都有默认值,省略该属性则取默认值。

采取 键值对 的格式 key="value" 的格式

比如:

<hr width="400" />

属性 是 宽度

值 是 400

提倡: 尽量不使用 样式属性。

图像标签img (重点)

单词缩写: image 图像

HTML网页中任何元素的实现都要依靠HTML标签,要想在网页中显示图像就需要使用图像标签,接下来将详细介绍图像标签以及和他相关的属性。其基本语法格式如下:

该语法中src属性用于指定图像文件的路径和文件名,他是img标签的必需属性。

<img src="图像URL" />

链接标签(重点)

单词缩写: anchor 的缩写 [???k?(r)] 。基本解释 锚, 铁锚 的

在HTML中创建超链接非常简单,只需用标签环绕需要被链接的对象即可,其基本语法格式如下:

<a href="跳转目标" target="目标窗口的弹出方式">文本或图像</a>

href:用于指定链接目标的url地址,当为标签应用href属性时,它就具有了超链接的功能。 Hypertext Reference的缩写。意思是超文本引用

target:用于指定链接页面的打开方式,其取值有_self和_blank两种,其中_self为默认值,_blank为在新窗口中打开方式。

注意:

1.外部链接 需要添加 http:// www.baidu.com

2.内部链接 直接链接内部页面名称即可 比如 < a href="index.html"> 首页

3.如果当时没有确定链接目标时,通常将链接标签的href属性值定义为“#”(即href="#"),表示该链接暂时为一个空链接。

4.不仅可以创建文本超链接,在网页中各种网页元素,如图像、表格、音频、视频等都可以添加超链接。

锚点定位 (难点)

通过创建锚点链接,用户能够快速定位到目标内容。
创建锚点链接分为两步:

1.使用“a href=”#id名>“链接文本"</a>创建链接文本(被点击的)
  <a href="#two">   

2.使用相应的id名标注跳转目标的位置。
  <h3 id="two">第2集</h3> 

base 标签 基本的

base 可以设置整体链接的打开状态

base 写到 <head> </head> 之间

把所有的连接 都默认添加 target="_blank"

特殊字符标签 (理解)

注释标签

在HTML中还有一种特殊的标签——注释标签。如果需要在HTML文档中添加一些便于阅读和理解但又不需要显示在页面中的注释文字,就需要使用注释标签。其基本语法格式如下:
?

    <!-- 注释语句 -->   ctrl + /       或者 ctrl +shift + / 

注释内容不会显示在浏览器窗口中,但是作为HTML文档内容的一部分,也会被下载到用户的计算机上,查看源代码时就可以看到。

路径(重点、难点)

实际工作中,通常新建一个文件夹专门用于存放图像文件,这时再插入图像,就需要采用“路径”的方式来指定图像文件的位置。

路径可以分为: 相对路径和绝对路径

相对路径

以引用文件之网页所在位置为参考基础,而建立出的目录路径。因此,当保存于不同目录的网页引用同一个文件时,所使用的路径将不相同,故称之为相对路径。

  1. 图像文件和HTML文件位于同一文件夹:只需输入图像文件的名称即可,如<img src="logo.gif" />。
  2. 图像文件位于HTML文件的下一级文件夹:输入文件夹名和文件名,之间用“/”隔开,如<img src="img/img01/logo.gif" />。
  3. 图像文件位于HTML文件的上一级文件夹:在文件名之前加入“../” ,如果是上两级,则需要使用 “../ ../”,以此类推,如<img src="../logo.gif" />。绝对路径

绝对路径以Web站点根目录为参考基础的目录路径。之所以称为绝对,意指当所有网页引用同一个文件时,所使用的路径都是一样的

“D:\web\img\logo.gif”,或完整的网络地址,例如
“http://www.itcast.cn/images/logo.gif”

列表标签

无序列表 ul (重点)

无序列表的各个列表项之间没有顺序级别之分,是并列的。其基本语法格式如下:

<ul>
  <li>列表项1</li>
  <li>列表项2</li>
  <li>列表项3</li>
  ......
</ul>

比如下面这些,新闻是没有顺序的,不用排队,先到先得,后发布先显示。

 1. <ul></ul>中只能嵌套<li></li>,直接在<ul></ul>标签中输入其他标签或者文字的做法是不被允许的。
 2. <li>与</li>之间相当于一个容器,可以容纳所有元素。
 3. 无序列表会带有自己样式属性,放下那个样式,一会让CSS来!

有序列表 ol (了解)

有序列表即为有排列顺序的列表,其各个列表项按照一定的顺序排列定义,有序列表的基本语法格式如下:

<ol>
  <li>列表项1</li>
  <li>列表项2</li>
  <li>列表项3</li>
  ......
</ol>

所有特性基本与ul 一致。

自定义列表(理解)

定义列表常用于对术语或名词进行解释和描述,定义列表的列表项前没有任何项目符号。其基本语法如下:

<dl>
  <dt>名词1</dt>
  <dd>名词1解释1</dd>
  <dd>名词1解释2</dd>
  ...
  <dt>名词2</dt>
  <dd>名词2解释1</dd>
  <dd>名词2解释2</dd>
  ...
</dl>

表格 table(会使用)

创建表格

在HTML网页中,要想创建表格,就需要使用表格相关的标签。创建表格的基本语法格式如下:

<table>
  <tr>
    <td>单元格内的文字</td>
    ...
  </tr>
  ...
</table>

在上面的语法中包含三对HTML标签,分别为 <table></table>、<tr></tr>、<td></td>,他们是创建表格的基本标签,缺一不可,下面对他们进行具体地解释

1.table用于定义一个表格。

2.tr 用于定义表格中的一行,必须嵌套在 table标签中,在 table中包含几对 tr,就有几行表格。

3.td /td:用于定义表格中的单元格,必须嵌套在<tr></tr>标签中,一对 <tr> </tr>中包含几对<td></td>,就表示该行中有多少列(或多少个单元格)。

注意:

1. <tr></tr>中只能嵌套<td></td>
2. <td></td>标签,他就像一个容器,可以容纳所有的元素

表格属性


三参为0
即:border cellpadding cellspacing 为 0

表头标签

表头单元格一般位于表格的第一行或第一列,其文本加粗居中,如下图所示,即为设置了表头的表格。设置表头非常简单,只需用表头标签<th></th>替代相应的单元格标签<td></td>即可。

表格结构

在使用表格进行布局时,可以将表格划分为头部、主体和页脚(页脚因为有兼容性问题,我们不在赘述),具体 如下所示:

<thead></thead>:用于定义表格的头部。

必须位于<table></table> 标签中,一般包含网页的logo和导航等头部信息。

<tbody></tbody>:用于定义表格的主体。

位于<table></table>标签中,一般包含网页中除头部和底部之外的其他内容。

表格标题

表格的标题: caption

定义和用法

caption 元素定义表格标题。

<table>
   <caption>我是表格标题</caption>
</table>

caption 标签必须紧随 table 标签之后。

只存在 表格里面

您只能对每个表格定义一个标题。通常这个标题会被居中于表格之上。

合并单元格

跨行合并:rowspan 跨列合并:colspan

合并单元格的思想:

? 将多个内容合并的时候,就会有多余的东西,把它删除。 例如 把 3个 td 合并成一个, 那就多余了2个,需要删除。

? 公式: 删除的个数=合并的个数 - 1

合并的顺序 先上 后下 先左 后右

  1. 先确定是跨行还是跨列合并
  2. 根据 先上 后下 先左 后右的原则找到目标单元格
  3. 删除单元格 删除的个数=合并的个数 - 1

总结表格

  1. 表格提供了HTML 中定义表格式数据的方法。
  2. 表格中由行中的单元格组成。
  3. 表格中没有列元素,列的个数取决于行的单元格个数。
  4. 表格不要纠结于外观,那是CSS 的作用。

表单标签(掌握)

表单目的是为了收集用户信息。

在我们网页中, 我们也需要跟用户进行交互,收集用户资料,此时也需要表单。

在HTML中,一个完整的表单通常由表单控件(也称为表单元素)、提示信息和表单域3个部分构成。

表单控件:

? 包含了具体的表单功能项,如单行文本输入框、密码输入框、复选框、提交按钮、重置按钮等。

提示信息:

? 一个表单中通常还需要包含一些说明性的文字,提示用户进行填写和操作。

表单域:

? 他相当于一个容器,用来容纳所有的表单控件和提示信息,可以通过他定义处理表单数据所用程序的url地址,以及数据提交到服务器的方法。如果不定义表单域,表单中的数据就无法传送到后台服务器。

input 控件(重点)

input 输入的意思

在上面的语法中,<input />标签为单标签,type属性为其最基本的属性 类型 ,其取值有多种,用于指定不同的控件类型。除了type属性之外,<input />标签还可以定义很多其他的属性,其常用属性如下表所示。

type 说明了属于那种表单

radio 如果是一组,我们必须给他们命名相同的名字 name 这样就可以多个选其中的一个啦

label标签(理解)

label 标签为 input 元素定义标注(标签)。

table

作用: 用于绑定一个表单元素, 当点击label标签的时候, 被绑定的表单元素就会获得输入焦点

如何绑定元素呢?

for 属性规定 label 与哪个表单元素绑定。

<label for="male">Male</label>
<input type="radio" name="sex" id="male" value="male">

textarea控件(文本域)

text 文本框 只能写一行文本呢

textarea 文本域

如果需要输入大量的信息,就需要用到<textarea></textarea>标签。通过textarea控件可以轻松地创建多行文本输入框,其基本语法格式如下:

<textarea cols="每行中的字符数" rows="显示的行数">
  文本内容
</textarea>

下拉菜单

使用select控件定义下拉菜单的基本语法格式如下 select 选择

<select>
  <option>选项1</option>
  <option>选项2</option>
  <option>选项3</option>
  ...
</select>

注意:

  1. <select></select>中至少应包含一对<option></option>。
  2. 在option 中定义selected=" selected "时,当前项即为默认选中项。

表单域

在HTML中,form标签被用于定义表单域,即创建一个表单,以实现用户信息的收集和传递,form中的所有内容都会被提交给服务器。创建表单的基本语法格式如下:

<form action="url地址" method="提交方式" name="表单名称">
  各种表单控件
</form>

常用属性:

  1. Action
    在表单收集到信息后,需要将信息传递给服务器进行处理,action属性用于指定接收并处理表单数据的服务器程序的url地址。
  2. method
    用于设置表单数据的提交方式,其取值为get或post。
  3. name
    用于指定表单的名称,以区分同一个页面中的多个表单。

器之心原创

作者:张倩

一百多年后,我们仍在为胡适提出的「整理国故,再造文明」而努力,但技术的发展让我们能够以一种新的形式完成这项历史使命。

1919 年 12 月,胡适在《新青年》杂志发表《新思潮的意义》一文,提出建设新文化的理论原则:「研究问题、输入学理、整理国故、再造文明。」由此在学术界引起了一场规模较大的「整理国故运动」。

在他看来,中国的古籍,实在是缺乏系统性。这就导致「一般青年,对于中国本来的文化和学术,都缺乏研究的兴趣」。所以,他希望大家都能「下一番真实的工夫,使彼成为有系统的…… 方能使人有研究的兴趣,并能使有研究兴趣的人容易去研究。」这场「整理国故运动」对于史料的保存与挖掘、中西方文化的连接与融合都起到了非常积极的作用。

经过一百多年陆陆续续的整理,我们的古籍已经具备了一定的系统性,也有越来越多的青年对它们产生了浓厚的兴趣,并从中汲取灵感和养料进行艺术创作。但新的问题开始涌现:古籍被整理好后就放入了图书馆、博物馆妥善保存,普通人想看一眼并不容易。如何让「有研究兴趣的人容易去研究」、让文明触手可及成为了新时代「整理国故」的新命题。

近日,由字节跳动和北京大学数字人文实验室、国家图书馆联合推出的古籍数字化阅读平台「识典古籍」的上线为这个新命题提供了一种解法。

平台链接:https://www.shidianguji.com/

「识典古籍」目前涵盖了 390 部经典古籍(主要来自《四部丛刊》),共计 3000 多万字。与之前访问门槛比较高的一些数字化平台不同,「识典古籍」是完全免费的,而且增加了简繁转换、原本影像对照、全文检索、注疏辅助等一系列便捷功能,人名、地名、书籍、时间、官职等信息都标注了出来还添加了标点符号,真正做到了让普通人也能走近古籍,深入了解其中的文化内涵。

「识典古籍」支持多种检索方式,比如按古籍类别(经、史、子、集)检索以及按关键词、书名、作者检索等。

「识典古籍」的注疏展示和原本影像对照功能展示。

在「识典古籍」之前,我们也能找到一些类似的数字化古籍平台,比如中国哲学书电子化计划(Chinese Text Project)、书同文古籍数据库等。这些平台有着各自的优势,但也有不同局限。书同文古籍数据库收费较高,普通读者无法随时随地进查阅和使用。中国哲学书电子化计划目前囊括了超过三万部著作,但未能解决一个基本问题——用户常常无法访问。相比之下,「识典古籍」访问起来要便利得多。

这类数字化平台的出现不仅是丰富大众文化生活的需要,也是解决当前古籍保护、传承困境的有效方法。

而且,「识典古籍」项目负责人对媒体解释说,「识典古籍」不只是一个数字化平台,还是一个针对古籍保护的完整项目,包括古籍修复、数字化、活化三大方向。该项目融合了字节跳动积累的文字识别、自动标点、命名实体识别等多项 AI 技术以及来自北京大学等各大高校的学者和文献专家的丰富经验,将为古籍的保护和传承贡献重要的力量。

古籍保护、传承面临的困境

「史在他邦,文归海外」

今年 10 月 3 日,中国人物画史上最杰出的画作之一——《女史箴图》绢本在大英博物馆迎来一年一度的开放展出季。此画是现存已知的最早的中国画长卷之一,笔法如春蚕吐丝,形神兼备。可惜的是,国人要想欣赏这幅画作,也只能远赴伦敦。

《女史箴图》代表了很多中国古籍面临的困境。它们在战争时期被人掠夺或走私到海外,流失、散佚在各国博物馆、图书馆、私人收藏家手中。因此,原文化部副部长兼文物局局长郑振铎曾写下慨叹:「史在他邦,文归海外」。

1949 年前,郑振铎、张元济等学者曾以个人之力收购古籍。1949 年之后,国家对于流失海外的中华古籍的回归一直非常重视,通过政府收购、专项调查等方式促使古籍以各种形式回归祖国。海外华人也基于爱国之情不断将获得的古籍捐赠给祖国。但比起数量巨大的流失古籍,能够顺利回归的古籍原件还是非常之少,普通国人更是没有近距离接触这些流失古籍的渠道。

在这种情况下,古籍的数字化回归是一种更为实际的解决方案

修复难,数字化也难

我国古籍数量众多,但真正能在网上查阅的数量却很少。造成这种现象的原因是多方面的。

首先,我国古籍现存几十万种,但经过兵燹水火的损毁,只有一部分是保存完好的,其他很多都需要先修复、再数字化。

古籍修复工作之一——碎片连缀。图源:《穿越时空的古籍》

其次,当前的古籍修复、数字化还面临工作效率低、人手短缺等困境。

效率方面,普通古籍修复、整理团队所能调动的资源往往比较有限,一个团队可能只有两台扫描仪,工作效率很难提升。

人才方面,很多人相信「一万小时定律」,但在古籍修复领域,「一万个小时恐怕出不来一个熟手,两万个小时未必能造就一个大师,而且他(她)本人还要努力,」国家图书馆副馆长、国家古籍保护中心副主任张志清感慨说。据统计,全国各高校、社会层面做古典文献专业的人加起来不到 1 万人。

如果以这样的速度、条件修复、整理下去,北京大学数字人文研究中心主任王军算过一笔账:我国现存古籍约有 20 万种,从 1949 年到 2019 年,共修复整理出版了近 38000 种,要将现存古籍全部修复整理出来,可能需要三百年的时间。

可见,古籍的数字化需要一场生产效率的变革

人工智能让古籍焕发新生

近几年,国内科技企业正越来越多地参与到古籍的数字化工作中来。比如在 2021 年,阿里巴巴的「汉典重光」平台帮助一批珍藏于美国加州大学伯克利分校的中文古籍善本,以数字化方式回归故土,首批 20 万页古籍已完成数字化,并沉淀为覆盖 3 万多字的古籍字典。公众可通过该平台翻阅、检索古籍。

无论是「汉典重光」还是「识典古籍」,我们都能看到 AI 技术在提高古籍数字化效率方面发挥的作用。

「识典古籍」项目负责人介绍说,为了实现全文检索、标点添加、人名地名标注等功能,「识典古籍」用到了字节跳动积累的文字识别、自动标点、命名实体识别等多项 AI 技术,克服了古籍数字化过程中的很多难题。

字节跳动

文字识别

文字识别就是用 OCR 技术对古籍的影印版文字进行单个切分、文字识别、顺序识别。所谓文字切分,是指古籍扫描件中的单字检测技术,能够获取每个字符的具体位置。文字识别就是将切分的图片送入文字识别模型,获取每个文字的具体编码。顺序识别就是结合文字内容和文字位置,获取整张古籍扫描件的阅读顺序。

这一流程的难点在于,古籍用的是繁体字,而繁体字又存在异体字和生僻字,同样一个简体字在古籍中的写法可能有十几种,如何识别并将它们在搜索结果中完整呈现是一项巨大的挑战。目前行业内 OCR 识别准确率平均为 93% 至 94%,「识典古籍」的准确率可以达到 96% 至 97%

常见异体字辨别。图源:http://www.xuehuile.com/blog/b6894345d9d446c7b80149c265afc264.html

自动标点

自动标点技术是通过序列标注的方式自动为古籍添加标点。这项工作之前都是由专家、学者来完成,因为他们对古籍有足够的了解。

目前,AI 已经能够胜任一部分工作。「识典古籍」已经支持「,。?!、:;」七种标点。但由于古籍的自然语言理解比普通文本要难得多,目前 AI 还是会犯一些错误(3% 到 4% 左右)。

随着算法的迭代,项目团队有望将标点准确率提升到 98% 左右

命名实体识别

命名实体识别是通过序列标注,识别古籍文本中的命名实体。「识典古籍」支持识别人名、地名、书籍、时间、官职这五种类型的实体,但它的最终形态并不会止步于此。

「识典古籍」项目负责人介绍说,随着平台版本的迭代,他们希望用知识图谱技术将这些人名、书名、地名等信息关联起来,并将其与百科业务打通,为读者提供更加系统的上下文背景信息。

当然,这些技术也离不开人的支持。王军表示,北大在这次合作中联合各大高校学者和文献专家,负责人工审核与校对,弥补人工智能有识别错误率的短板,并利用自有学术平台,连接更多专业研究者和学生群体。

在这一系列技术的支撑下,我们不需要再花 300 年才能把 26 万本古籍转换过来,也许我们 30 年就能做到,」王军说。

古籍数字化的下一步:活化

如今,古籍的保护和传承正在受到前所未有的重视。今年 4 月,中共中央办公厅、国务院办公厅印发了《关于推进新时代古籍工作的意见》。今年的全国两会上,「加强文物古籍保护利用」首次被写进《政府工作报告》。各大科技公司也在积极响应这些号召,在古籍保护、传承工作中发挥自己的优势。

就「识典古籍」而言,它还存在很多可以改进的地方,比如典籍数量较少、标点错误率较高,文字也有一定的错误存在。

目前,北京大学 - 字节跳动数字人文开放实验室已经制定了初步目标:在未来三年内陆续完成 10000 种古籍的智能化整理工作,基本覆盖儒家、道家和佛学的核心典籍目录。项目团队的技术理想是通过人工智能算法实现古籍全自动整理校对。如果能够实现这样的能力,他们也非常愿意将其开放给全社会,让所有整理古籍的人都能够免费使用他们的平台。

在聊完古籍的数字化问题之后,王军提出了一个更加尖锐的问题:「如何让一个习惯刷手机的普通用户来看这些晦涩难懂的古代文献呢?

他给出的答案是:重新阐释。「这种重新阐释不是一字一句去翻译,而是要跟当代人生活结合在一起,为我们当代人精神提供养料,这样才能真正实现活化,」王军解释说。

这种「活化」的提法和胡适的「整理国故,再造文明」是一脉相承的,但也有其时代创新性。

王军认为,放到今天的全球互联网语境下,「再造文明」意味着我们要将整理古籍这件事放到全球文明体系下来看待,「我们保护的不仅仅是中华文明,而是全人类的珍贵文化遗产,所以我们要放在这个大的文明体系下来重新审视我们自己的文明。就像胡适这一批知识分子说的,典籍的重新整理不仅要连接过去与现代,而且要沟通东方和西方,否则就变成一种孤芳自赏。

这也是北京大学和字节跳动合作的一个终极目标,即要打造融媒体环境下典籍传承的完整生态,为当代人提供心灵滋养和精神寄托。