绍
网页抓取是一种重要的技术,经常在许多不同的环境中使用,尤其是数据科学和数据挖掘。 Python在很大程度上被认为是网络抓取的首选语言,其原因在于Python的内嵌电池特性。 使用Python,您可以在大约15分钟内使用不到100行代码创建一个简单的抓取脚本。 因此,无论何种用途,网页抓取都是每个Python程序员必须具备的技能。
在我们开始动手之前,我们需要退后一步,考虑什么是网页抓取,什么时候应该使用它,何时避免使用它。
如您所知,网页抓取是一种用于从网站自动提取数据的技术。 重要的是要理解,网页抓取是一种从各种来源(通常是网页)中提取数据的粗略技术。 如果网站的开发人员足够慷慨地提供API来提取数据,那么访问数据将是一种更加稳定和健壮的方式。 因此,根据经验,如果网站提供API以编程方式检索其数据,请使用它。 如果API不可用,则只能使用网络抓取。
请务必遵守有关您使用的每个网站的网页抓取的任何规则或限制,因为有些网站不允许这样做。 有了这个清楚的认识,让我们直接进入教程。
在本教程中,我们将抓取http://quotes.toscrape.com/,这是一个列出着名作家名言的网站。
网页抓取管道
我们可以将web-scraping理解为包含3个组件的管道:
下载:下载HTML网页
解析:解析HTML并检索我们感兴趣的数据
存储:以特定格式将检索到的数据存储在本地计算机中
下载HTML
从网页中提取任何数据,从逻辑上讲,我们首先要下载它。 我们有两种方法可以做到这一点:
1.使用浏览器自动化库
您可以使用Selenium等浏览器自动化库从网页下载HTML。 Selenium允许您打开浏览器,比方说Chrome,并根据需要控制它。 您可以在浏览器中打开网页,然后使用Selenium自动获取该页面的HTML代码。
但是,这种方法有一个很大的缺点 - 它明显变慢。 原因是运行浏览器并在浏览器中呈现HTML的开销。 此方法仅应用于特殊情况 - 我们要抓取的内容在浏览器中使用JavaScript代码,或者要求我们单击按钮/链接以获取数据,Selenium可以为我们执行此操作。
2.使用HTTP库
与第一种方法不同,HTTP库(例如Requests模块或Urllib)允许您发送HTTP请求,完全不需要打开任何浏览器。 这种方法应该始终是首选,因为它比Selenium快得多。
现在让我告诉您如何使用Selenium和Requests库实现管道这个组件:
使用Requests
使用以下命令安装Requests模块:
现在您可以在代码中使用它,如下所示:
这里,对URL进行HTTP GET请求,这几乎与下载网页同义。 然后,我们可以通过访问requests.get方法返回的结果对象来获取页面的HTML源代码。
使用Selenium
您可以通过pip安装selenium模块:
在这里,我们首先创建一个表示浏览器的webdriver对象。 这样做会在运行代码的计算机上打开Chrome浏览器。 然后,通过调用webdriver对象的get方法,我们可以打开URL。 最后,我们通过访问webdriver对象的page_source属性来获取源代码。
在这两种情况下,URL的HTML源都作为字符串存储在page变量中。
解析HTML和提取数据
不必深入计算机科学理论,我们可以将解析定义为分析字符串的过程,以便我们可以理解其内容,从而轻松访问其中的数据。
在Python中,有两个库可以帮助我们解析HTML:BeautifulSoup和Lxml。 Lxml是一个比BeautifulSoup更低级的框架,我们可以在BeautifulSoup中使用Lxml作为后端,因此对于简单的HTML解析,BeautifulSoup将是首选的库。
但在我们深入分析之前,我们必须分析网页的HTML,看看我们想要抓取的数据是如何构建和定位的。只有当我们掌握了这些信息时,我们才能从解析的HTML中获取我们想要的信息。但幸运的是,我们不必在编辑器中打开源代码,并手动理解每个HTML元素并将其与渲染页面中的相应数据相关联。大多数浏览器都提供了一个检查器,比如Chrome的开发人员工具,它使我们只需单击它们即可快速查看任何元素的HTML代码。
要在Chrome中执行此操作,请在Chrome中打开网页,然后右键单击要抓取的数据,然后选择“检查”。在Firefox中,此选项称为Inspect Element - 这是在做相同的事情,但只是名称不同。
您会注意到Chrome窗口底部打开了一个窗格,其中包含您单击的元素的源代码。 浏览一下源代码,了解我们想要抓取的数据是如何在HTML代码中构建的。
经过一些检查后你可以理解,http://quotes.toscrape.com/上的每个引用都包含在一个带有class =“quote”属性的div中。 在该div中,引用的文本在class =“text”的范围内,作者的名称在class =“author”的小标签中。 当我们实际解析HTML并提取数据时,将需要此信息。
现在,让我们开始使用BeautifulSoup解析HTML页面。 但首先,我们必须安装它:
安装好之后,可以像下面这样在代码中调用:
首先,我们通过将页面传递给BeautifulSoup类构造函数来创建页面的解析版本。 如您所见,我们还将第二个参数html.parser传递给构造函数。 这是Beautiful Soup将用于解析传递给它的字符串的解析器的名称。 你可以使用我们之前谈到过的解析器lxml,因为你已经安装了Lxml库。
然后,我们提取包含class =“quote”的页面中的所有div标签,因为我们知道这些是包含引用的div。 为此,Beautiful Soup 4提供了find_all功能。 我们将标记名称和类名称传递给find_all函数,并返回满足条件的所有标记,即包含引用的标记。
这里需要注意的一件重要事情是,我们在这里使用树结构。 变量soup以及引用的每个元素都是树。 在某种程度上,引用的元素是较大的soup树的一部分。 无论如何,为避免进入不同的讨论,让我们继续。
我们知道引用的文本是带有class =“text”的span标记,而作者是带有class =“author”的小标记。 要从quote元素中提取它们,我们再次使用类似的函数find。 find函数使用与find_all函数相同的参数。 唯一的区别是它返回满足条件的第一个标记,而find_all返回标记列表。 此外,我们希望访问返回对象的text属性,该对象包含该标记中包含的文本。
因此,正如您在代码中看到的那样,我们遍历列表引用的所有元素,并提取引用文本和作者名称,将它们存储在名称为scraped的列表。 在控制台上打印时,已抓取的列表如下所示:
存储检索的数据
一旦我们获得了数据,我们就可以以任何我们想要的格式存储它,例如CSV文件,SQL数据库或NoSQL数据库。 严格来说,这一步不应算作抓取过程的一部分,但为了完整起见,我将简要介绍它。
我想说最流行的存储抓取数据的方法是将它们存储为CSV电子表格,所以我将简要介绍如何做到这一点。 我不会详细介绍,因为您应该参考官方的Python文档。 所以,不用多说,让我们看看代码。
我们可以看到,代码非常明显。 我们从打开的quotes.csv文件创建一个CSV编写器对象,然后使用writerow函数逐个写入引用。 很明显,writerow函数接受一个列表作为输入,然后将其作为一行写入CSV。
结论和后续步骤
本教程应该帮助您了解在学习自己实现简单的scraper时基本上是什么。 这种抓取应该足以实现简单的自动化或小规模数据检索。 但是如果你想有效地提取大量数据,你应该研究一下抓取框架,特别是Scrapy。 它可以帮助您使用几行代码编写非常快速,高效的scraper。 无论你使用什么样的框架,在那个闪亮的表面下面,框架也使用这些非常基本的抓取原则,所以理解本教程应该可以帮助你为开始抓取的探险建立基础知识。
英文原文:https://stackabuse.com/introduction-to-web-scraping-with-python/
译者:javylee
实际开发当中,我们经常会遇到类似诸如下面的需求:
在本文中,我们将讨论四种可用于搜索数组中项目的方法。这些方法是:
接下来,我们就一起来看一下这四种方式
我们可以使用 Array.filter() 方法在数组中查找满足特定条件的元素。
例如,如果我们要获取大于10的数字数组中的所有项目,则可以执行以下操作:
const array = [10, 11, 3, 20, 5];
const greaterThanTen = array.filter(element => element > 10);
console.log(greaterThanTen) //[11, 20]使用 array.filter() 方法的语法如下:
let newArray = array.filter(callback);着这里:
如果数组中没有项目符合条件,则返回一个空数组。
有时,我们不需要满足特定条件的所有元素。我们只需要一个符合条件的元素。在这种情况下,需要使用find()方法。
使用 Array.find()方法查找满足特定条件的第一个元素。就像 filter 方法一样,它以回调为参数,并返回满足回调条件的第一个元素。
我们尝试一下在上面的示例中对数组使用 find 方法。
const array = [10, 11, 3, 20, 5];
const greaterThanTen = array.find(element => element > 10);
console.log(greaterThanTen)//11array.find() 的语法为
let element = array.find(callback);callback 是在数组中的每个值上执行的函数,带有三个参数:
但是请注意,如果数组中没有项目符合条件,则返回 undefined。
但是,如果想检查某个元素是否在数组中怎么办?
includes() 方法确定数组是否包含某个值,并在适当时返回 true 或 false。
因此,在上面的示例中,如果我们要检查20是否为数组中的元素之一,则可以执行以下操作:
const array = [10, 11, 3, 20, 5];
const includesTwenty = array.includes(20);
console.log(includesTwenty)//true你会注意到此方法与其他方法之间的区别。此方法接受值而不是回调作为参数。这是 include 方法的语法:
const includesValue = array.includes(valueToFind, fromIndex)要了解索引的概念,让我们再次使用上面的示例。
如果要检查数组是否在第一个元素之外的其他位置包含10个,可以执行如下操作:
const array = [10, 11, 3, 20, 5];
const includesTenTwice = array.includes(10, 1);
console.log(includesTenTwice)//falseindexOf() 方法返回可以在数组中找到给定元素的第一个索引。如果数组中不存在该元素,则返回 -1。
回到例子。让我们找到数组中 3 的索引。
const array = [10, 11, 3, 20, 5];
const indexOfThree = array.indexOf(3);
console.log(indexOfThree)//2其语法类似于该 includes 方法的语法。
const indexOfElement = array.indexOf(element, fromIndex)请务必注意,includes 和 indexOf 方法都使用严格的相等性('===')搜索数组。如果值的类型不同(例如4和'4'),它们将分别返回 false 和 -1。
使用这些数组方法,无需使用 for 循环即可搜索数组。根据您的需求,您可以决定哪种方法最适合您的用例。
以下是何时使用每种方法的摘要:
TML 中使用 <input> 元素表示单行输入框和 <textarea> 元素表示多行文本框。
HTML中使用的 <input> 元素在 JavaScript 中对应的是 HTMLInputElement 类型。HTMLInputElement 继承自 HTMLElement 接口:
interface HTMLInputElement extends HTMLElement {
...
}HTMLInputElement 类型有一些独有的属性和方法:
而在上述介绍 HTMLInputElement 类型中的属性时,type 属性要特别关注一下,因为根据 type 属性的改变,可以改变<input>的属性。
类型 | 描述 |
text | 文本输入 |
password | 密码输入 |
submit | 表单数据提交 |
button | 按钮 |
radio | 单选框 |
checkbox | 复选框 |
file | 文件 |
hidden | 隐藏的字段 |
image | 定义图像作为提交按钮 |
reset | 重置按钮 |
省略 type 属性与 type="text"效果一样, <input> 元素显示为文本框。
当 type 的值为text/password/number/时,会有以下属性对 <input> 元素有效。
属性 | 类型 | 描述 |
autocomplete | string | 字符串on或off,表示<input>元素的输入内容可以被浏览器自动补全。 |
maxLength | long | 指定<input>元素允许的最多字符数。 |
size | unsigned long | 表示<input>元素的宽度,这个宽度是以字符数来计量的。 |
pattern | string | 表示<input>元素的值应该满足的正则表达式 |
placeholder | string | 表示<input>元素的占位符,作为对元素的提示。 |
readOnly | boolean | 表示用户是否可以修改<input>的值。 |
min | string | 表示<input>元素的最小数值或日期。 |
max | string | 表示<input>元素的最大数值或日期。 |
selectionStart | unsigned long | 表示选中文本的起始位置。如果没有选中文本,返回光标在<input>元素内部的位置。 |
selectionEnd | unsigned long | 表示选中文本的结束位置。如果没有选中文本,返回光标在<input>元素内部的位置。 |
selectionDirection | string | 表示选中文本的方向。可能的值包括forward、backward、none。 |
下面创建一个 type="text" ,一次显示 25 个字符,但最多允许显示 50 个字符的文本框:
<input type="text" size="25" maxlength="50" value="initial value">HTML 使用的 <textarea> 元素在 JavaScript 中对应的是 HTMLTextAreaElement 类型。HTMLTextAreaElement类型继承自 HTMLElement 接口:
interface HTMLTextAreaElement extends HTMLElement {
...
}HTMLTextAreaElement 类型有一些独有的属性和方法:
下面创建一个高度为 25,宽度为 5 的 <textarea> 多行文本框。它与 <input> 不同的是,初始值显示在 <textarea>...</textarea> 之间:
<textarea rows="25" cols="5">initial value</textarea>注意:处理文本框值的时候最好不要使用 DOM 方法,而应该使用 value 属性。
<input> 与 <textarea> 都支持 select() 方法,该方法用于选中文本框中的所有内容。该方法的语法为:
select(): void下面看一个示例:
let textbox = document.forms[0].elements["input-box"];
textbox.select();也可以在文本框获得焦点时,选中文本框的内容:
textbox.addEventListener("focus", (event) => {
event.target.select();
});当选中文本框中的文本或使用 select() 方法时,会触发 select 事件。
let textbox = document.forms[0].elements["textbox1"];
textbox.addEventListener("select", (event) => {
console.log(`Text selected: ${textbox.value}`);
});HTML5 对 select 事件进行了扩展,通过 selectionStart 和 selectionEnd 属性获取文本选区的起点偏移量和终点偏移量。如下所示:
function getSelectedText(textbox){
return textbox.value.substring(textbox.selectionStart,
textbox.selectionEnd);
}注意:在 IE8 及更早版本不支持这两个属性。
HTML5 提供了 setSelectionRange() 方法用于选中部分文本:
setSelectionRange(start, end, direction): void;下面看一个例子:
<input type="text" id="text-sample" size="20" value="Hello World!">
<button onclick="selectText()">选中部分文本</button>
<script>
function selectText() {
let input = document.getElementById("text-sample");
input.focus();
input.setSelectionRange(4, 8); // o Wo
}
</script>如果想要看到选中效果,必须让文本框获得焦点。
不同文本框经常需要保证输入特定类型或格式的数据,或许数据需要包含特定字符或必须匹配某个特定模式。而文本框并未提供验证功能,因此要配合 JavaScript 脚本实现输入过滤功能。
有些输入框需要出现或不出现特定字符。如果想要将输入框变成只读的,只需要使用 preventDefault()方法将按键都屏蔽:
input.addEventListener("keypress", (event) => {
event.preventDefault();
});而要屏蔽特定字符,就需要检查事件的 charCode 属性。如下所示,使用正则表达式实现只允许输入数字的输入框:
input.addEventListener("keypress", (event) => {
if (!/\d/.test(event.key)) {
event.preventDefault();
}
});还有一个问题需要处理:复制、粘贴及涉及Ctrl 键的其他功能。在除IE 外的所有浏览器中,前面代码会屏蔽快捷键Ctrl+C、Ctrl+V 及其他使用Ctrl 的组合键。因此,最后一项检测是确保没有按下Ctrl键,如下面的例子所示:
textbox.addEventListener("keypress", (event) => {
if (!/\d/.test(String.fromCharCode(event.charCode)) &&
event.charCode > 9 &&
!event.ctrlKey){
event.preventDefault();
}
});最后这个改动可以确保所有默认的文本框行为不受影响。这个技术可以用来自定义是否允许在文本框中输入某些字符。
IE 是第一个实现了剪切板相关的事件以及通过JavaScript访问剪切板数据的浏览器,其它浏览器在后来也都支持了相同的事件和剪切板的访问,后来 HTML5 将其纳入了规范。以下是与剪切板相关的 6 个事件:
剪切板事件的行为及相关对象会因浏览器而异。在 Safari、Chrome 和 Firefox 中,beforecopy、beforecut 和 beforepaste 事件只会在显示文本框的上下文菜单时触发,但 IE 不仅在这种情况下触发,也会在 copy、cut 和 paste 事件在所有浏览器中都会按预期触发。
在实际的事件发生之前,通过beforecopy、beforecut 和 beforepaste 事件可以在向剪贴板发送或从中检索数据前修改数据。不过,取消这些事件并不会取消剪贴板操作。要阻止实际的剪贴板操作,必须取消 copy、cut和 paste 事件。
剪贴板的数据通过 clipboardData 对象来获取,且clipboardData 对象提供 3 个操作数据的方法:
而 clipboardData 对象在 IE 中使用 window 获取,在 Firefox、Safari 和 Chrome 中使用 event 获取。为防止未经授权访问剪贴板,只能在剪贴板事件期间访问 clipboardData 对象;IE 会在任何时候都暴露 clipboardData 对象。因此,要兼容两者,最好在剪贴板事件期间使用该对象。
function getClipboardText(event){
var clipboardData = (event.clipboardData || window.clipboardData);
return clipboardData.getData("text");
}
function setClipboardText (event, value){
if (event.clipboardData){
return event.clipboardData.setData("text/plain", value);
} else if (window.clipboardData){
return window.clipboardData.setData("text", value);
}
}如果文本框只有数字,那剪贴时,就需要使用paste事件检查剪贴板上的文本是否无效。如果无效,可以取消默认行为:
input.addEventListener("paste", (event) => {
let text = getClipboardText(event);
if (!/^\d*$/.test(text)){
event.preventDefault();
}
});注意:Firefox、Safari和Chrome只允许在onpaste事件中访问getData()方法。
在 JavaScript 中,可以用在当前字段完成时自动切换到下一个字段的方式来增强表单字段的易用性。比如,常用手机号分为国家好加手机号。因此,我们设置 2 个文本框:
<form>
<input type="text" name="phone1" id="phone-id-1" maxlength="4">
<input type="text" name="phone2" id="phone-id-2" maxlength="11">
</form>当文本框输入到最大允许字符数后,就把焦点移到下一个文本框,这样可以增加表单的易用性并加速数据输入。如下所示:
<script>
function tabForward(event){
let target = event.target;
if (target.value.length == target.maxLength){
let form = target.form;
for (let i = 0, len = form.elements.length; i < len; i++) {
if (form.elements[i] == target) {
if (form.elements[i+1]) {
form.elements[i+1].focus();
}
return;
}
}
}
}
let inputIds = ["phone-id-1", "phone-id-2"];
for (let id of inputIds) {
let textbox = document.getElementById(id);
textbox.addEventListener("keyup", tabForward);
}
</script>这里,tabForward() 函数通过比较用户输入文本的长度与 maxLength 属性的值来检测输入是否达到了最大长度。如果两者相等,就通过循环表中的元素集合找到当前文本框,并把焦点设置到下一个元素。
注意:上面的代码只适用于之前既定的标记,没有考虑可能存在的隐藏字段。
HTML5 新增了一些表单提交前,浏览器会基于指定的规则进行验证,并在出错时显示适当的错误信息。而验证会基于某些条件应用到表单字段中。
表单字段中添加 required 属性,用于标注该字段是必填项,不填则无法提交。该属性适用于<input>、<textarea>和<select>。如下所示:
<input type="text" name="account" required>也可以通过 JavaScript 检测对应元素的 required 属性来判断表单字段是否为必填项:
let isRequired = document.forms[0].elements["account"].required;也可以检测浏览器是否支持 required 属性:
let isRequiredSupported = "required" in document.createElement("input");注意:不同浏览器处理必填字段的机制不同。Firefox、Chrome、IE 和Opera 会阻止表单提交并在相应字段下面显示有帮助信息的弹框,而Safari 什么也不做,也不会阻止提交表单。
HTML5 为 <input> 元素增加了几个新的 type 值。如下所示:
类型 | 描述 |
number | 数字值的输入 |
date | 日期输入 |
color | 颜色输入 |
range | 一定范围内的值的输入 |
month | 允许用户选择月份和年份 |
week | 允许用户选择周和年份 |
time | 允许用户选择时间(无时区) |
datetime | 允许用户选择日期和时间(有时区) |
datetime-local | 允许用户选择日期和时间(无时区) |
电子邮件地址的输入 | |
search | 搜索(表现类似常规文本) |
tel | 电话号码的输入 |
url | URL地址的输入 |
这些输入表名字段应该输入的数据类型,并且提供了默认验证。如下所示:
<input type="email" name="email">
<input type="url" name="homepage">要检测浏览器是否支持新类型,可以在 JavaScript 中创建 <input> 并设置 type 属性,之后读取它即可。老版本中会将我只类型设置为 text,而支持的会返回正确的值。如下所示:
let input = document.createElement("input");
input.type = "email";
let isEmailSupported = (input.type == "email");而上面介绍的几个如 number/range/datetime/datetime-local/date/month/week/time 几个填写数字的类型,都可以指定 min/max/step 等几个与数值有关的属性。step 属性用于规定合法数字间隔,如 step="2",则合法数字应该为 0、2、4、6,依次类推。如下所示:
<input type="number" min="0" max="100" step="5" name="count">上面的例子是<input>中只能输入从 0 到 100 中 5 的倍数。
也可以使用 stepUp() 和 stepDown() 方法对 <input> 元素中的值进行加减,它俩会接收一个可选参数,用于表示加减的数值。如下所示:
input.stepUp(); // 加1
input.stepUp(5); // 加5
input.stepDown(); // 减1
input.stepDown(10); // 减10HTML5 还为文本添加了 pattern 属性,用于指定一个正则表达式。这样就可以自己设置 <input> 元素的输入模式了。如下所示:
<input type="text" pattern="\d+" name="count">注意模式的开头和末尾分别假设有^和$。这意味着输入内容必须从头到尾都严格与模式匹配。
与新增的输入类型一样,指定 pattern 属性也不会阻止用户输入无效内容。模式会应用到值,然后浏览器会知道值是否有效。通过访问 pattern 属性可以读取模式:
let pattern = document.forms[0].elements["count"].pattern;使用如下代码可以检测浏览器是否支持pattern 属性:
let isPatternSupported = "pattern" in document.createElement("input");HTML5 新增了 checkValidity() 方法,用来检测表单中任意给定字段是否有效。而判断的条件是约束条件,因此必填字段如果没有值会被视为无效,字段值不匹配 pattern 属性也会被视为无效。如下所示:
if (document.forms[0].elements[0].checkValidity()){
// 字段有效,继续
} else {
// 字段无效
}要检查整个表单是否有效,可以直接在表单上调用checkValidity()方法。这个方法会在所有字段都有效时返回true,有一个字段无效就会返回false:
if(document.forms[0].checkValidity()){
// 表单有效,继续
} else {
// 表单无效
}validity 属性会返回一个ValidityState 对象,表示 <input> 元素的校验状态。返回的对象包含一些列的布尔值的属性:
因此,通过 validity 属性可以检查表单字段的有效性,从而获取更具体的信息,如下所示:
if (input.validity && !input.validity.valid){
if (input.validity.valueMissing){
console.log("请指定值.")
} else if (input.validity.typeMismatch){
console.log("请指定电子邮件地址.");
} else {
console.log("值无效.");
}
}通过指定 novalidate 属性可以禁止对表单进行任何验证:
<form method="post" action="/signup" novalidate>
<!-- 表单元素 -->
</form>也可以在 JavaScript 通过 noValidate 属性设置,为 true 表示属性存在,为 false 表示属性不存在:
document.forms[0].noValidate = true; // 关闭验证如果一个表单中有多个提交按钮,那么可以给特定的提交按钮添加formnovalidate 属性,指定通过该按钮无需验证即可提交表单:
<form method="post" action="/foo">
<!-- 表单元素 -->
<input type="submit" value="注册提交">
<input type="submit" formnovalidate name="btnNoValidate"
value="没有验证的提交按钮">
</form>也可以使用 JavaScript 设置 formNoValidate 属性:
// 关闭验证
document.forms[0].elements["btnNoValidate"].formNoValidate = true;以上总结了 <input> 和 <textarea> 两个元素的一些功能,主要是 <input> 元素可以通过设置 type 属性获取不同类型的输入框,可以通过监听键盘事件并检测要插入的字符来控制文本框的内容。
还有一些与剪贴板相关的事件,并对剪贴的内容进行检测。还介绍了一些 HTML5 新增的属性和方法和新增的更多的 <input> 元素的类型,和一些与验证相关的属性和方法。
*请认真填写需求信息,我们会在24小时内与您取得联系。