整合营销服务商

电脑端+手机端+微信端=数据同步管理

免费咨询热线:

使用 JavaScript 清理我的 200GB i

使用 JavaScript 清理我的 200GB iCloud,有了一个意外发现!

文作者在综合成本因素之下,决定用 JavaScript 脚本来清理一下自己的 iCloud,结果却有了一个意外发现,即在 iCloud 中上传同一个视频和删除此视频之后,iCloud 的空间并不一致,这到底是什么造成的呢?

原文:https://andykong.org/blog/icloudconfusion

本文为 CSDN 翻译,未经允许禁止转载。


作者 | Andy Kong 翻译 | 苏宓
出品 | CSDN(ID:CSDNnews)

最近,我收到了一封来自 Apple 的电子邮件,通知我的 iCloud 存储空间已满。

在邮件中,苹果给了我一个选项,即付费升级可以得到更大的 iCloud 空间。不过,我发现 1TB 和 200GB 的成本相差了三倍,有些太贵了,这也促使我开始去寻找替代方案。当打开 iCloud 时,我发现照片占据了大部分的存储空间(~127GB),所以我想我可以进入我的照片相册并按文件大小排序,然后适当删除,腾出一定的空间。

遗憾的是,苹果设备并不支持这一功能。不管是什么原因,我还是想按文件大小查看我的照片。市面上有几款应用程序可以查看照片并突出显示重复的照片,或查看视频并显示文件大小。唯一的问题是,已经上传到 iCloud 的照片不会显示在这些应用程序中,因此它们实际上并没有什么用处。另外,你真的希望随机应用扫描你所有的照片吗?

用 JavaScript 作为解决方案

于是,我访问了 iCloud 网站并思考了有哪些可能性。我导航到“照片”->“媒体类型”->“视频”菜单栏。

可以看到,每个视频都有一个相应的时长框——只要它是 HTML 元素,我们就可以使用 JS 来搜索和筛选它们。我发现每个时长框都有 video-text-badge 类。这样,我们就可以在页面中找到所有的视频,按其持续时间排序,并高亮显示超过某个阈值的视频。下面是代码:

// From the blog post andykong.org/blog/icloudconfusion/

function boxTops(){
HTMLCollection.prototype.toArray=function() { return Array.from(this); }

// Select all the time badges and parse out their total runtime in seconds
a=document.getElementsByClassName('video-text-badge').toArray()
b=a.map((x)=> x.innerText)
c=b.map((y)=> y.split(":").map((x)=> parseInt(x)))
d=c.map((x)=> x[0]*60 + x[1])

// Sort the badges HTML array and badges runtime together
indices=Array.from(a.keys())
indices.sort( (x,y)=> d[x] - d[y])

sortedA=indices.map(i=> a[i])
sortedD=indices.map(i=> d[i])


// Function that boxes an element
function drawBox(element) {
if (element instanceof HTMLElement) {
element.style.border="2px solid red";
}
}

thresh=30 // Min seconds to highlight a video
for (let i=0; i < sortedD.length; i++) {
if (sortedD[i] > thresh){
drawBox(sortedA[i])
}
}
}

// Continuously highlight big videos
setInterval(boxTops, 500)

因为 iCloud 仅加载页面上的元素,所以我将其制作成一个在计时器上运行的函数,以便新元素在滚动到其中时会突出显示。它看起来是这样的:

大于 20 秒的视频会被红框圈出来,更容易识别

要使用它,只需打开 Javascript 控制台(右键单击页面 -> 检查元素)并粘贴整个要点。现在,你可以轻松地从 iCloud 选择多个大视频并在删除之前下载它们,将它们移动到长期存储中:硬盘、其他云存储等。

谜团

我用这个脚本删除了 iCloud 中所有超过 30 秒的视频。有趣的是,在我删除所有“大视频”并下载它们后,尽管只下载了 7GB 的视频,但它却从我的 iCloud 中清除了 ~55GB 的内容。谜底就在这里。

所有下载的视频占用8GB磁盘空间

下载 7GB 视频后,iCloud 存储空间从 199GB 减少至 143GB

不知为什么,这 7GB 视频在云端占用的空间远远超过了我硬盘上的空间。有趣的是...

实验 1

我想进一步测试一下。首先,我上传了一段 4K 视频。它占用了 281 MB。上传后,我的存储空间看起来是这样的:

上传 4K 视频,iCloud 显示已使用 145.33 GB

然后我下载并删除了它。文件仍然是 281 MB。这是之后的存储情况:

4K 视频被删除,iCloud 称已使用 145.6 GB

删除 281MB 的视频可腾出 ~270MB 的空间。这一点令人费解。其他较旧的视频呢?

实验 2

我想,也许较旧的视频可能在 iCloud 中保存了多个副本,因此我搜索了我的视频,看看能否找到一个占用大量存储空间的较短视频。我找到了一个有很多图表的视频,iCloud 说它占用了 128 MB。

较旧的大视频,占用 128 MB

下载时,文件只有 47 MB!

下载的视频文件为 47 MB

这是我的 iCloud 存储空间使用前后的对比:

删除旧视频之前的 iCloud 存储空间,已使用 145.29 GB

删除旧视频后的 iCloud 存储空间,已使用 145.12 GB,减少 170MB

因此,iCloud 显示视频为 128MB,我下载后发现视频实际为 48MB,而删除视频后,我的可用存储空间增加了约 170MB。真有意思!

结论

我的存储空间释放量是删除文件大小的 7 倍多,这很奇怪。更奇怪的是,大容量的旧视频在 iCloud 中的存储空间占用似乎比现实生活中要大得多。

你知道为什么会出现这种情况吗?

者 | 浪里行舟

责编 | 郭芮

程序的运行需要内存。只要程序提出要求,操作系统或者运行时就必须供给内存。所谓的内存泄漏简单来说是不再用到的内存,没有及时释放。为了更好避免内存泄漏,我们先介绍Javascript垃圾回收机制。

在C与C++等语言中,开发人员可以直接控制内存的申请和回收。但是在Java、C#、JavaScript语言中,变量的内存空间的申请和释放都由程序自己处理,开发人员不需要关心。也就是说,Javascript具有自动垃圾回收机制(Garbage Collecation)。

垃圾回收的必要性

下面这段话引自《JavaScript权威指南(第四版)》:

由于字符串、对象和数组没有固定大小,所有当他们的大小已知时,才能对他们进行动态的存储分配。JavaScript程序每次创建字符串、数组或对象时,解释器都必须分配内存来存储那个实体。只要像这样动态地分配了内存,最终都要释放这些内存以便他们能够被再用,否则,JavaScript的解释器将会消耗完系统中所有可用的内存,造成系统崩溃。

这段话解释了为什么需要系统需要垃圾回收,JavaScript不像C/C++,它有自己的一套垃圾回收机制。

JavaScript垃圾回收的机制很简单:找出不再使用的变量,然后释放掉其占用的内存,但是这个过程不是时时的,因为其开销比较大,所以垃圾回收器会按照固定的时间间隔周期性的执行。

var a="浪里行舟";
var b="前端工匠";
var a=b; //重写a

这段代码运行之后,“浪里行舟”这个字符串失去了引用(之前是被a引用),系统检测到这个事实之后,就会释放该字符串的存储空间以便这些空间可以被再利用。

垃圾回收机制

垃圾回收机制怎么知道,哪些内存不再需要呢?

垃圾回收有两种方法:标记清除、引用计数。引用计数不太常用,标记清除较为常用。

1.标记清除

这是javascript中最常用的垃圾回收方式。当变量进入执行环境是,就标记这个变量为“进入环境”。从逻辑上讲,永远不能释放进入环境的变量所占用的内存,因为只要执行流进入相应的环境,就可能会用到他们。当变量离开环境时,则将其标记为“离开环境”。

垃圾收集器在运行的时候会给存储在内存中的所有变量都加上标记。然后,它会去掉环境中的变量以及被环境中的变量引用的标记。而在此之后再被加上标记的变量将被视为准备删除的变量,原因是环境中的变量已经无法访问到这些变量了。最后。垃圾收集器完成内存清除工作,销毁那些带标记的值,并回收他们所占用的内存空间。

我们用个例子,解释下这个方法:

var m=0,n=19 // 把 m,n,add() 标记为进入环境。
add(m, n) // 把 a, b, c标记为进入环境。
console.log(n) // a,b,c标记为离开环境,等待垃圾回收。
function add(a, b) {
 a++
 var c=a + b
 return c
}

2.引用计数

所谓"引用计数"是指语言引擎有一张"引用表",保存了内存里面所有的资源(通常是各种值)的引用次数。如果一个值的引用次数是0,就表示这个值不再用到了,因此可以将这块内存释放。

上图中,左下角的两个值,没有任何引用,所以可以释放。

如果一个值不再需要了,引用数却不为0,垃圾回收机制无法释放这块内存,从而导致内存泄漏。

var arr=[1, 2, 3, 4];
arr=[2, 4, 5]
console.log('浪里行舟');

上面代码中,数组[1, 2, 3, 4]是一个值,会占用内存。变量arr是仅有的对这个值的引用,因此引用次数为1。尽管后面的代码没有用到arr,它还是会持续占用内存。至于如何释放内存,我们下文介绍。

第三行代码中,数组[1, 2, 3, 4]引用的变量arr又取得了另外一个值,则数组[1, 2, 3, 4]的引用次数就减1,此时它引用次数变成0,则说明没有办法再访问这个值了,因而就可以将其所占的内存空间给收回来。

但是引用计数有个最大的问题:循环引用

function func() {
 let obj1={};
 let obj2={};
 obj1.a=obj2; // obj1 引用 obj2
 obj2.a=obj1; // obj2 引用 obj1
}

当函数 func 执行结束后,返回值为 undefined,所以整个函数以及内部的变量都应该被回收,但根据引用计数方法,obj1 和 obj2 的引用次数都不为 0,所以他们不会被回收。

要解决循环引用的问题,最好是在不使用它们的时候手工将它们设为空。上面的例子可以这么做:

obj1=null;
obj2=null;

哪些情况会引起内存泄漏?

虽然JavaScript会自动垃圾收集,但是如果我们的代码写法不当,会让变量一直处于“进入环境”的状态,无法被回收。

下面列一下内存泄漏常见的几种情况:

1.意外的全局变量

function foo(arg) {
 bar="this is a hidden global variable";
}

bar没被声明,会变成一个全局变量,在页面关闭之前不会被释放。

另一种意外的全局变量可能由 this 创建:

function foo() {
 this.variable="potential accidental global";
}
// foo 调用自己,this 指向了全局对象(window)
foo();

在 JavaScript 文件头部加上 'use strict',可以避免此类错误发生。启用严格模式解析 JavaScript ,避免意外的全局变量。

2.被遗忘的计时器或回调函数

var someResource=getData();
setInterval(function() {
 var node=document.getElementById('Node');
 if(node) {
 // 处理 node 和 someResource
 node.innerHTML=JSON.stringify(someResource));
 }
}, 1000);

这样的代码很常见,如果id为Node的元素从DOM中移除,该定时器仍会存在,同时,因为回调函数中包含对someResource的引用,定时器外面的someResource也不会被释放。

3.闭包

function bindEvent(){
 var obj=document.createElement('xxx')
 obj.onclick=function(){
 // Even if it is a empty function
 }
}

闭包可以维持函数内局部变量,使其得不到释放。上例定义事件回调时,由于是函数内定义函数,并且内部函数--事件回调引用外部函数,形成了闭包。

// 将事件处理函数定义在外面
function bindEvent() {
 var obj=document.createElement('xxx')
 obj.onclick=onclickHandler
}
// 或者在定义事件处理函数的外部函数中,删除对dom的引用
function bindEvent() {
 var obj=document.createElement('xxx')
 obj.onclick=function() {
 // Even if it is a empty function
 }
 obj=null
}

解决之道,将事件处理函数定义在外部,解除闭包,或者在定义事件处理函数的外部函数中,删除对dom的引用。

4.没有清理的DOM元素引用

有时,保存 DOM 节点内部数据结构很有用。假如你想快速更新表格的几行内容,把每一行 DOM 存成字典(JSON 键值对)或者数组很有意义。此时,同样的 DOM 元素存在两个引用:一个在 DOM 树中,另一个在字典中。将来你决定删除这些行时,需要把两个引用都清除。

var elements={
 button: document.getElementById('button'),
 image: document.getElementById('image'),
 text: document.getElementById('text')
};
function doStuff() {
 image.src='http://some.url/image';
 button.click();
 console.log(text.innerHTML);
}
function removeButton() {
 document.body.removeChild(document.getElementById('button'));
 // 此时,仍旧存在一个全局的 #button 的引用
 // elements 字典。button 元素仍旧在内存中,不能被 GC 回收。
}

虽然我们用removeChild移除了button,但是还在elements对象里保存着#button的引用,换言之,DOM元素还在内存里面。

内存泄漏的识别方法

新版本的chrome在 performance 中查看:

步骤:

  • 打开开发者工具 Performance;
  • 勾选 Screenshots 和 memory;
  • 左上角小圆点开始录制(record);
  • 停止录制。

图中 Heap 对应的部分就可以看到内存在周期性的回落也可以看到垃圾回收的周期,如果垃圾回收之后的最低值(我们称为min),min在不断上涨,那么肯定是有较为严重的内存泄漏问题。

避免内存泄漏的一些方式:

  • 减少不必要的全局变量,或者生命周期较长的对象,及时对无用的数据进行垃圾回收;
  • 注意程序逻辑,避免“死循环”之类的;
  • 避免创建过多的对象。

总而言之需要遵循一条原则:不用了的东西要及时归还。

垃圾回收的使用场景优化

1.数组array优化

将[]赋值给一个数组对象,是清空数组的捷径(例如:arr=[];),但是需要注意的是,这种方式又创建了一个新的空对象,并且将原来的数组对象变成了一小片内存垃圾!实际上,将数组长度赋值为0(arr.length=0)也能达到清空数组的目的,并且同时能实现数组重用,减少内存垃圾的产生。

const arr=[1, 2, 3, 4];
console.log('浪里行舟');
arr.length=0 // 可以直接让数字清空,而且数组类型不变。
// arr=[]; 虽然让a变量成一个空数组,但是在堆上重新申请了一个空数组对象。

2. 对象尽量复用

对象尽量复用,尤其是在循环等地方出现创建新对象,能复用就复用。不用的对象,尽可能设置为null,尽快被垃圾回收掉。

var t={} // 每次循环都会创建一个新对象。
for (var i=0; i < 10; i++) {
 // var t={};// 每次循环都会创建一个新对象。
 t.age=19
 t.name='123'
 t.index=i
 console.log(t)
}
t=null //对象如果已经不用了,那就立即设置为null;等待垃圾回收。

3.在循环中的函数表达式,能复用最好放到循环外面

// 在循环中最好也别使用函数表达式。
for (var k=0; k < 10; k++) {
 var t=function(a) {
 // 创建了10次 函数对象。
 console.log(a)
 }
 t(k)
}
// 推荐用法
function t(a) {
 console.log(a)
}
for (var k=0; k < 10; k++) {
 t(k)
}
t=null

作者:浪里行舟,硕士研究生,专注于前端,运营有个人公众号前端工匠,致力于打造适合初中级工程师能够快速吸收的一系列优质文章。

声明:本文为CSDN技术头条专栏原创投稿,未经允许请勿转载。

avaScript中最常用的垃圾收集方式是标记清除(mark-and-sweep)。当变量进入环境时,就将这个变量标记为“进入环境”。从逻辑上讲,永远不能释放进入环境的变量所占用的内存,因为只要执行流进入相应的环境,就可能会用到它们。而当变量离开环境时,则将其标记为“离开环境”。

可以使用任何方式来标记变量。比如,可以通过翻转某个特殊的位来记录一个变量何时进入环境,或者使用一个“进入环境的”变量列表及一个“离开环境的”变量列表来跟踪哪个变量发生了变化。说到底,如何标记变量其实并不重要,关键在于采取什么策略。

垃圾收集器在运行的时候会给存储在内存中的所有变量都加上标记。然后,它会去掉环境中的变量以及被环境中的变量引用的变量的标记。剩余的被加上标记的变量将被视为准备删除的变量,原因是环境中的变量已经无法访问这些变量了。最后,垃圾收集器完成内存清除工作,销毁那些带标记的值并回收它们所占用的内存空间。

到2008年为止,IE、Firefox、Opera、Chrome和Safari的JavaScript实现使用的都是标记清除式的垃圾收集策略,只不过垃圾收集的时间间隔互有不同。