用 httrack 下载 Twitter 整个对话序列的方法

在浏览器中打开一个对话序列中的某一条推文时,该对话中所有相关推文只有部分显示,需要遍历整个对话中每条推文,才能看到所有相关推文。用 httrack 就能自动做这件事。
Windows 版本叫 winhttrack。比如,如果想下载这条推文 https://twitter.com/lihlii/status/324903561953689601 和与之相关的对话所有内容,方法如下:

1. 运行 winhttrack,按 Next 按钮创建一个新的下载任务:

2. 随便起个 project name 名字,如 twitter thread,按 Next 下一步:

3. 在 Web Addresses 文本框中,贴入需要下载的推文的 URL 网址,每行一个。也可以将多个 URL 写入一个文本文件,每行一个,然后点击 URL list 输入框右侧的按钮,选择该文本文件作为 URL 输入文件:

4. 点击 Set options 按钮,在 Scan Rules 页签上,删除文本框中所有内容,贴入:
-*
+https://twitter.com/*/status/*[object 0]*[]
如下图所示:

5. 点击 Links 页签,使其设置如下图所示:

6. 点击 Spider 页签,设置 Spider 选项为 no robots.txt rules,其他选项也设置为如下图所示:

7. 点击 OK,然后点击 Finish 就可以开始自动下载该推文相关的对话列表里所有推文内容。

如此保存的推文网页,可以用《Twitter 推文网页存档自动简化转换》一文[1]-[3]所提供的工具自动合并转换为简化的网页便于存档和发布。这样就不需要在浏览器里手工保存一个对话里大量相关 的推文了,而且不会遗漏也不会重复。

参考:

  1. Twitter 推文网页存档自动简化转换 121101 http://lihlii.blogspot.nl/2012/11/twitter-121101.htmlhttp://lihliiposterous.wordpress.com/2012/11/01/twitter-121101/
  2. Twitter 推文网页存档自动简化转换 121014 http://lihlii.blogspot.nl/2012/10/twitter-121014.htmlhttp://lihliiposterous.wordpress.com/2012/10/14/twitter-121014/
  3. Twitter 推文网页存档自动简化转换 http://lihliiposterous.wordpress.com/2012/10/06/twitter-92335/

以公民个人身份签署国际人权宪章 udhr1948+form 收到自动回信的签名表格,填写后寄回给 udhr1948 即可。请广为传播。

Advertisements

发表评论

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / 更改 )

Twitter picture

You are commenting using your Twitter account. Log Out / 更改 )

Facebook photo

You are commenting using your Facebook account. Log Out / 更改 )

Google+ photo

You are commenting using your Google+ account. Log Out / 更改 )

Connecting to %s