Page 1 of 1

以及利用算法分析素材的工具和环境

Posted: Sat Jul 05, 2025 8:59 am
by Nayon1
但它有一个有趣的副作用——每周提出新的讨论和思考话题,意味着我必须越来越深入地挖掘自己的观点和相关故事。在前五十期之后,我更加内向。一百期之后,它变得情感和技术并重。当我即将完成三百期时,我惊讶地发现我竟然还有话可说。但显然我还有话可说,而且我已经每周做这个播客六年了,它的每期节目涵盖了真正全面的主题。


(这就是站立式录音室的样子——说话时把头放在音频邮箱里,以保持安静的背景噪音。里面会很热。)

Patreon 为赞助者提供了早期剧集的访问权限,但所有剧集均已开放,并在几个月后上传至公众平台,包括互联网档案馆的这个合集。下载、收听、混音,无论你喜欢什么——我都完全允许并支持你。

自 2019 年以来,剧集已上传至互联网 电报数据库 档案馆,但在 2022 年,一个尝试新技术的机会出现了——Whisper项目。该项目开源且可立即下载,可以转录为视频或简单的音频文件。多亏了这个项目,我收集了许多音频文件,并开始尝试使用 Whisper 进行转录。

语音识别,即将麦克风中的语音或预先录制的音频文件转换成书面文字或发出的命令的过程,已经存在了很长时间——几十年甚至几十年。互联网档案馆非常适合深入研究历史文献;快速的“文本内容”搜索,在1979年的一期《硅谷公报》时事通讯中找到了这些讨论要点:


真正改变的是速度更快的计算机、更强大的语音分析能力,以及交叉引用训练结果以制造芯片的技术进步。在这个例子中,一个程序正在利用计算机科学的其他学科对音频进行模式匹配,甚至能够根据单词的含义添加大写字母和标点符号。结合我日益增多的播客收藏,不久之后,我就能说出一个始终不变的主题:当它有效时,它好得令人震惊;当它无效时,它糟糕得令人震惊。

作为一项实验和探索,让程序运行、输出一段文本并生成用于字幕或转录的时间块是非常有用的:


……但如果完全放任不管,让它自己完成转录,而不进行第二次人工扫描以找出错误,那就太鲁莽了。我曾经也是这样的人,也经历过类似的情况。

我见过最终的转录结果在处理正确的姓名大写、奇怪且难以理解的标点符号以及段落断句方面表现得非常出色。我也见过它在处理我的纽约口音和不晦涩的措辞时表现糟糕,而且对我自创的单词“Cowicature”的猜测也很糟糕。这个算法运行良好,但也有例外。

这里我们谈到了一个我逐渐适应的措辞,它是人工智能的另一种说法:“算法强度”。人类赋予机器生命和意志的需求由来已久;但大多数看过这套机制背后代码的人都会同意——它只是代码而已。唯一的区别在于,如今用于得出结果的计算能力和数据量,远超一二十年前人们认为的遥不可及。

而且速度无与伦比——Whisper 大约花了 4 个小时才完全转录我 5 年的每周播客,而这花费的时间之所以这么长,仅仅是因为它在排队系统中被设置为低优先级操作。要知道我所有上传的播客节目在这个集合中总共需要多长时间有点困难,但我餐巾纸背面估计,这相当于我整整两天半谈论技术和情感的时间,话题涵盖编程和编译器到夏令营和家庭。我可以向你保证——我不会很快转录这些播客,也不会请别人来做这件事。虽然我为自己的工作感到自豪,但我没有能力在一个月内录制四个播客,并从中创作出几段文字。

或者,就此而言,描述性摘要。


这让我想到了最近持续不断的改进,。我开始使用一个大型语言模型来查看生成的转录,并创建给定播客片段的摘要。

通用算法强度访问已经进行了两年多,但它仍然是一个非常粗糙、古怪的施法尝试。我的请求读起来不像是让它“总结这段文字”,而是像学校校长或《龙与地下城》游戏文本那样:

你阅读播客的文字记录,并以叙述段落的形式仔细撰写描述,以准确描述播客的内容。更长、更完整的描述更好,我们鼓励你这样做。你需要描述主要主题、参与者的结论,并为这些主题提供有用的背景信息。你收听的播客是: