英伟达等巨头被曝违规使用YouTube数据训练模型涉17万个视频

2024-07-17 14:21:13

摘要【英伟达等巨头被曝违规使用YouTube数据训练模型涉17万个视频】据媒体报道，包括苹果、英伟达、Salesforce和Anthrophic在内的一些大型科...

【英伟达等巨头被曝违规使用YouTube数据训练模型涉17万个视频】据媒体报道，包括苹果、英伟达、Salesforce和Anthrophic在内的一些大型科技公司，被曝在训练AI模型时使用了来自谷歌旗下视频网站YouTube的未授权数据。这些公司使用了一个由第三方提供的数据集，其中包含从YouTube上抓取的大量视频字幕文本，违反了YouTube禁止从平台上未经许可抓取内容的规定。报道指出，这些科技公司在训练AI模型时都使用了一个名为“YouTube Subtitles（YouTube字幕）”的数据集，大小为5.7GB，包含4.89亿个单词，来自Youtube上超过4.8万个频道中的17.35万个视频。该数据集由视频字幕的纯文本组成，包括视频博主上传的部分和Youtube自动转录的文本，除了英语外，通常还附带日语、德语和阿拉伯语等语言的翻译。

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时候联系我们修改或删除，多谢。

标签：

上一篇:中国电池工业协会王建新：磷酸铁锂电芯下滑至0.4元/Wh附近但也为广泛应用奠定基础

下一篇:最后一页

英伟达等巨头被曝违规使用YouTube数据训练模型 涉17万个视频

猜你喜欢

最新文章

英伟达等巨头被曝违规使用YouTube数据训练模型涉17万个视频