知乎上线“AI搜索”功能中文语料资源短缺有待破解

21世纪经济报道记者白杨北京报道

3月20日，知乎正式发布了全新AI功能“发现·AI搜索”。这也是继去年发布“知海图AI”大模型后，知乎在人工智能方面的又一重要进展。

据知乎创始人、董事长兼CEO周源介绍，知乎的AI搜索集搜索、实时问答和追问功能于一体，而且与其他大模型提供的内容不同，知乎AI搜索的内容均来自社区专业创作者的可信赖内容。

上图为记者测试知乎AI搜索

记者测试发现，在知乎AI搜索中提问“如何使用大模型”，除了其他语言大模型都有的文字回答外，知乎AI搜索还在结果上面列入了内容来源，比如记者测试的问题答案，就有6位答主参与了贡献，并且可以通过点击直接跳转至这些回答页面。

知乎COO、高级副总裁、社区业务负责人张宁在接受21世纪经济报道记者采访时表示，知乎的AI产品一定是建立在社区生态上面的。“我们一直在思考的是，AI搜索搜出的结果，如何再反哺给创作者，让创作者感觉到内容是被更多人看到的”。

所以在内容呈现上，知乎有别于其他模型，会在回答内容中标注内容来源，这样既提升了内容的可溯源性，加大了对创作者的曝光，同时也大大增强了用户对内容的信任度

记者了解到，知乎的AI搜索功能是以AI创业公司面壁智能的大模型产品为基础。面壁智能成立于2022年8月，创始成员全部来自清华大学NLP实验室。2023年3月，知乎作为领投方参与了面壁智能的天使轮融资，同年4月，知乎联合面壁智能发布了“知海图AI”中文大模型。

周源此前曾向21世纪经济报道记者表示，在AI时代，生产力的三要素分别是应用场景、专有数据和基础模型。其中，知乎在应用场景和专有数据方面，占据独特优势。而在基础模型方面，投资面壁智能并与其进行模型共建，是知乎构建基础模型层能力时，选择的一条捷径。

而这次“AI搜索”功能上线，算是知乎在大模型技术应用上的一个阶段性成果。张宁告诉21世纪经济报道，知乎针对AIGC的布局，在ToC产品上会聚焦于“AI搜索”。

“因为AI搜索跟知乎用户的心智是高度对齐的，用户希望在知乎解决问题，希望获得专业可信赖的优质解答，而正是AI搜索所提供的能力”。张宁说。

所以接下来，知乎也会在AI搜索方面投入更多精力，包括在特定的专业领域上进行更多的数据标注，以提高生成内容的可信度。

目前，市面上做AI搜索的公司已经不少，对知乎而言，其拥有的一大优势就是高质量的中文语料。公开数据显示，截至2022年底，知乎累计拥有6310万名内容创作者，他们贡献了约5.06亿条问答内容，覆盖超过1000个垂直领域。

在大模型训练过程中，训练预料质量将直接影响大模型输出内容质量。各个厂商为了提升模型质量，往往会投入大量资源对数据进行标注。但张宁向记者表示，知乎在数据标注上的投入，远低于其他厂商。

张宁进一步表示，知乎AI搜索的第一个版本在春节前一周就已经上线，后面经过一个多月的灰度测试，“我们收到的整体反馈是，回答质量要高于预期”。

在张宁看来，这个结果也印证了知乎中文语料的优质。“说实话，这么短的时间内我们不太可能做特别大规模的数据标注，但取得这样的结果，说明我们的数据底子好。过去大家一直说知乎的内容质量高，这次也通过AI训练的方式进行了验证”。

不过，按照大模型的发展速度，知乎储备的中文语料数据未来或也将捉襟见肘。今年年初，周源在接受记者采访时也曾提到中文语料短缺的问题。他说，中文优质数据的稀缺，导致国内许多从事大模型开发的研究机构和企业在进行模型训练时，不得不依赖于外文标注数据集、开源数据集，或是爬取网络数据。

在他看来，解决中文语料资源短缺的问题，实际上应该是先构建“水库”，然后再去合理使用的过程。但是现在，行业对构建“水库”的工作重视不够，反而都比较看重怎么去“打水”，所以未来几年，中文语料资源短缺都将是一个特别严重的问题。

更多内容请下载21财经APP返回搜狐，查看更多

责任编辑：

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。