3月13日,哈萨克斯坦总统卡西姆·乔马特·托卡耶夫 见面 和 托马斯·普拉莫特汉姆(Thomas Pramotedham), 人工智能公司Presight AI的首席执行官讨论该国超级计算机集群的计划。该项目是政府一系列举措的一部分,将自己定位为人工智能领域的区域领导者。
阿斯塔纳(Astana)不仅为经济增长带来了希望。推动还有一个文化方面,强大的国内AI行业被认为对语言保存至关重要。
但是,作为最近的 延迟 对于超级计算机项目,即使是最好的计划也可能成为地缘政治力量的受害者。哈萨克斯坦可能会在AI上谈论一场大型游戏,但可以付出吗?
控制叙述
大型语言模型或LLMS是AI程序(例如Chatgpt)的基础,该计划是过程,理解和生成人类语言的基础。这些模型受到了少数主要语言的训练,例如英语,普通话和西班牙语,而像哈萨克这样的较小语言经常被忽略。
“虽然较大的LLM正在添加其他语言,但这些语言不一定得到同等程度的支持,”阿布扎比的穆罕默德·本·扎耶德(Mohamed Bin Zayed)人工智能大学(MBZUAI)的自然语言处理教授Preslav Nakov说。 “ LLMS使用神经网络并具有有限的能力;他们的开发人员不可避免地会问自己是否想投资使用该能力来支持更多语言或在其他领域(例如推理能力)进行改进。”
Dion Wiggins表示,对较小语言的次要重要性导致了AI模型,该模型促进了西方世界观。他说:“如果您去Grok,Llama或Chatgpt,它们或多或少都一样,因为它们都从相同的数据中学习。”
但是,如果哈萨克斯坦等国家可以生产自己的LLM,那将意味着对叙述的更多控制。
威金斯说:“如果您拥有主权法学委员会,那么它就会有哈萨克的道德,哈萨克历史,哈萨克镜头以及来自世界这一地区的观点。”他列举了中国的DeepSeek,这限制了对Tiananmen Square大屠杀的信息的访问,而Google的Gemini拒绝回答一个简单的问题,例如“谁是美国总统?”作为我们已经看到AI用于审查制度的示例。
介意你的语言
LLM需要大量数据才能训练它们有效。
“还有问题,”威金斯说。 “哈萨克的数据不多。”
AI培训的最大数据来源之一是 常见的爬网这是一个非营利组织,可以在线核对信息,并可以自由地向公众使用。它的统计数据表明,语言偏见很大:43.4%的常见爬网网页使用英语。实际上,所有基于网络的数据中有70%来自七种主要语言:英语,俄语,德语,日语,中文,西班牙语和法语。
哈萨克的帐户 0.0298%。换句话说,如果您随机浏览10,000个网页,则三个在哈萨克; 605在俄语中,英语为4,337。
这会带来现实的后果:搜索引擎优先考虑英语内容,AI驱动的助手在非英语查询方面挣扎,并且自动翻译服务在多种语言中仍然不可靠。
“在哈萨克斯坦,这一问题进一步加剧了历史上固有的问题,这是由于对俄罗斯的依赖而引起的,”巴塞罗那Esade Business&Law School的HaiaNa Kassenova说。 “许多翻译工具,例如Google翻译,在翻译哈萨克语时仍将俄罗斯作为中介,使其常常不准确。”
阿斯塔纳(Astana)有一项长期的政策,试图推广哈萨克语,而不是俄语,多年来,这被认为是 城市精英语言 在国家。许多人会认为这仍然是:俄罗斯在数字空间中的哈萨克人有一个巨大的开端,这意味着大多数与AI的互动都是在俄罗斯进行的。
Kassenova说:“这导致缺乏哈萨克语言数据集,从而增强了人们认为俄罗斯在哈萨克斯坦的技术和人工智能发展的“实用”语言的看法。”
家庭成年LLM
因此,搜索开始了哈萨克斯坦的第一个大语言模型。 2024年12月,当纳扎尔巴耶夫大学的智能系统与人工智能研究所(ISSAI)揭示了Kazllm时,该国赢得了黄金。 Kazllm旨在在哈萨克,俄罗斯,英语和土耳其语中处理和生成文本,是使用从新闻媒体,政府网站和开放式材料等来源收集的大量数据集开发的。该模型的性能甚至 德鲁赞美 来自美国科技巨头Meta的AI和研究负责人Yan Lecun。
随后是2025年2月,由另一种哈萨克语AI模型Sherkala在阿布扎比的Mbzuai合作开发。
该项目的负责人纳科夫(Nakov)教授告诉外交官,谢尔卡拉(Sherkala)正在遵循分别关注阿拉伯语和印地语的贾伊斯(2023)和南达(2024)的脚步。
他说:“ Sherkala建于Llama上,Llama是Meta的广泛采用的开源AI模型,该模型已经包括一些多语言支持,但不足以提供对哈萨克语语言的准确性和文化意识的水平。”为了开发模型,他的团队确保用有关哈萨克斯坦文化和历史的额外信息对其进行微调。
卡塞诺瓦(Kassenova)认为,Kazllm和Sherkala尚未旨在与主流AI模型竞争,而是为了提供更多的包容性。她说:“诸如Chatgpt,Gemini和Qwen之类的模型是由大量资源,无尽的多语言数据集和尖端计算能力建造的,旨在旨在提供一般智能。” “相比之下,哈萨克LLM是在相对较小的团队(预算相对较小)中创建的,以确保哈萨克语的演讲者拥有针对我们的语言和文化背景下量身定制的AI工具。”
建立AI基础设施
哈萨克斯坦的人工智能野心超出了语言模型。该战略的另一个木板涉及创建国家超级计算机。
卡塞诺瓦说:“这将是AI开发的关键。” “该国长期以来一直依赖俄罗斯的计算系统,但是由于俄罗斯面临自己的AI芯片短缺,因此不是一种选择。”
政府已与另一家阿联酋公司Presight.ai合作,以建立超级计算机。但是,由于美国出口限制而获得的高性能NVIDIA芯片的延误减慢了该项目的进展,该项目将于去年完成。这个Nvidia禁运创造了重要的瓶颈,公司控制着 80% AI芯片的全球市场。
威金斯建议哈萨克斯坦可以向东转向寻求帮助。他说:“中国的华为创造了尚不那么好的GPU,但它们足够好。” 积极的表现 华为上升的910 C芯片,该芯片已开始缩小Nvidia的差距。
建立AI生态系统需要人力资本和基础设施。 2024年,哈萨克斯坦开始 介绍 该国所有大学的AI识字课程。 Astana Hub Technopark还开始了一个年度项目 火车 来自47所国立大学的700名AI老师。
阿斯塔纳还设想成为一个区域AI枢纽。正在计划建立 国际AI中心 2025年,此举旨在吸引全球研究合作和投资。
马前的购物车
但是,宣布将对AI进行100万人的培训与说服他们接受培训不同,就像说服人们使用Sherkala对俄罗斯语言同等等同的人没有给予。哈萨克斯坦以前来过这里,过早地宣布自己是全球枢纽 后勤 到 宗教。
另一个问题是开放性。大型语言模型在大量准确,全面的信息上蓬勃发展。
尽管倾向于不透明度的政府(例如中国)表明,具有国家支持,大量数据和公司一致性的高度控制的,自上而下的方法也可以推动进步,但哈萨克斯坦可能没有资源来模仿该模型。
一种更便宜的方法将是一种促进开放和轻松访问数据的环境,尤其是考虑到哈萨克语语言来源的相对缺乏。但是,由于没有边界的记者在180中排名第142位 2024年世界新闻自由指数,这似乎不是优先事项。
对于所有宏伟的设计,阿斯塔纳(Astana)对信息的掌握可能最终使该国退缩。
Kazllm的创建者Issai没有回应置评请求。
Presight.ai拒绝发表评论,建议将问题针对政府。
政府的数字发展部无法发表评论。