首页 > 试题广场 >

实现一个简化版的 GPT-2 风格文本生成函数

[编程题]实现一个简化版的 GPT-2 风格文本生成函数

热度指数：189 时间限制：C/C++ 1秒，其他语言2秒空间限制：C/C++ 256M，其他语言512M
算法知识视频讲解

你的任务是用 Python 实现一个简化版的 GPT-2 风格文本生成函数。该函数将包含以下最小 GPT-2 架构的组件：

词嵌入：将输入的词元映射到稠密的向量表示。
位置嵌入：为词嵌入添加位置信息。
多头注意力：关注序列的不同部分。
前馈网络：通过稠密层处理注意力输出。
层归一化：稳定训练过程。

该函数必须接受以下参数：

prompt：引导生成过程的初始文本。
生成的词数量：指定要输出多少个词。

你的函数应输出生成的文本。

实现时需要注意以下细节：

激活函数使用GELU： GELU(x) = 0.5 *x * (1 + tanh(√(2/π) * (x + 0.044715x^3)))
词嵌入使用固定位置，由随机wpe给出
多头注意力中，mask采用下三角矩阵： (1 - np.tri(x.shape[0], dtype=x.dtype)) * -1e10 ；并且分数计算需要除以 sqrt(d_k)进行缩放
Transformer Block 的顺序是

输入先经过多头注意力层，再加残差。
接着经过前馈网络，再加残差。
每一步都有对应的层归一化

输出词选择最大概率的输出

此外，利用辅助函数 load_encoder_hparams_and_params 来检索：

一个虚拟编码器。
模型超参数。
模型参数。

输入描述:

第一行输入prompt，第二行输入生成的词数量。

输出描述:

输出生成的文本

示例1

输入

hello
6

输出

hello hello hello <UNK> <UNK> <UNK>

备注:

1.对应的输入、输出已给出，您只用实现核心功能函数即可。
2.支持numpy、scipy、pandas、scikit-learn库。

算法知识视频讲解

这道题你会答吗？花几分钟告诉大家答案吧！

提交观点

问题信息

自然语言处理

难度：

0条回答 2收藏 298浏览

热门推荐

相关试题

实现一个简化版的 GPT-2 风格文本生成函数

扫描二维码，关注牛客网
意见反馈
下载牛客APP，随时随地刷题

扫一扫，把题目装进口袋

求职之前，先上牛客: 扫描二维码，进入QQ群



扫描二维码，关注牛客公众号

公司地址：北京市朝阳区北苑路北美国际商务中心K1座一层-北京牛客科技有限公司
联系方式：010-60728802 投诉举报电话：010-57596212（朝阳人力社保局）
牛客科技© All rights reserved admin@nowcoder.com
京ICP备14055008号-4 增值电信业务经营许可证营业执照人力资源服务许可证
京公网安备 11010502036488号

def gen_text(prompt: str, n_tokens_to_generate: int = 40):
	# 补全代码
	pass

def load_encoder_hparams_and_params(model_size: str = "124M", models_dir: str = "models"):
	class DummyBPE:
		def __init__(self):
			self.encoder_dict = {"hello": 1, "world": 2, "<UNK>": 0}

def encode(self, text: str):
			tokens = text.strip().split()
			return [self.encoder_dict.get(token, self.encoder_dict["<UNK>"]) for token in tokens]

def decode(self, token_ids: list):
			reversed_dict = {v: k for k, v in self.encoder_dict.items()}
			return " ".join([reversed_dict.get(tok_id, "<UNK>") for tok_id in token_ids])

hparams = {
		"n_ctx": 1024,
		"n_head": 12
	}

params = {
		"wte": np.random.rand(3, 10),
		"wpe": np.random.rand(1024, 10),
		"blocks": [],
		"ln_f": {
			"g": np.ones(10),
			"b": np.zeros(10),
		}
	}

encoder = DummyBPE()
	return encoder, hparams, params

# 主程序
if __name__ == "__main__":
    # 输入
    prompt = input()
    n_tokens_to_generate = int(input())

# 调用函数
    output = gen_text(prompt, n_tokens_to_generate)
    
    # 输出结果
    print(output)