原文链接:https://mp.weixin.qq.com/s/QmuYVNNsqqfZ66pG6VvB0A
南京大学自然语言处理研究组(NJUNLP)是国内最早从事NLP领域科研工作的团队之一,先后承担国家科技攻关项目、863项目、国家自然科学基金、江苏省自然科学基金等20项,获国家七五科技攻关重大成果奖1次、教育部科技进步奖2次、江苏省科技进步二等奖、三等奖各一次;近3年在自然语言处理和人工智能顶级会议上(ACL、AAAI、IJCAI、EMNLP等)发表论文四十余篇,累计发表论文200+篇;多次参与自然语言处理相关的比赛和评测,并获得第一(情感分析CCF-BDCI2018、分词NLPCC12、命名实体识别SIGHAN06)。
研究组开展的本科生NLP Summer Camp活动旨在为本科生提供了解自然语言处理及运用自然语言处理技术解决实际问题的平台。该活动设置若干自然语言处理领域的前沿课题,每个课题由本组优秀博士生负责。在报名开始时,同学们可以自愿选择感兴趣的课题。在报名结束后,研究组将根据课题方向组织面试选拔,优秀的同学能够正式参与活动。完整参与活动的学员在活动结束后将获得结题证书,后期申请保研至NLP研究组时也会被优先考虑。
一、项目计划
举办形式:本次夏令营采用线上模式。 项目周期:6月26日-8月7日,为期6周,前2周集中培训,后4周自主学习,并跟随组长进行项目实战。 项目内容:共有7个课题,后期设有通识讲座、基础课程以及学术论坛。 招募人数:计划每个课题招募3-5名学员。 * 注意:该夏令营与计算机系以及人工智能学院的推免夏令营无关。
二、项目要求
三、申请流程 网上申请
资格初审 申请截止后,工作小组对申请者提供的报名信息进行资格初审,面试名单,预计在6月2日以公众号以及邮箱形式发布。面试时间初定于:6月3日-6月4日。
结果发布 面试结束后,工作小组结合学员信息以及面试情况,确定夏令营入围名单,预计在6月5日公布。
以上项目流程公布日期均为拟定,具体时间以后续通知为准,请对夏令营感兴趣的同学按照初步拟定的日期安排规划好自己的时间,并在此期间及时关注自己的邮箱以及我们的公众号,避免出现错过通知的情况。
四、课题名称
[color=rgba(0, 0, 0, 0.9)]近年来,深度神经网络(DNNs)在广泛的任务中取得了最先进的性能。然而,可解释性方面的限制阻碍了它们在现实世界中的应用。局部解释算法是一系列旨在回答以下问题的技术:为什么模型会做出这个特定的预测?这个特定的特征值对预测有什么影响? [color=rgba(0, 0, 0, 0.9)]目前已有的工作提出了一系列局部解释算法为模型在单个样本上的预测生成解释。然而,目前没有一个良好的指标用于评估不同算法生成的解释的质量和可信度,以及这些解释与人类理解的相关性。针对以上问题,本课题将带领营员复现主流的局部解释算法,从人类理解的角度上对比不同算法之间的差异,评估不同算法的解释能力。 [color=rgba(0, 0, 0, 0.9)]目前神经机器翻译模型大多采用自回归(Autoregressive)的解码方式,在解码时自左向右逐词输出。虽然自回归解码方式具备优异的解码性能,但逐词解码也会产生较高的解码时延,进而降低了解码效率。 [color=rgba(0, 0, 0, 0.9)]为此,研究人员提出了基于非自回归(Non-Autoregressive)解码方式的翻译模型,在解码时并行输出所有词,大幅提高了解码效率。然而,伴随着解码速度的提升,模型解码质量也有着一定程度的下滑。因此,目前研究人员致力于在保持高效解码的前提下,改善非自回归解码质量,以达到“更快,更好”的目标。在本次夏令营中,课题组将带领营员回顾并复现近年来具有代表性的增强非自回归解码质量的几类方案,评估比较不同方案之间的优劣差异,理解非自回归解码目前存在的问题。 [color=rgba(0, 0, 0, 0.9)]社交媒体已经深入到了我们生活的方方面面,网络语言在社交领域的沟通中得到了越来越广泛的应用,而数据的实时性、形式的多样性及复杂的关联也带来了不少机遇与挑战。本课题通过结合语言学、社会学、传播学、心理学等多学科,探索将计算和分析方法运用在社会科学领域的问题中,研究方向包括语言行为(例如抱怨、吹牛、冒犯等)、谣言检测、心理健康等。在社交媒体中,如何结合社会理论,量化指标,对数据进行分析与应用将是本课题重点探讨的问题。 [color=rgba(0, 0, 0, 0.9)]个性化文本生成旨在通过分析用户需求、喜好和行为特征,为用户提供量身定制的文本生成服务。尽管ChatGPT此类基于大规模语言模型的对话系统近期为用户带来了颠覆性的体验,但其在个性化生成方面仍有所欠缺,难以满足不同用户在各种场景下的需求。事实上,关于大规模语言模型个性化生成能力的研究仍然非常有限。本课题拟回顾并复现近年来在个性化文本生成领域的代表性成果,探索当前开源的大规模语言模型在个性化文本生成上的潜力,并尝试进行一些改进。 [color=rgba(0, 0, 0, 0.9)]分子表征是人工智能交叉生命科学的热点研究领域,主要关注如何将分子的结构和性质信息表示为适合深度学习模型处理的形式。在这个任务中,通常需要从分子结构中提取有意义的特征,并将这些特征转换为数值或向量形式以便在药物设计、材料科学等领域进行预测和分析。现有的分子表征手段主要有三种维度:基于1D smiles序列输入的序列模型、基于2D分子图的图神经网络模型以及基于3D结构坐标的模型。如何在深度学习模型的基础上充分利用结构信息进行分子表征学习是大家探究的难点。本课题将带领营员复现各种最前沿的分子表征方案,系统的对比不同表征方法之间的差别,探索分子表征过程中遇到的困难与问题以及体会人工智能交叉生命科学的意义。 [color=rgba(0, 0, 0, 0.9)]推理能力是人类智能的核心之一,对于一段文本,人类可以很容易从中推断出文本中没有显示表达的知识。例如,人类可以很容易从描述“一种黑白相间、喜欢吃竹子的中国特有哺乳动物”中推断出描述对象是熊猫。本课题提出这样的问题:现有AI作画模型是否具备人类这种推理能力?具体而言,本课题将重点关注上述例子中展示的基于属性的推理能力,即输入针对某一特定类别标签的描述性文本,观察AI作画模型是否可以生成合理的图片。构建数据集、量化评价指标将是本课题的研究重点。 [color=rgba(0, 0, 0, 0.9)]传统的小样本图像识别模型大多基于封闭世界的假设,即目标域测试集必属于训练类别。但是,实际应用场景往往不服从这个假设,在开放世界的假设下,模型需要处理测试集中的未知样本(例如小样本开放集识别和小样本类别增量式识别等)。在测试阶段,模型需要侦测出未知类别的样本,同时也要正确区分已知类别的样本,甚至再进一步学习未知类别的样本。如何利用多模态数据(图像,文本等)提升模型对未知类别样本的侦测能力和对已知类别样本的区分能力,同时避免灾难性遗忘是本课题探究的重点问题。 五、联系方式
|