nlp基础5-大模型法律-法律对大型语言模型的开发和部署的制约
新技术与现有法律的关系
目前没有特别的大型语言模型法律条例,当有新的强大的技术出现,就会引发很多关于现有法律是否仍然适用或有意义的问题。例如,随着互联网的重要性日益提高,互联网法律(或称为网络法)应运而生。它从现有的领域中汲取知识,如知识产权法,隐私法,和合同法等。
Internet Law: A Brief Introduction
Abstract
Internet law can be described as the field of law where the Internet plays a central role in the legal analysis. Existing law, sometimes after interpretation, is often used to solve Internet law issues. Many laws were written when the Internet did not exist or at least not in the way it does today. These laws were never meant for the Internet, where a single ‘click’ can have immense consequences and easily an almost infinite amount of people can be reached. There are also new norms that were specifically drafted for the Internet, such as those dealing with spam, cookies, electronic contracting, and cybercrime. The applicable legal framework is in a constant process of development.
When the Internet emerged, regulation did not seem necessary. However, with ever-increasing numbers of users, and the wide variety of online activities, Internet-related activities cannot do without law and regulation. This entry further describes Internet law and discusses legally relevant characteristics of the Internet. It then discusses the various fields of Internet law: Internet governance, intellectual property, e-commerce, cybercrime and cybersecurity, and data protection and privacy.
paper下载 https://papers.ssrn.com/sol3/Delivery.cfm/SSRN_ID3191751_code852015.pdf?abstractid=3191751&mirid=1
目录包含:电子商务、网络犯罪和网络安全、互联网隐私和数据保护
互联网的独特挑战
法律通常有明确的管辖范围(例如,州,联邦),但互联网并不受地理限制。
在互联网上可以保持匿名,任何人都可以发布一段内容,理论上可以被任何人查看。
【所以在互联网大背景下,一个地区的法律和另一个地区的法律条文可能产生冲突,如何调和这之间的冲突值得考虑】
法律与道德的区别
法律可以由政府强制执行,而道德无法强制执行,可以由任何组织创立。
医师的希波克拉底誓言Hippocratic Oath:First do no harm
ACM的道德与职业行为准则
1. GENERAL ETHICAL PRINCIPLES.
1.1 Contribute to society and to human well-being, acknowledging that all people are stakeholders in computing.
1.1 为社会和人类福祉做出贡献,承认所有人都是计算的利益相关者。
1.2 Avoid harm.
1.2 避免伤害。
1.3 Be honest and trustworthy.
1.3 诚实守信。
1.4 Be fair and take action not to discriminate.
1.4 保持公平,采取行动不歧视。
1.5 Respect the work required to produce new ideas, inventions, creative works, and computing artifacts.
1.5 尊重产生新想法、发明、创意作品和计算工件所需的工作。
1.6 Respect privacy.
1.6 尊重隐私。
1.7 Honor confidentiality.
1.7 遵守保密规定。
2. PROFESSIONAL RESPONSIBILITIES.
2.1 Strive to achieve high quality in both the processes and products of professional work.
2.1 努力在专业工作的过程和产品上实现高质量。
2.2 Maintain high standards of professional competence, conduct, and ethical practice.
2.2 保持高标准的专业能力、行为和道德实践。
2.3 Know and respect existing rules pertaining to professional work.
2.3 了解并尊重与专业工作有关的现有规则。
2.4 Accept and provide appropriate professional review.
2.4 接受并提供适当的专业审查。
2.5 Give comprehensive and thorough evaluations of computer systems and their impacts, including analysis of possible risks.
2.5 对计算机系统及其影响进行全面彻底的评估,包括对可能的风险进行分析。
2.6 Perform work only in areas of competence.
2.6 只在能力范围内开展工作。
2.7 Foster public awareness and understanding of computing, related technologies, and their consequences.
2.7 促进公众对计算、相关技术及其后果的认识和理解。
2.8 Access computing and communication resources only when authorized or when compelled by the public good.
2.8 只有在获得授权或公共利益强制的情况下才能访问计算和通信资源。
2.9 Design and implement systems that are robustly and usably secure.
2.9 设计和实施稳健且可用的安全系统。
3. PROFESSIONAL LEADERSHIP PRINCIPLES.
3.1 Ensure that the public good is the central concern during all professional computing work.
3.1 确保在所有专业计算工作中,公共利益是核心关注点。
3.2 Articulate, encourage acceptance of, and evaluate fulfillment of social responsibilities by members of the organization or group.
3.2 阐明、鼓励接受和评估组织或团体成员履行社会责任的情况。
3.3 Manage personnel and resources to enhance the quality of working life.
3.3 管理人员和资源,提高工作生活质量。
3.4 Articulate, apply, and support policies and processes that reflect the principles of the Code.
3.4 阐明、应用和支持反映本准则原则的政策和流程。
3.5 Create opportunities for members of the organization or group to grow as professionals.
3.5 为组织或团体的成员创造成长为专业人士的机会。
3.6 Use care when modifying or retiring systems.
3.6 修改或停用系统时要小心。
3.7 Recognize and take special care of systems that become integrated into the infrastructure of society.
3.7 认识并特别照顾融入社会基础设施的系统。
4. COMPLIANCE WITH THE CODE.
4.1 Uphold, promote, and respect the principles of the Code.
4.1 坚持、促进和尊重本准则的原则。
4.2 Treat violations of the Code as inconsistent with membership in the ACM.
4.2 将违反本准则的行为视为与 ACM 成员资格不一致。
法律的管辖权问题
根据你所在的地方(哪个国家,哪个州等),适用的法律会有所不同。
例如,欧盟的数据隐私法GDPR比美国的法律更全面。法律可以在联邦、州或地方级别存在。
法律的类型
常见的法律类型包括普通法(司法)、成文法(立法)和监管法(行政)。
大型语言模型
我们将会把注意力转向大型语言模型。回忆一下大型语言模型的生命周期:收集训练数据,训练大型语言模型,将其适应到下游任务,向用户部署语言模型。
在大型语言模型的生命周期中,有两个主要领域与法律交叉:数据和应用。
数据
所有的机器学习都依赖于数据。语言模型依赖于大量的数据,尤其是为其他目的制作的他人的数据,这些数据往往在未经许可的情况下被抓取。
知识产权法保护数据的创作者,那么在这些数据上训练语言模型是否构成侵犯版权?
隐私法保护个人隐私权,那么在公开或私密数据上训练语言模型是否可能侵犯隐私?
对于私密数据,何时可以收集和汇总这些数据?
应用
语言模型可以被用于广泛的下游任务(例如,问答,聊天机器人)。
技术可能被有意用于伤害(例如,垃圾邮件,网络钓鱼攻击,骚扰,假新闻)。
现有的互联网欺诈和滥用法律可能覆盖其中的一部分。
他们可以被部署在各种高风险的环境(例如,医疗,贷款,教育)。
现有的在相关领域的规定(例如,医疗)可能覆盖其中的一部分。
大型语言模型的扩展能力(例如,真实文本生成,聊天机器人)将带来新的挑战。
版权法
决定是否适用公平使用的四个因素是:
使用的目的和性质(教育用途优于商业用途,转型用途优于复制);
版权作品的性质(虚构作品优于事实作品,创新性的程度);
使用的原作部分的数量和实质性;
使用对原作市场(或潜在市场)的影响。
将机器学习视为公平使用的论据:训练数据的广泛访问会为社会创造更好的系统。如果不允许使用,那么大部分作品无法用来产生新的价值。使用版权数据可能更公平。
反对将机器学习视为公平使用的论据:认为机器学习系统不会产生创意的“最终产品”,而只是赚钱。
生成模型(例如,语言模型)可以与创意专业人士竞争。
机器学习系统的问题(传播假信息,实现监控等),因此不应该给予机器学习系统利益的怀疑。
信息技术三个阶段
第一阶段:文本数据挖掘(搜索引擎),基于简单的模式匹配。
第二阶段:分类(例如,分类停止标志或情感分析),推荐系统。
第三阶段:学习模仿表达的生成模型。
由于网络爬取的未筛选性质,你必须诉诸公平使用(从每个人那里获得许可证将非常困难)。
模型的生成性可能会对争论公平使用提出挑战(可以与人类竞争)。
在什么水平上进行调控(语言模型还是下游应用)是有意义的?
拓展阅读
Foundation models report (legality section)
Fair Learning | Texas Law Review
公平学习,德克萨斯州法律评论
这篇文章主要是关注版权、法律和机器学习之间的关系,并且探讨了法律应该如何对待机器人和人类。相反,人应该被给予机会,以自然学习的方式学习一个有版权的作品。
总之机器学习需要大量有版权的材料作为训练数据,公平的使用不仅仅需要转换版权,还要保留我们创造、分享新idea的权利。换言之,这是在保留我们学习的权利,无论学习的主体是人还是机器人。
You Might Be a Robot (cornelllawreview.org)