01 AIGC Hintergrund
Natürliche Sprachverarbeitung (Natural Language Processing, NLP) befähigt KI zu verstehen und zu generieren, und der Entwicklungstrend von NLP ist die Erstellung von Modellen in großem Maßstab. Die beiden Kernaufgaben von NLP sind das Verstehen natürlicher Sprache (Natural Language Understanding, NLU) und die Generierung natürlicher Sprache (Natural Language Generation, NLG), und ChatGPT ist eines der Meilensteinmodelle in der Entwicklung von NLP. chatGPT ist ein Chatbot-Modell, das von OpenAI aus der Feinabstimmung von Modellen der GPT-3.5-Serie generiert wurde, das menschliche Sprache lernen und verstehen kann, um einen Dialog zu führen, und auch entsprechend dem Kontext des Chats interagieren kann, um wirklich zu chatten und wie Menschen zu kommunizieren, und sogar E-Mails schreiben kann. ChatGPT ist ein Chatbot-Modell, das OpenAI aus der GPT-3.5-Serie weiterentwickelt hat. Es kann die menschliche Sprache lernen und verstehen, um einen Dialog zu führen, und es kann auch entsprechend dem Kontext des Chats interagieren, um wirklich wie ein Mensch zu chatten und zu kommunizieren, und es kann sogar Aufgaben wie das Schreiben von E-Mails, Videoskripten, Texten, Übersetzungen und Codierungen usw. erledigen. Die plötzliche Explosion von ChatGPT hat gezeigt, dass sich die KI über Nacht von einem 0,1 Jahre alten Kind zu einem 3 Jahre alten Kind entwickelt hat. Für die Zukunft ist zu erwarten, dass die Lernfähigkeit des Super-Deep-Modells mit der Zeit immer stärker und intelligenter wird, ähnlich wie bei den menschlichen Kindern. Das Deep Learning der KI hat den Engpass des Wachstums durchbrochen, von den Algorithmen über die Daten bis hin zur Unterstützung der zugrundeliegenden Rechenleistung sind im Wesentlichen alle technischen Probleme gelöst worden. In Zukunft wird der Bereich der KI in eine Phase des raschen Ausbruchs und des Wachstums eintreten, so dass die KI in der Lage sein wird, in kürzester Zeit von einem 3-jährigen Kind zu einem 8-Jährigen oder sogar zu einem 18-Jährigen zu lernen. Die Sicherheitsprobleme, die sich hinter den intelligenteren Technologien verbergen, werden immer besorgniserregender, und die Folgen eines Verlusts der Kontrolle über die Technologie werden störend und zerstörerisch sein. Daher sollten wir bei der Entwicklung von KI-Technologien und -Anwendungen, die auf Deep-Learning-Modellen basieren, im Voraus die neuen Sicherheitsfragen berücksichtigen, die sich aus der gesamten Kette ergeben. Nach den bisherigen Forschungsergebnissen betreffen die neuen Sicherheitsprobleme, die durch KI entstehen, hauptsächlich die folgenden Bereiche.
1.1 KI-TechnologierahmenBürgschaft
Wir wissen, dass alle von AIGC generierten Anwendungen keine Einzelinnovationen sind, sondern auf der Optimierung verschiedener Deep-Learning-Modelle, Open-Source-Frameworks und Algorithmen beruhen, um die Gesamtkombination zu erreichen. Der gesamte Zusammenstellungsprozess umfasst eine Vielzahl von Open-Source-Frameworks, Middleware, Algorithmen usw. Diese Frameworks und Middleware können verschiedene Sicherheitsprobleme aufweisen. Ein Beispiel dafür ist die jüngste Besorgnis über die Sicherheitsprobleme des Langchain-Frameworks Prompt Injection. Die Untersuchung dieser Frameworks und Algorithmen, um Sicherheitsprobleme so weit wie möglich von der Basis der Technologie aus zu vermeiden, ist eine der wichtigen Richtungen, um die Sicherheitsprobleme der AIGC-Verbindung zu lösen.
1.2 AIGC Inhaltliche Sicherheit
AIGC lernt durch ein umfangreiches Sprachmodell die Ausgabe einer Vielzahl von Inhalten. Die Konformität dieser Inhalte ist ein wichtiges Thema für die Einhaltung der Sicherheitsvorschriften. Es gibt zwei Hauptforschungsrichtungen. Das so genannte Problem der Inhaltskonformität besteht darin, dass AIGC bei der Erstellung von Inhalten die verschiedenen rechtlichen Anforderungen des jeweiligen Landes erfüllen muss. So dürfen beispielsweise keine Bilder mit diffamierenden politischen Figuren, Inhalte mit religiösen Farben oder Grafiken mit pornografischen Inhalten usw. ausgegeben werden. Alle generierten Inhalte und die endgültige Ausgabe müssen den Anforderungen des Landes entsprechen. Alle generierten Inhalte und die endgültige Ausgabe müssen streng gefiltert werden. Gegenwärtig kann selbst eine starke Anwendung wie ChatGPT-4 nur etwa 85% der Inhaltssicherheitsfilterung im Ausgabeprozess erreichen. Sicherheit ist jedoch ein Spiel von 0 und 1. Jede AIGC-Anwendung, die Probleme mit der Einhaltung der Vorschriften ihres Heimatlandes hat, kann mit astronomischen Geldstrafen belegt oder sogar vom Netz genommen werden, um den Dienst einzustellen. Ethische Sicherheitsfragen Die Frage der ethischen Sicherheit ist seit den Anfängen der KI ein Diskussionsthema. In der Vergangenheit, als die KI noch in den Kinderschuhen steckte und die meisten Menschen noch wenig über ihre Entwicklung wussten, beschränkte sich die Diskussion über dieses Thema auf Theorien und Konferenzen. Nun hat der über Nacht eingetretene Erfolg von ChatGPT allen klar gemacht, dass KI nun drei Jahre alt ist. Ethische Sicherheit ist nicht länger eine optionale Angelegenheit, sondern ein Thema, mit dem man sich dringend auseinandersetzen muss.
1.3 Datensicherheit
Das schnelle Wachstum der KI kann nicht ohne eine große Menge an Daten als Korpus erreicht werden, und das Training von LLM erfordert eine große Menge an Daten als Grundlage für die Parameteranpassung. Derzeit liegen die Daten mehrerer bekannter großer Modelle bei Hunderten von Milliarden von Parametern, und die betroffene Datenmenge beträgt mehr als 50 TB. Im täglichen Gebrauch können zahlreiche Unternehmen und Regierungen absichtlich oder unabsichtlich ihre sensiblen Daten an diese großen Modelle übertragen. Darüber hinaus bergen diese AIGCs eigene Sicherheitsprobleme, die es schwierig machen, sicherzustellen, dass die Kerndaten des Unternehmens nicht nach außen dringen. Eine Datenpanne dieses Ausmaßes könnte für eine Organisation fatal sein. Unabhängig davon, ob es sich um einen professionellen Angreifer oder einen politisch motivierten Interessenvertreter handelt, kann eine Datenverletzung dieses Ausmaßes dem Datenanbieter ernsthaften finanziellen und sogar physischen Schaden zufügen.
1.4 Innerstaatliche Regulierungspolitik
Der Staat hat stets großen Wert darauf gelegtNetzwerksicherheitIn den letzten Jahren wurden einschlägige Regulierungsmaßnahmen eingeführt, wie z. B. die Bestimmungen über die ökologische Verwaltung von Netzinformationsinhalten, die Volksrepublik ChinaNetzwerksicherheitGesetz, Volksrepublik China DatensicherheitsgesetzDarüber hinaus haben das Zentralkomitee der KPCh und der Staatsrat den "Gesamtplan für den Aufbau des digitalen Chinas", die "Verwaltungsvorschriften über die Empfehlung von Algorithmen für Internet-Informationsdienste", die "Maßnahmen zur Überprüfung der Netzsicherheit", die "Verwaltungsvorschriften über die Empfehlung von Algorithmen für Internet-Informationsdienste" und die "Verwaltungsvorschriften über die eingehende Synthese für Internet-Informationsdienste" erlassen. In dem kürzlich vom Zentralkomitee der KPCh und dem Staatsrat herausgegebenen "Gesamtplan für den Aufbau des digitalen Chinas" wird erneut betont, dass der Aufbau einer glaubwürdigen und kontrollierbaren digitalen Sicherheitsbarriere verstärkt werden muss. Wirksamer Schutz der Cybersicherheit und Verbesserung der CybersicherheitGesetze und VerordnungenDie rasche Entwicklung von AIGC wird auch immer größere Herausforderungen mit sich bringen. Gleichzeitig wird die rasche Entwicklung von AIGC auch immer größere Herausforderungen mit sich bringen: Erstens nimmt die Komplexität der Informationsmutation weiter zu, wie z. B. die Umgehung der Inhaltsregulierung durch die Mutation sensibler Wortvarianten und die Umgehung der Inhaltserkennung durch dynamische Änderungen in Bildern und Audio/Video; zweitens wird die Herausforderung der gegenseitigen Umwandlung multimodaler Inhalte immer ernster, was die Sicherheit der Inhalte noch stärker herausfordert; und drittens erhöht der Anstieg der Inhaltsproduktion allmählich die Anforderungen an die Sicherheit der Inhalte in Bezug auf Audit, Abruf und Genauigkeit. Drittens hat die steigende Produktion von Inhalten die Anforderungen an die Sicherheit von Inhalten in Bezug auf den Arbeitsaufwand für Audits, die Abrufrate und die Genauigkeitsrate schrittweise erhöht. Am 11. April veröffentlichte das Staatliche Internet-Informationsbüro einen Bericht über "Sicherheit und Schutz von Inhalten".generative künstliche Intelligenz (AI)(nachstehend "Verwaltungsmaßnahmen" genannt). In den Bewirtschaftungsmaßnahmen wird ausdrücklich vorgeschlagen, dass die Verwendung von generativenKünstliche Intelligenz (KI)Die generierten Inhalte sollten wahrheitsgemäß und genau sein, und es sollten Maßnahmen ergriffen werden, um die Generierung falscher Informationen zu verhindern. Gemäß den oben genannten Verwaltungsmaßnahmen muss die Bereitstellung von generativen KI-Produkten oder -Dienstleistungen den Anforderungen der Gesetze und Vorschriften entsprechen, die soziale Moral, die öffentliche Ordnung und die guten Sitten respektieren und die folgenden Anforderungen erfüllen.
- Die von der generativen KI erzeugten Inhalte sollten sozialistische Grundwerte verkörpern und keine Inhalte enthalten, die die Staatsmacht untergraben, das sozialistische System stürzen, zur Sezession aufrufen, die nationale Einheit untergraben, Terrorismus, Extremismus, ethnischen Hass, ethnische Diskriminierung, Gewalt, obszöne und pornografische Informationen, falsche Informationen oder Inhalte, die die Wirtschafts- und Sozialordnung stören könnten, fördern.
- Maßnahmen zur Verhinderung von Diskriminierung aufgrund von Rasse, ethnischer Zugehörigkeit, Glauben, Land, Region, Geschlecht, Alter, Beruf usw. bei der Entwicklung von Algorithmen, der Auswahl von Trainingsdaten, der Erstellung und Optimierung von Modellen und der Bereitstellung von Dienstleistungen.
- Respektieren Sie die Rechte an geistigem Eigentum und die Geschäftsethik und nutzen Sie keine Algorithmen, Daten, Plattformen oder andere Vorteile, um unlauteren Wettbewerb zu betreiben.
- Mit generativer KI erzeugte Inhalte sollten wahrheitsgetreu und genau sein, und es sollten Maßnahmen getroffen werden, um die Erzeugung falscher Informationen zu verhindern.
- die berechtigten Interessen anderer zu respektieren und die Schädigung der körperlichen und geistigen Gesundheit anderer, die Verletzung des Rechts auf Bildnis, Ehre und Privatsphäre sowie die Verletzung von Rechten an geistigem Eigentum zu verhindern. Verbieten Sie die unrechtmäßige Beschaffung, Weitergabe und Nutzung von persönlichen Informationen, Datenschutz und Geschäftsgeheimnissen.
In der Zwischenzeit weisen die Verwaltungsmaßnahmen darauf hin, dass Organisationen und Einzelpersonen, die Chat- und Text-, Bild- und Tonerzeugungsdienste unter Verwendung von generativen KI-Produkten anbieten (im Folgenden als "Anbieter" bezeichnet), einschließlich derjenigen, die andere bei der Erzeugung ihrer eigenen Texte, Bilder und Töne unterstützen, indem sie programmierbare Schnittstellen usw. bereitstellen, die Verantwortung der Produzenten der von solchen Produkten erzeugten Inhalte übernehmen müssen; wenn personenbezogene Daten betroffen sind, müssen sie die rechtliche Verantwortung der Verarbeiter personenbezogener Daten übernehmen und ihre Verpflichtungen zum Schutz personenbezogener Daten erfüllen. Handelt es sich um personenbezogene Daten, so übernimmt der Anbieter die rechtliche Verantwortung als Verarbeiter personenbezogener Daten und erfüllt die Verpflichtung zum Schutz personenbezogener Daten. Darüber hinaus weisen die Verwaltungsmaßnahmen darauf hin, dass der Anbieter vor der Bereitstellung von Diensten für die Öffentlichkeit mit generativen KI-Produkten die Sicherheitsbewertung bei der nationalen Netzinformationsabteilung gemäß den Bestimmungen über die Sicherheitsbewertung von Internet-Informationsdiensten mit Meinungsbildungs- oder Sozialmobilisierungseigenschaften erklären und die algorithmische Anmeldung sowie die Änderungs- und Löschungsverfahren gemäß den Bestimmungen über die Verwaltung der algorithmischen Empfehlung von Internet-Informationsdiensten durchführen muss. Die Anbieter leiten die Nutzer zum wissenschaftlichen Verständnis und zur rationellen Nutzung der durch generative künstliche Intelligenz erzeugten Inhalte an und verwenden die erzeugten Inhalte nicht, um das Image, den Ruf und andere legitime Rechte und Interessen anderer zu schädigen, oder um kommerzielle Spekulationen oder unangemessenes Marketing zu betreiben. Wenn Nutzer feststellen, dass die generierten Inhalte nicht den Anforderungen der Verwaltungsmaßnahmen entsprechen, haben sie das Recht, dies der Abteilung für Netzinformationen oder der jeweils zuständigen Abteilung zu melden.
1.5 Ausländische Regulierungspolitik
weltweitAI-RegulierungSie befindet sich noch in der Erprobungsphase, wobei die einschlägigen Gesetze, Verordnungen und Leitlinien schrittweise entwickelt werden. Die EU unternimmt Anstrengungen, um KI-Systeme wirksam zu regulieren. In den EU-Rechtsordnungen wurden umfassende rechtliche Instrumente zur Regulierung geschaffen: (1) KI-Gesetz (2) KI-Haftungsrichtlinie (3) Produkthaftungsrichtlinie (Softwareregulierung) (4) Gesetz über digitale Dienste (DSA) (5) Gesetz über digitale Märkte (DMA) Von diesen sind (4) und (5) plattformspezifisch, decken aber KI ab. Darüber hinaus gelten die EU-Nichtdiskriminierungsgesetze und Datenschutzgesetze weiterhin für KI-Systeme. Die KI-Verordnung der EU konzentriert sich jedoch in erster Linie auf herkömmliche KI-Modelle und nicht auf die neue Generation "groß angelegter generativer KI-Modelle", die die Art und Weise, wie wir kommunizieren, illustrieren und kreieren, rapide verändern, wie z. B. ChatGPT oder Stable Diffusion. Der Digital Services Act (DSA) ist das wichtigste Instrument der EU zur Bekämpfung schädlicher Sprache. Der Digital Services Act (DSA), das wichtigste Instrument der EU zur Bekämpfung schädlicher Äußerungen, gilt nicht für große generative KI-Modelle (Large Generative AI Models, LGAIM), was eine gefährliche Regelungslücke darstellt. EU-Industriechef Thierry Breton sagte am 3. Februar 2023, dass die von ChatGPT und KI-Systemen ausgehenden Risiken die dringende Notwendigkeit einer Regelung unterstreichen, die er letztes Jahr angesprochen hatte, und dass die Europäische Kommission eng mit dem Rat und dem Europäischen Parlament zusammenarbeitet, um die Regeln für KI-Systeme für allgemeine Zwecke im KI-Gesetzentwurf weiter zu klären. 7. Februar 2023 Die EU-Gesetzgeber hoffen, sich im März dieses Jahres auf einen Entwurf für ein KI-Gesetz einigen zu können, mit dem Ziel, bis Ende des Jahres eine Einigung mit den EU-Mitgliedstaaten zu erzielen, so mit der Angelegenheit vertraute Quellen. Die vorgeschlagene Gesetzgebung wurde jedoch sowohl von Gesetzgebern als auch von Verbrauchergruppen kritisiert, und in Verbindung mit den Problemen mit ChatGPT hat es etwas länger gedauert als ursprünglich angenommen. Nach dem derzeitigen Stand der Forschung ist es wahrscheinlich, dass die Überarbeitung einiger Definitionen und Regulierungsarten einige Zeit in Anspruch nehmen wird, wenn die EU-Gesetzgebung den durch ChatGPT aufgeworfenen Problemen begegnen soll: Hinzufügung der direkten Regulierung von Anwendern und Nutzern von "generativen KI-Großmodellen", einschließlich: (1) Regulierung von Transparenzfragen, (2) Risikomanagement (3) Nichtdiskriminierungsbestimmungen, die für "generative KI-Großmodelle" gelten, (4) Regulierung der Nutzung von "generativen KI-Großmodellen" und (5) Regulierung von "generativen KI-Großmodellen". (3) Nichtdiskriminierungsklauseln für Entwickler von "groß angelegten generativen KI-Modellen" (4) inhaltsspezifische Überprüfungsregeln. Am 29. März veröffentlichte das Ministerium für Wissenschaft, Innovation und Technologie der britischen Regierung ein Weißbuch für die KI-Branche, in dem die Regulierungsbehörden aufgefordert werden, einen maßgeschneiderten, kontextspezifischen Ansatz für die praktische Anwendung von KI vorzuschlagen; am 30. März erhielt die US Federal Trade Commission einen neuen Bericht des Center for Artificial Intelligence and Digital Policy, in dem eine Untersuchung von OpenAI und seinen Produkten gefordert wird; und am 31. Die italienische Datenschutzbehörde erklärte, ChatGPT habe möglicherweise gegen die Allgemeine Datenschutzverordnung der EU verstoßen, eine EU-weite Verordnung, die bei bestätigten Verstößen gegen die Datenschutzverordnung Strafen von bis zu 4% des weltweiten Jahresumsatzes eines Datenverarbeiters vorsieht; am 1. April sperrte OpenAI den Zugang für italienische Nutzer. Das US-Handelsministerium hat am 11. April eine formelle 60-tägige öffentliche Kommentierungsfrist für Maßnahmen zur Rechenschaftspflicht im Zusammenhang mit großen KI-Modellen festgelegt, einschließlich der Frage, ob neue KI-Modelle vor ihrer Veröffentlichung einem Zertifizierungsverfahren unterzogen werden sollten. Dies folgt auf eine Woche weltweiter Besorgnis über die potenziellen Risiken von ChatGPT, mit Plänen zur Verschärfung der Regulierung von ChatGPT in Italien, Deutschland und anderswo.
02 Technischer Rahmen der AIGC
2.1 AIGC
AIGC ist die Nutzung der Technologie der künstlichen Intelligenz zur Generierung von Inhalten. Im Vergleich zu UGC (User Generated Content, nutzergenerierte Inhalte) und PGC (Professional Generated Content, professionell generierte Inhalte) in den vorangegangenen Web-1.0- und Web-2.0-Ären ist AIGC, das die Konzeptualisierung von Inhalten durch KI darstellt, eine neue Runde des Wandels in der Art und Weise, wie Inhalte produziert werden, und AIGC-Inhalte werden auch in der Web-3.0-Ära ein exponentielles Wachstum erfahren.
2.2 Aufforderung
Verschiedene Schlüsselwörter oder Phrasen, die verwendet werden, um der KI Anweisungen zu geben, damit das Modell im Backend der AIGC-Anwendung die gewünschten Ergebnisse ausgibt, werden Prompts genannt. Hier sind einige der Komponenten, die Sie von Zeit zu Zeit in einem Prompt sehen werden:
- Zeichen
- Anweisungen/Aufgaben
- Ausgaben
- (inhaltlicher) Kontext
- Beispiel (wenige Aufnahmen)
2.3 chatgpt
Abkürzung für Generative Pre-trained Transformer. ChatGPT ist eine Erweiterung eines maschinellen Lernmodells für die Verarbeitung natürlicher Sprache, das als Large Language Model (LLM) bezeichnet wird. LLMs sind in der Lage, große Mengen von Textdaten zu lesen und zu lernen und Beziehungen zwischen Wörtern im Text abzuleiten. LLMs haben sich in den letzten Jahren mit zunehmender Rechenleistung weiterentwickelt. Mit der Vergrößerung des Eingabedatensatzes und des Parameterraums steigen auch die Fähigkeiten der LLMs. Die GPT-Familie und das BERT-Modell sind bekannte NLP-Modelle, die auf der Transformer-Technologie basieren; GPT-1 hatte nur 12 Transformer-Schichten, während es in GPT-3 auf 96 Schichten anwuchs. Der Hauptunterschied zwischen InstructGPT/GPT3.5 (dem Vorgänger von ChatGPT) und GPT-3 ist die Hinzufügung eines neuen Paradigmas namens RLHF (Reinforcement Learning from Human Feedback). Dieses Trainingsparadigma verbessert die menschliche Moderation der Modellausgaben und sorgt für eine verständlichere Anordnung der Ergebnisse.
2.4 Technische Architektur von ChatGPT
Originalartikel von Chief Security Officer, bei Vervielfältigung bitte angeben: https://cncso.com/de/2024-china-aigc-ai-security-report.html