Blogs

The Privacy Risk of Language Models - Defining data privacy attacks

By Michel Langelier posted 07-05-2022 15:53

  

Article from Paul Wu - June 12th 2022

In today’s world, large models with billions of parameters trained on terabytes of datasets have become the norm as language models are the foundations of natural language processing (NLP) applications. Several of these language models used in commercial products are also being trained on private information. An example would be Gmail’s auto-complete model. Its model is trained on the private communication that occurs amongst users, which contains sensitive information such as users’ names, SSN, and credit card information. 

Why should businesses be concerned? Well, with great power comes great risks. The lack of awareness of the privacy risks of language models and protection measures can result in data breaches and cause life-long damage to a company’s reputation. 

Note to the reader: to read the full article go to: https://www.private-ai.com/2022/06/17/the-privacy-risk-of-language-models/

Defining data privacy attacks

When understanding language modeling risks, it is important to note the different types of attacks. Firstly, we have membership inferences. A membership inference is an attack where the adversary can predict whether or not an example was used to train the model. Whereas, a training data extraction attack is more dangerous since it aims to reconstruct the training data points from the model output and attackers can extract private information memorized by the model, by crafting attack queries. 

Then there is the black-box attack. In a black-box attack, the attacker can only see the output of the model on arbitrary input, but can’t access the model parameters (see the figure below). This is the setting of machine learning as a service platform. An example would be querying the google translate engine with any English text they want and observing the French translation.

 

 

Lastly, there is the white-box attack. In a white-box attack, the attacker has access to the full model, including the model architecture and parameters that are needed to use the model for predictions. Thus, one can also observe the intermediate computations at hidden layers, as shown below.

1 comment
7 views

Permalink

Comments

09-26-2022 11:43

English follows: 
--

Le lien que vous partagez de Private AI est fascinant, ils ont mentionné que selon une enquête CISCO : les clients prennent désormais des décisions d'achat basées sur la confidentialité : 61 % des personnes ont déclaré qu'elles n'achèteraient pas auprès d'une entreprise si elles ne faisaient pas confiance à la façon dont cela société gère leurs données. De plus, 48 ​​% des personnes ont changé d'entreprise ou de fournisseur en raison de problèmes de confidentialité des données.

Même si les clients ne prennent pas leur argent ailleurs, il existe toujours des risques de revenus, qui dépendent intrinsèquement de pratiques responsables en matière de confidentialité. Alors que de plus en plus d'entreprises se tournent vers la vente de données ou prennent des décisions commerciales basées sur des données, il est essentiel de garder les données sécurisées et hors de portée des concurrents pour conserver un avantage concurrentiel.

Du côté des coûts, la confidentialité devient coûteuse à ignorer. Avec GDPR (Privacy standard in Europe), bientôt au Québec avec la loi 64 et l'avènement du CCPA, les amendes atteignent régulièrement des millions pour non-conformité, tout comme le coût des affaires perdues en raison d'atteintes à la réputation.

(note intéressante pour les entreprises québécoises en vigueur au 22 septembre 2022 : Désignation des personnes responsables des renseignements personnels Le projet de loi 64 introduit l'obligation pour les organisations de désigner une personne responsable de veiller au respect de la législation sur la protection des renseignements personnels. Dans les entités privées, cette personne devra, par défaut, être le PDG).

En général, la confidentialité des données et la cybersécurité dans le domaine de l'IAot sont essentielles, sans aller à long terme avec la certification ISO 27001, une meilleure solution à long terme, une option intermédiaire consiste à examiner la solution canadienne de cybersécurité (https://ised -isde.canada.ca/site/cybersecure-canada/fr), dans le cas de l'AIoT, plusieurs de nos membres sont spécialisés dans la confidentialité et la cybersécurité de l'AIoT.
Je recommande d'avoir une conversation avec eux, Dans le cas de Lambda du Québec, ils ont développé une plateforme d'auto-évaluation de la cybersécurité et de la confidentialité, les contacts sont : Martin Sampson (Martin.Samson@lambda.ca), Félix Lacoursière felix.lacoursiere@lambda. ca, et spécifiquement pour l'IdO et l'IA, Remikya (remikya.hellal@lambda.ca), ils se feront un plaisir de vous mettre à jour.

S'il vous plaît, membres d'AIoT Canada qui offrent des solutions de cybersécurité et de confidentialité, publiez votre nom et les détails de votre offre et partagez votre expertise avec les membres d'AIoT,

Cordialement à tous
A, Gaston CTO Flex Groups
1(514)58-1719 (ligne directe)

-- Eng.--

The link you share to Private AI is fascinating, they mentioned that according to a CISCO survey: customers are now making purchase decisions based on privacy: 61 percent of people said they wouldn’t buy from a company if they don’t trust how that company handles their data. In addition, 48 percent of people have switched companies or providers due to data privacy concerns.
Even if customers don’t take their money elsewhere, there are still revenue risks, that are intrinsically dependent on responsible privacy practices. As more companies move to either sell data or make business decisions based on data, keeping data secure — and out of the hands of competitors is critical to maintaining a competitive advantage.
On the cost side, privacy is becoming expensive to ignore. With GDPR (Privacy standard in Europe), soon in Quebec with law 64 and the advent of CCPA, fines regularly reach millions for non-compliance, as can the cost of lost business from reputational damage.

(interesting note for Quebec companies in force as of September 22, 2022: Designation of individuals responsible for personal information Bill 64 introduces the requirement that organizations designate an individual to be responsible for ensuring compliance with privacy legislation. In private entities, this person will, by default, be the CEO).

In General Privacy of Data and Cybersecurity in the field of AIot are critical, without going for the long haul with ISO 27001 certification, a Long term best solution, an in-between option is to look at the Canadian cybersecurity solution (https://ised-isde.canada.ca/site/cybersecure-canada/en), I the case of AIoT several of our members are specialized in privacy and AIoT cybersecurity.
I recommend having a chat with them, In the case of Lambda from Quebec, they developed a self-assessment cybersecurity and privacy platform, contacts are Martin Sampson (Martin.Samson@lambda.ca), Félix Lacoursière felix.lacoursiere@lambda.ca, and specifically for IoT and AI, Remikya (remikya.hellal@lambda.ca), they will be happy to update you.

Please, Members of AIoT Canada that offer Cybersecurity and privacy solutions, post your name and details of your offering and share your expertise with AIoT Members,

Best regards to all
A, Gaston CTO Flex Groups
1(514)58-1719 (Direct)