Who trusts AI more - women or men? Социальные науки - левые? Заранее планировать есть полезную пищу, кажется, эффективная стратегия. Будут ли дети врать, если им разрешить делать это? Психологи заставили испытуемых смотреть на секс животных. В Российском университете дружбы народов (РУДН) для дипломной работы ищут респондентов. A number of studies suggest that loneliness contributes to cognitive decline. However, there is also contradictory evidence. Если проигрываете в межличностном конфликте, то как всё-таки разрушить репутацию оппонента? В исследование для дипломной работы в Казахский национальный университет имени аль-Фараби (КазНУ) ищут испытуемых. А чо там с абьюзивными отношениями? Цикличность в отношениях - это когда постоянно расстаётесь и примиряетесь. Семнадцатые 10 постов с тегом "разное". Who trusts AI more - women or men? Социальные науки - левые? Заранее планировать есть полезную пищу, кажется, эффективная стратегия. Будут ли дети врать, если им разрешить делать это? Психологи заставили испытуемых смотреть на секс животных. В Российском университете дружбы народов (РУДН) для дипломной работы ищут респондентов. A number of studies suggest that loneliness contributes to cognitive decline. However, there is also contradictory evidence. Если проигрываете в межличностном конфликте, то как всё-таки разрушить репутацию оппонента? В исследование для дипломной работы в Казахский национальный университет имени аль-Фараби (КазНУ) ищут испытуемых. А чо там с абьюзивными отношениями? Цикличность в отношениях - это когда постоянно расстаётесь и примиряетесь. Семнадцатые 10 постов с тегом "разное".

пост

/p/can-ai-be-trusted-to-moderate-hate-speech
Станислав Скорик @stskorik /

Can AI be trusted to moderate hate speech?

Can AI be trusted to moderate hate speech?

Sample: 1,3 million generated statements.

Researchers created 1,3 million synthetic hate speech examples using a template: a quantifier ("all" or "some"), a target group (e.g., сhristians, immigrants, women), and a derogatory statement. This produced sentences like "All white nationalists are criminals". Seven AI moderation systems then analyzed these statements.

Shown: the same hateful statement could be flagged as hate speech by one AI system and deemed acceptable by another. Disagreements were especially stark for statements targeting groups based on education, social status, or interests (e.g., "woke people," "christians"). AI moderation lacks a unified standard, leading to decisions that often seem arbitrary, unpredictable, and unfair. The definition of "hate speech" is notoriously vague, so models can't rely on a consistent rulebook during training.

Like if you want to become a scientist and generate hate speech!

Link to an article.

0

комментарии · 0

свежее

комментируют только авторизованные через telegram

минимальная защита от спам-ботов. анонимность сохраняется.