Bao nhiêu thông tin bạn có thể khai thác từ một cái tên?


11

Tên: đầu tiên, có thể là tên đệm và họ.

Tôi tò mò về bao nhiêu thông tin bạn có thể khai thác từ một cái tên, sử dụng các bộ dữ liệu có sẵn công khai. Tôi biết rằng bạn có thể nhận được những điều sau với bất kỳ nơi nào có xác suất thấp (tùy thuộc vào đầu vào) bằng dữ liệu điều tra dân số Hoa Kỳ: 1) Giới tính. 2) Chủng tộc.

Chẳng hạn, Facebook đã sử dụng chính xác điều đó để tìm hiểu, với mức độ chính xác khá cao, phân phối chủng tộc người dùng trang web của họ (https://www.facebook.com/note.php?note_id=205925658858).

Những gì khác có thể được khai thác? Tôi không tìm kiếm bất cứ điều gì cụ thể, đây là một câu hỏi rất cởi mở để xoa dịu sự tò mò của tôi.

Ví dụ của tôi là cụ thể của Hoa Kỳ, vì vậy chúng tôi sẽ cho rằng tên đó là tên của một người nào đó ở Hoa Kỳ; nhưng, nếu ai đó biết về các bộ dữ liệu có sẵn công khai cho các quốc gia khác, tôi cũng sẽ cởi mở hơn với họ.

Tôi không chắc đây có phải là nơi thích hợp cho việc này không, nếu không, tôi đánh giá cao nếu ai đó có thể chỉ cho tôi một nơi thích hợp hơn.

Tôi hy vọng đây là một câu hỏi thú vị, và đây là nơi thích hợp!


2
có lẽ bạn cũng có thể nhận được một cái gì đó về vị trí địa lý, nếu bạn có thể có được dữ liệu phù hợp? Bạn cũng có thể sử dụng thông tin về mức độ phổ biến của tên đầu tiên theo thời gian (google "thuật sĩ tên bé") để suy luận về tuổi ...
Ben Bolker

1
Tôi đã hợp nhất câu hỏi chuyển với trùng lặp.

Câu trả lời:


12

Đây không phải là một câu trả lời nghiêm túc, nhưng tôi chỉ nhớ một cái gì đó từ một cuốn sách tôi đọc cách đây một năm. Có một chương trong Freakonomics dành cho những gì bạn có thể nói về một người từ cái tên. Chương này dựa trên tài liệu nghiên cứu của tác giả Nguyên nhân và hậu quả của những cái tên đen đặc biệt

Tôi nghĩ rằng tôi đã tìm thấy một đoạn trích hoặc tóm tắt về nó trong bài viết này

Dữ liệu cho thấy, trung bình, một người có tên màu đen đặc biệt, dù đó là một phụ nữ tên Imani hay một người đàn ông tên DeShawn, có kết cục cuộc sống tồi tệ hơn một phụ nữ tên Molly hoặc một người đàn ông tên Jake. Nhưng đó không phải là lỗi của tên anh ấy hoặc cô ấy. Nếu hai cậu bé da đen, Jake Williams và DeShawn Williams, được sinh ra trong cùng một khu phố và có cùng hoàn cảnh gia đình và kinh tế, chúng có thể sẽ có kết quả cuộc sống tương tự. Nhưng kiểu cha mẹ đặt tên cho con trai Jake không có xu hướng sống cùng khu phố hoặc chia sẻ hoàn cảnh kinh tế với kiểu cha mẹ đặt tên cho con trai là DeShawn. Và đó là lý do tại sao, trung bình, một cậu bé tên Jake sẽ có xu hướng kiếm được nhiều tiền hơn và được giáo dục nhiều hơn một cậu bé tên DeShawn. DeShawn '


4

Từ tên đầu tiên dự đoán khu vực, tuổi, tình trạng nhập cư thế hệ đầu tiên. Từ tên cuối cùng, bạn có thể dự đoán vị trí địa lý của bảo trợ gốc. Đối với tên đầy đủ, bạn có thể dự đoán tình trạng kinh tế và xã hội (Thurston Howell III).


+1 chỉ cho lần đề cập đầu tiên trên trang web này về nhân vật Đảo của Gilligan.
rolando2

4

Chỉ cần thêm vào các đề xuất khác ở đây, một trong những nguồn lớn nhất cho dữ liệu gia đình là một loạt các trang phả hệ ngoài kia. Tôi nghĩ rằng hầu hết người phương Tây có thể được liệt kê bởi một số thành viên gia đình, xa hoặc một số người khác và bất kỳ sự bao gồm như vậy đi kèm với một cây gia đình thường toàn diện kèm theo, đầy đủ các địa điểm, chi tiết sinh, vv Rất nhiều thông tin.

Nếu bạn kết hợp dữ liệu đó với biểu đồ bạn bè trong Facebook, vì mọi người có xu hướng thêm anh chị em / anh em họ (và cha mẹ / con cái), thì hãy sử dụng dữ liệu định vị với các vai trò và thư mục bầu cử, bạn thường có thể xác định chính xác mọi người ngay cả với tên chung, và nhận được một lượng lớn dữ liệu đáng ngạc nhiên về chúng.


3

Chương cuối cùng của Freakonomics (2005, Steven D. Levitt và Stephen J. Dubner) có một cuộc thảo luận hấp dẫn về tên, đặc biệt là khi chúng liên quan đến tình trạng kinh tế xã hội và chủng tộc.

Họ có một danh sách các tên đầu tiên có thể có hoặc không tương quan tốt với phân tích tên của FB. Họ cũng mô tả cách lựa chọn tên thay đổi theo thời gian (theo thời gian).

Ai biết được - tên lựa chọn của cha mẹ có thể chính xác hơn những gì mọi người báo cáo về điều tra dân số.


3

Bạn đã có rất nhiều gợi ý hay ở trên, vì vậy tôi sẽ chỉ đề cập đến một giai thoại thú vị. Một sinh viên mùa hè (hiện là nhà khoa học máy tính nổi tiếng) tại phòng thí nghiệm nghiên cứu của công ty (vẫn không tên) đã xem dữ liệu từ danh bạ điện thoại trực tuyến của công ty và xây dựng mô hình dự đoán cho mức lương sử dụng ký tự n-gram từ tên. Dự đoán mạnh nhất là ez_ chỉ ra mức lương thấp hơn, một phát hiện mà tôi tưởng tượng rằng anh ta không được khuyến khích nói về ...


2

Bạn có thể có thể tìm ra:

  1. Nghề nghiệp và có thể lịch sử công việc, nếu một người tham gia vào bất kỳ cuộc thảo luận chuyên môn nào (công việc hiện tại thường có thể được tìm thấy từ một trong hai tên miền trong email hoặc chữ ký, tìm kiếm cũng sẽ tiết lộ quá khứ)
  2. Người thân, nếu một người duy trì hồ sơ trên mạng xã hội.
  3. Vị trí hiện tại, ít nhất là lên đến thành phố.
  4. Nền tảng dân tộc, nếu một người có tên riêng biệt (ví dụ, ai đó tên là "Lubomir" có thể được kết nối với một trong các quốc gia châu Âu Slavơ, v.v.).
  5. Ngày sinh từ các mạng xã hội - mọi người có xu hướng chúc mừng một người vào hoặc khoảng ngày sinh của anh ấy, và nếu bạn may mắn, bạn cũng sẽ nhận được một năm khi một người bước sang tuổi 25, 30, 35, v.v. như một trong những người chúc mừng có lẽ sẽ đề cập đến nó. nếu không phải là người trong câu hỏi
  6. Nền tảng giáo dục - từ LinkedIn, v.v.
  7. Sở thích, đội thể thao yêu thích, vv
  8. Nếu một người là người yêu thú cưng, có lẽ anh ta cũng có tất cả thú cưng của mình trên mạng xã hội.

Mà btw có nghĩa là bạn không bao giờ nên sử dụng bất cứ thứ gì từ danh sách trên cho mật khẩu, câu hỏi bí mật, v.v.


Thế còn những người có cùng tên với bạn ... có một số "Dean Harding" ngoài kia, một trong số họ thậm chí còn là một cầu thủ bóng đá chuyên nghiệp! "DeanHending" trên twitter không phải là tôi, có hàng trăm "Dean Harding" trên Facebook, v.v ...

Điều đó phụ thuộc vào cơ hội, tất nhiên. Thông thường bạn có thể tìm ra cái nào là nghề nghiệp, địa điểm, v.v. mặc dù tôi đã thấy những trường hợp có 3 người có cùng tên, trong cùng một nghề và sống trong cùng một khu vực. Sau đó, tất nhiên nó trở nên khó khăn hơn :)

2

Darden và Robinson (1976) đã cố gắng tìm ra một cấu trúc ngôn ngữ hướng dẫn các hiệp hội của mọi người về tên của đàn ông. Họ yêu cầu hai nhóm đối tượng (sinh viên xã hội học và sĩ quan hải quân) đánh giá một tập hợp các tên phổ biến của Mỹ cùng với sự khác biệt về ngữ nghĩa như mềm dẻo, phổ biến và dân thành thị. Họ cũng yêu cầu các phán đoán tương đồng giữa các cặp tên khác nhau và bằng cách xác nhận, chúng tương quan các phương tiện từ các khác biệt ngữ nghĩa với các kích thước mà chúng tìm thấy, cả trong ba và bốn giải pháp D, sử dụng thủ tục TORSCA MDS.

Các tác giả đã tìm thấy giải pháp 3-D của họ tương ứng với bộ ba kích hoạt, đánh giá và tiềm năng cổ điển của Osgood. Trong bốn chiều, không gian phù hợp với dữ liệu tốt hơn một chút và ở đây họ giải thích cấu trúc như tùy thuộc vào nhân vật, thời gian trưởng thành, tính xã hội, tính xã hội, tính bạo lực, và mặc dù các thang đo này dường như không được định nghĩa rõ ràng như các tác giả đề nghị. Một phát hiện đáng ngạc nhiên xuất phát từ nghiên cứu là, ít nhất là đối với hai mẫu nhỏ này (n = 83 và 21), không có thứ nguyên nào xuất hiện tương ứng với sự phân biệt giữa tên và biệt danh.

Darden, DK và Robinson, IE (1976). Chia tỷ lệ đa chiều của tên đầu tiên của nam giới: Một cách tiếp cận xã hội học. Xã hội học, 39 , 4, 422-431.


1

Lượng thông tin có thể được tìm thấy rất khác nhau, từ chủng tộc và giới tính, đến tất cả các loại thông tin cá nhân. Đặt cược tốt nhất của bạn để có được thông tin sẽ là các trang web mạng xã hội như facebook, vì chúng thường cung cấp nhiều thông tin hơn cơ sở dữ liệu cencus.


1

Có khá nhiều thông tin bạn có thể nhận được tùy thuộc vào nguồn bạn sử dụng. Dữ liệu điều tra dân số là một điều hiển nhiên. Bạn cũng có thể lấy thông tin từ Facebook, MySpace và các trang mạng xã hội khác. Bạn cũng có thể tìm kiếm kho lưu trữ tin tức công cộng để đề cập đến tên của họ. Thậm chí có thể những trang web bất động sản phổ biến mà một số tiểu bang có.

Nếu bạn muốn một ví dụ thế giới thực về những gì có thể được thực hiện, hãy xem pipl.com


Ông có thể cho chúng tôi biết nơi nào (bất cứ nơi nào trên thế giới) chúng tôi có thể tìm thấy dữ liệu Điều tra dân số có tên ?
whuber

1

Bạn có thể tìm kiếm bằng cấp, bằng lái xe, hồ sơ cảnh sát (đó có phải là bản dịch đúng không?). Với facebook bạn có thể tìm thấy thông tin về sở thích, thể thao, thích âm nhạc. Bạn cũng có thể tìm tỷ lệ phương tiện truyền thông xã hội của người dùng khác với một tên cụ thể. (Tôi sẽ quan tâm đến kết quả này)



0

Nếu bạn biết điều gì đó về vị trí của cá nhân, một nguồn thông tin là cơ sở dữ liệu đăng ký cử tri. Nhiều cơ sở dữ liệu đăng ký cử tri có sẵn (có tính phí; có những công ty mua chúng và cung cấp quyền truy cập trực tuyến cho họ, với một khoản phí). Cơ sở dữ liệu đăng ký cử tri có thể có địa chỉ và / hoặc ngày sinh của cá nhân. Thông tin đó có thể cho phép bạn tra cứu cá nhân trong các cơ sở dữ liệu khác.

Tuy nhiên, có giới hạn về mức độ này giúp. Điều này có thể hữu ích nếu bạn biết thành phố hoặc quận nơi người đó sống và nếu tên của họ khá bất thường. Nhưng nếu đây là một tên phổ biến hoặc nếu bạn không biết họ sống ở đâu, thì có lẽ điều đó sẽ không giúp ích gì cho bạn.


0

một trong những nguồn lớn nhất cho dữ liệu có thể truy cập công khai bao gồm nhiều thuộc tính hữu ích khác là văn phòng thư ký quận cho hồ sơ sở hữu tài sản. tổ chức phát hành liên quan đến việc kéo tất cả dữ liệu lại với nhau ... một số tiểu bang cung cấp cơ sở dữ liệu trung tâm nhưng các quốc gia khác thì không.


Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.